ARCHIVE

Discover benchmark runs conducted by Autobench, showcasing results across all the available models.

Most Recent Run

AutoBench Agentic Run 1 - April 2026

Date

April 19, 2026

Version

2026-04-19

Models

New Models

The first AutoBench run to measure agentic performance of top LLMs

View Results→

Past Runs

AutoBench Agentic Run 1 - April 2026

Date

April 16, 2026

Version

2026-04-16

Models

New Models

The first AutoBench run to measure agentic performance of top LLMs

View Results→

AutoBench Run 5 - December 2025

Date

December 19, 2025

Version

2025-12-19

Models

New Models

Latest AutoBench run with models Gpt 5.2, Claude Opus 4.5, Gemini 3 Flash and more

View Results→

AutoBench Run 5 - December 2025

Date

December 16, 2025

Version

2025-12-16

Models

New Models

Latest AutoBench run with models Gpt 5.2, Claude Opus 4.5, DeepSeek 3.2 Speciale and more

View Results→

AutoBench Agronomy LLM Benchmark - December 2025

Date

December 10, 2025

Version

2025-12-10

Models

New Models

The first AutoBench run for the Agronomy domain with models Gemini 3 Pro, Gpt 5.1, Grok 4.1, Opus 4.5 and more

View Results→

AutoBench Run 4 - November 2025

Date

November 28, 2025

Version

2025-11-28

Models

New Models

Latest AutoBench run with models Gemini 3 Pro, Gpt 5.1, Grok 4.1 and more

View Results→

AutoBench Run 3 - August 2025

Date

August 14, 2025

Version

2025-08-14

Models

New Models

Latest AutoBench run with enhanced metrics including evaluation iterations and fail rates

View Results→

AutoBench Run 2 - April 2025

Date

April 25, 2025

Version

2025-04-25

Models

New Models

Second major AutoBench run with o4-mini, GPT-4.1-mini, Gemini 2.5 Pro Preview, Claude 3.7 Sonnet:thinking, etc.

View Results→