BenchLM Benchmarks

207 benchmarks · 927 model scores · Data from Jul 25, 2026

All Coding Agentic Reasoning Knowledge Multimodal Math Multilingual Instruction Following External

Agentic38 benchmarks

terminal Bench2

45 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Claude Mythos 5Anthropicclaude-mythos-5

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4GPT-5.6 LunaOpenAI · Closed

5Claude Fable 5Anthropic · Closed

+40 more

browse Comp

33 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Kimi K3Moonshot AIkimi-3

3Claude Opus 5Anthropicclaude-opus-5

4GPT-5.5 ProOpenAI · Closed

5GPT-5.4 ProOpenAI · Closed

+28 more

hle With Tools

10 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Sonnet 5Anthropicclaude-sonnet-5

3Qwen3.7 MaxAlibabaqwen3-7-max

4DeepSeek V4 Pro (Max)DeepSeek · Open weight

5Agents-A1InternScience · Open weight

+5 more

gdpval Aa

87 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Fable 5Anthropicclaude-fable-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Kimi K3Moonshot AI · Closed

5Claude Sonnet 5Anthropic · Closed

+82 more

gdpval Aa Normalized

87 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Fable 5Anthropicclaude-fable-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Kimi K3Moonshot AI · Closed

5Claude Sonnet 5Anthropic · Closed

+82 more

aa Agentic Index

86 models

1Claude Opus 5Anthropicclaude-opus-5

2GPT-5.6 SolOpenAIgpt-5-6-sol

3Claude Fable 5Anthropicclaude-fable-5

4Kimi K3Moonshot AI · Closed

5GPT-5.6 TerraOpenAI · Closed

+81 more

apex Agents Aa

27 models

1Gemini 3.5 FlashGooglegemini-3-5-flash

2Kimi K3Moonshot AIkimi-3

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4GPT-5.5OpenAI · Closed

5GPT-5.6 LunaOpenAI · Closed

+22 more

gert Labs

56 models

1Claude Opus 4.8Anthropicclaude-opus-4-8

2GPT-5.5OpenAIgpt-5-5

3Claude Opus 4.7Anthropicclaude-opus-4-7

4GPT-5.4OpenAI · Closed

5Qwen3.7 MaxAlibaba · Closed

+51 more

os World Verified

27 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Fable 5Anthropicclaude-fable-5

3Claude Opus 4.8Anthropicclaude-opus-4-8

4Gemini 3.6 FlashGoogle · Closed

5Holo3-35B-A3BH Company · Open weight

+22 more

cyber Gym

14 models

1Fugu CyberSakana AIsakana-fugu-cyber

2GPT-5.6 SolOpenAIgpt-5-6-sol

4GPT-5.6 TerraOpenAI · Closed

5GPT-5.5OpenAI · Closed

6GPT-5.4OpenAI · Closed

+9 more

browse Comp Vl

1 models

1Z.AIglm-5v-turbo51.9%

os World

1 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

android World

5 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Holo3.1-35B-A3BH Companyholo3-1-35b-a3b

3Holo3.1-4BH Companyholo3-1-4b

4Holo3.1-9BH Company · Open weight

5Qwen3.6-27BAlibaba · Open weight

web Voyager

1 models

1Z.AIglm-5v-turbo88.5%

mcp Atlas

30 models

1Muse Spark 1.1Metamuse-spark-1-1

2Claude Opus 5Anthropicclaude-opus-5

3Kimi K3Moonshot AIkimi-3

4Gemini 3.5 FlashGoogle · Closed

5Claude Opus 4.8Anthropic · Closed

+25 more

toolathlon

26 models

1Muse Spark 1.1Metamuse-spark-1-1

2Claude Opus 4.8Anthropicclaude-opus-4-8

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Gemini 3.5 FlashGoogle · Closed

5GPT-5.5OpenAI · Closed

+21 more

z Claw Bench

1 models

1Z.AIglm-5-turbo56.4%

tau2 Bench

142 models

4Step 3.7 FlashStepFun · Open weight98.5%

5GLM-5-TurboZ.AI · Closed98.5%

6GLM-5V-TurboZ.AI · Closed98.5%

7GLM-5Z.AI · Open weight98.2%

8GLM-5.1Z.AI · Open weight97.7%

+137 more

deep Search Qa

12 models

1Claude Opus 5Anthropicclaude-opus-5

2Kimi K3Moonshot AIkimi-3

3Claude Opus 4.8Anthropicclaude-opus-4-8

4Step 3.7 FlashStepFun · Open weight

5Kimi K2.6Moonshot AI · Open weight

+7 more

tau2 Airline

0 models

pinch Bench

43 models

1Anthropic93.5%Overall

2Qwen3.7 MaxAlibabaqwen/qwen3.7-max

5MiMo-V2.5Xiaomi · Closed

6Grok Build 0.1xAI · Closed

7GPT-5.6 LunaOpenAI · Closed

+38 more

open Hands Index

33 models

1Claude Fable 5Anthropicclaude-fable-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7

4Claude Opus 4.6Anthropic · Closed

5GPT-5.5OpenAI · Closed

+28 more

swe Atlas Refactoring

12 models

1Anthropic54.8%Overall

4GPT-5.5OpenAI · Closed

5GPT-5.4OpenAI · Closed

6GLM-5.2Z.AI · Open weight

7GPT-5.3 CodexOpenAI · Closed

+7 more

inference Bench

16 models

1Claude Opus 4.8 (xHigh)Anthropic7.34x

2GPT-5.4 (High)OpenAI6.16x

3Claude Sonnet 4.6Anthropic5.56x

4GPT-5.3 Codex (High)OpenAI · Closed

5GPT-5.5 (xHigh)OpenAI · Closed

+11 more

bfcl V4

9 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3LFM2.5-8B-A1BLiquidAIlfm2-5-8b-a1b

4Mellum2-12B-A2.5B-ThinkingJetBrains · Open weight

5Mellum2-12B-A2.5B-InstructJetBrains · Open weight

+4 more

mle Bench Lite

1 models

1MiniMax M2.7MiniMaxminimax-m2-7

mm Claw Bench

2 models

1MiniMax M2.7MiniMaxminimax-m2-7

2MiMo-V2.5Xiaomimimo-v2-5

claw Eval

26 models

1Claude Opus 4.6Anthropicopus46

2Step 3.7 FlashStepFunstep_37_flash

3Claude Sonnet 4.6Anthropicsonnet46

4MiMo-V2.5-ProXiaomi · Closed

5Muse SparkMeta · Closed

+21 more

qwen Claw Bench

10 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen 3.6 Max (preview)Alibabaqwen3-6-max-preview

4Qwen3.6 PlusAlibaba · Closed

5Kimi K2.5Moonshot AI · Open weight

+5 more

qwen Web Bench

5 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen 3.6 Max (preview)Alibabaqwen3-6-max-preview

4Qwen3.6-27BAlibaba · Open weight

5Qwen3.6-35B-A3BAlibaba · Open weight

tau3 Bench

8 models

1Mistral Medium 3.5 128BMistralτ³-bench Telecom

4Qwen3.6 PlusAlibaba · Closed70.7%

5GLM-5.1Z.AI · Open weight70.6%

6Claude Opus 4.5Anthropic · Closed70.2%

7Qwen3.5 397BAlibaba · Open weight68.4%

+3 more

vita Bench

10 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.6 PlusAlibabaqwen3-6-plus

4Qwen3.5 397BAlibaba · Open weight

5Agents-A1InternScience · Open weight

+5 more

deep Planning

7 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Qwen3.5 397BAlibabaqwen3-5-397b

4Claude Opus 4.5Anthropic · Closed

5Qwen3.6-35B-A3BAlibaba · Open weight

+2 more

mcp Tasks

5 models

1Qwen3.5 397BAlibabaqwen3-5-397b

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Claude Opus 4.5Anthropicclaude-opus-4-5

4GLM-5Z.AI · Open weight

5Kimi K2.5Moonshot AI · Open weight

wide Research

7 models

1Kimi K2.6Moonshot AIkimi-2-6

2Claude Opus 4.5Anthropicclaude-opus-4-5

3Qwen3.6 PlusAlibabaqwen3-6-plus

4Qwen3.5 397BAlibaba · Open weight

5Kimi K2.5Moonshot AI · Open weight

+2 more

gaia

1 models

1Anthropicclaude-mythos-552.3%

mewc

1 models

1MiniMax M2.5MiniMaxminimax-m2-5

finance Agent V2

40 models

1Anthropicanthropic/claude-opus-558.6%

2Googlegoogle/gemini-3.5-flash57.9%

3Metameta/muse_spark_1_157.2%

4Claude Fable 5Anthropic

5Gemini 3.6 FlashGoogle

+35 more