BenchLM Benchmarks

207 benchmarks · 710 model scores · Data from Jul 25, 2026

All Coding Agentic Reasoning Knowledge Multimodal Math Multilingual Instruction Following External

Reasoning22 benchmarks

1 models

1OpenAIgpt-5-2-pro95%

4 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

4MiniCPM5-1BOpenBMB · Open weight

5Gemma 4 12BGoogle · Open weight

2 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

143 models

3Anthropicanthropic/claude-opus-4.6:thinking-16k3526.49

4GPT 5.5 (medium)OpenAI · Closed

5Sonnet 4.6 (16k)Anthropic

6GPT 5.4 (medium)OpenAI · Closed

7Opus 4.8 (high)Anthropic · Closed

63 models

1Claude Fable 5Anthropicclaude-fable-5@high

2GPT-5.5OpenAIgpt-5.5@xhigh

3GPT-5.4OpenAIgpt-5.4@xhigh

4GPT-5.2OpenAI · Closed

5Claude Opus 4.7Anthropic · Closed

12 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

2Qwen3.5 397BAlibabaqwen3-5-397b

3Qwen3.6 PlusAlibabaqwen3-6-plus

4Nemotron 3 UltraNVIDIA · Open weight

5Kimi K2.5Moonshot AI · Open weight

7 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.7 MaxAlibabaqwen3-7-max

4Sakana FuguSakana AI · Closed

5Gemini 3.5 FlashGoogle · Closed

1 models

1GPT-5.5OpenAIgpt-5-5

2 models

1GPT-5.5OpenAIgpt-5-5

2Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7-max

graphwalks Bfs128k

1 models

1MAI-Thinking-1Microsoftmai-thinking-1

graphwalks Parents128k

1 models

1OpenAIgpt-5-489.8%

7 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

2DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 Flash (High)DeepSeek · Open weight

5Muse Spark 1.1Meta · Closed

6DeepSeek V4 ProDeepSeek · Open weight

4 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4DeepSeek V4 Pro (High)DeepSeek · Open weight

5DeepSeek V4 ProDeepSeek · Open weight

6DeepSeek V4 FlashDeepSeek · Open weight

19 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Claude Opus 5Anthropicclaude-opus-5

3GPT-5.5OpenAIgpt-5-5

4GPT-5.6 TerraOpenAI · Closed

5GPT-5.4 ProOpenAI · Closed

4 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

2Qwen3.5 397BAlibabaqwen3-5-397b

3Qwen3.6 PlusAlibabaqwen3-6-plus

4GLM-5Z.AI · Open weight

45 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Gemini 3.1 ProGoogle · Closed

5Claude Opus 4.7 (Adaptive)Anthropic · Closed

156 models

1GPT-5.2-CodexOpenAIgpt-5-2-codex

2GPT-5 (high)OpenAIgpt-5-high

3GPT-5.1OpenAIgpt-5-1

4Kimi K3Moonshot AI · Closed

5GPT-5.5OpenAI · Closed

158 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2GPT-5.5 ProOpenAIgpt-5-5-pro

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4GPT-5.4 ProOpenAI · Closed

5Claude Opus 5Anthropic · Closed

bullshit Bench V2

77 models

4Claude Opus 4.5 (high)Anthropic · Closed

6Claude Opus 4.6 (high)Anthropic · Closed

8Claude Opus 4.7 (none)Anthropic · Closed

9Claude Sonnet 5 (low)Anthropic · Closed

10Claude Sonnet 4.5 (high)Anthropic · Closed