BenchLM Benchmarks

207 benchmarks · 591 model scores · Data from Jul 25, 2026

All Coding Agentic Reasoning Knowledge Multimodal Math Multilingual Instruction Following External

Coding24 benchmarks

humaneval

2 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

2Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

big Code Bench

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

codeforces

3 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

3DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 Flash (High)DeepSeek · Open weight

swe Verified

59 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Mythos 5Anthropicclaude-mythos-5

3Claude Fable 5Anthropicclaude-fable-5

4Claude Opus 4.8Anthropic · Closed

5Claude Opus 4.7 (Adaptive)Anthropic · Closed

+54 more

swe Rebench

13 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2GLM-5Z.AIglm-5

3GLM-5.1Z.AIglm-5-1

4DeepSeek V3.2DeepSeek · Open weight

5Claude Sonnet 4.6Anthropic · Closed

+8 more

live Code Bench

6 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3GLM-4.7Z.AIglm-4-7

4Qwen3.6-27BAlibaba · Open weight

5Qwen3.6-35B-A3BAlibaba · Open weight

+1 more

live Code Bench V6

10 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3Kimi K2.6Moonshot AIkimi-2-6

4Qwen3.6 PlusAlibaba · Closed

5Kimi K2.5Moonshot AI · Open weight

+5 more

live Code Bench Pro

8 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3GPT-5.4OpenAIgpt-5-4

4Gemini 3.1 ProGoogle · Closed

5Muse SparkMeta · Closed

+3 more

flteval

1 models

1Anthropicclaude-opus-4-639.6%

swe Pro

54 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Fable 5Anthropicclaude-fable-5

3Claude Opus 5Anthropicclaude-opus-5

4Sakana Fugu-UltraSakana AI · Closed

5Claude Opus 4.8Anthropic · Closed

+49 more

swe Multilingual

30 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Composer 2.5Cursorcomposer-2-5

4Ornith-1.0-397BDeepReinforce AI · Open weight

5Laguna S 2.1Poolside · Open weight

+25 more

swe Multimodal

3 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Claude Sonnet 5Anthropicclaude-sonnet-5

cursor Bench31

14 models

1Claude Fable 5Anthropicclaude-fable-5

2Claude Opus 5Anthropicclaude-opus-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Grok 4.5xAI · Closed

5GPT-5.6 TerraOpenAI · Closed

+9 more

multi Swe Bench

1 models

1MiniMax M2.7MiniMaxminimax-m2-7

vibe Pro

1 models

1MiniMax M2.7MiniMaxminimax-m2-7

vibe Code Bench

74 models

3Moonshot AIOpenHandskimi/kimi-k3

4Claude Opus 4.8Anthropic82.72%

5Claude Sonnet 5Anthropic81.33%

6GPT-5.6 SolOpenAI80.50%

7Claude Opus 4.8 Claude CodeAnthropic77.48%

+69 more

program Bench

8 models

5Claude Opus 4.6Anthropic · Closed

7Claude Sonnet 4.6Anthropic · Closed

8GPT-5.4OpenAI · Closed

9Gemini 3.1 ProGoogle · Closed

10Gemini 3 FlashGoogle · Closed

+3 more

nl2 Repo

13 models

1GLM-5.2Z.AIglm-5-2

2Ornith-1.0-397BDeepReinforce AIornith-1-0-397b

3Qwen3.7 MaxAlibabaqwen3-7-max

4Claude Opus 4.5Anthropic · Closed

5Qwen 3.6 Max (preview)Alibaba · Closed

+8 more

react Native Evals

16 models

1Composer 2Cursorcomposer-2

2Composer 2 FastCursorcomposer-2-fast

3GPT-5.4OpenAIgpt-5-4

4GPT-5.5OpenAI · Closed

5Claude Opus 4.6Anthropic · Closed

+11 more

swe Verified Arcee

5 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2MiniMax M2.7MiniMaxminimax-m2-7

3GLM-5Z.AIglm-5

4Kimi K2.5Moonshot AI · Open weight

5Trinity-Large-ThinkingArcee AI · Open weight

spider2 Lite

1 models

1Interfaze BetaInterfazeinterfaze-beta

sci Code

13 models

1Sakana FuguSakana AIsakana-fugu

2Sakana Fugu-UltraSakana AIsakana-fugu-ultra

3Qwen3.7 MaxAlibabaqwen3-7-max

4Gemini 3.5 FlashGoogle · Closed

5Kimi K2.6Moonshot AI · Open weight

+8 more

aa Coding Index

92 models

1Claude Opus 5Anthropicclaude-opus-5

2GPT-5.6 SolOpenAIgpt-5-6-sol

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4Claude Fable 5Anthropic · Closed

5Kimi K3Moonshot AI · Closed

+87 more

aa Sci Code

163 models

1Claude Fable 5Anthropicclaude-fable-5

2Gemini 3.1 ProGooglegemini-3-1-pro

3Kimi K3Moonshot AIkimi-3

4Muse Spark 1.1Meta · Closed

5GPT-5.4OpenAI · Closed

+158 more