BenchLM Benchmarks

207 benchmarks · 1235 model scores · Data from Jul 25, 2026

All Coding Agentic Reasoning Knowledge Multimodal Math Multilingual Instruction Following External

Knowledge30 benchmarks

mmlu

8 models

1o1OpenAI91.8%

2GPT-4.1OpenAIgpt-4-1

3DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

4DeepSeek V4 Flash BaseDeepSeek · Open weight

5GPT-4.1 miniOpenAI · Closed

+3 more

gpqa

71 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Claude Opus 4.7 (Adaptive)Anthropic · Closed

5Claude Mythos 5Anthropic · Closed

+66 more

super Gpqa

19 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2Claude Sonnet 4.6Anthropicclaude-sonnet-4-6

3Qwen 3.6 Max (preview)Alibabaqwen3-6-max-preview

4Qwen3.7 MaxAlibaba · Closed

5Qwen3.6 PlusAlibaba · Closed

+14 more

mmlu Pro

43 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Claude Opus 4.5Anthropicclaude-opus-4-5

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.6 PlusAlibaba · Closed

5Qwen3.5 397BAlibaba · Open weight

+38 more

agieval

2 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

hle

45 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Mythos 5Anthropicclaude-mythos-5

3Muse Spark 1.1Metamuse-spark-1-1

4GPT-5.4 ProOpenAI · Closed

5Claude Opus 4.8Anthropic · Closed

+40 more

frontier Science

1 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

artificial Analysis

167 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Fable 5Anthropicclaude-fable-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Kimi K3Moonshot AI · Closed

5Claude Opus 4.8Anthropic · Closed

+162 more

aa Gpqa Diamond

163 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Gemini 3.1 ProGooglegemini-3-1-pro

3Kimi K3Moonshot AIkimi-3

4GPT-5.5OpenAI · Closed

5Claude Opus 5Anthropic · Closed

+158 more

aa Hle

163 models

1Claude Fable 5Anthropicclaude-fable-5

2Claude Opus 5Anthropicclaude-opus-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Claude Opus 4.8Anthropic · Closed

5Muse Spark 1.1Meta · Closed

+158 more

aa Omniscience Index

154 models

1Claude Fable 5Anthropicclaude-fable-5

2Gemini 3.1 ProGooglegemini-3-1-pro

3Claude Opus 5Anthropicclaude-opus-5

4Claude Opus 4.8Anthropic · Closed

5Grok 4.5xAI · Closed

+149 more

omniscience Accuracy

154 models

1Claude Fable 5Anthropicclaude-fable-5

2GPT-5.6 SolOpenAIgpt-5-6-sol

3GPT-5.5OpenAIgpt-5-5

4Gemini 3 ProGoogle · Closed

5Gemini 3.1 ProGoogle · Closed

+149 more

omniscience Hallucination Rate

154 models

1Command A+Coherecommand-a-plus

2MiniMax M3MiniMaxminimax-m3

3Qwen3.7 MaxAlibabaqwen3-7-max

4MiMo-V2.5-ProXiaomi · Closed

5Grok 4.3xAI · Closed

+149 more

simple Qa

9 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 ProDeepSeek · Open weight

5DeepSeek V4 Flash (Max)DeepSeek · Open weight

+4 more

chinese Simple Qa

5 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

3DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 ProDeepSeek · Open weight

5DeepSeek V4 Flash (High)DeepSeek · Open weight

6DeepSeek V4 FlashDeepSeek · Open weight

health Bench Hard

8 models

1Muse SparkMetamuse-spark

2GPT-5.4OpenAIgpt-5-4

3GPT-5.6 SolOpenAIgpt-5-6-sol

4GPT-5.6 TerraOpenAI · Closed

5GPT-5.6 LunaOpenAI · Closed

+3 more

med Xpert Qa Text

5 models

1Gemini 3.1 ProGooglegemini-3-1-pro

2GPT-5.4OpenAIgpt-5-4

3Muse SparkMetamuse-spark

4Claude Opus 4.6Anthropic · Closed

5Grok 4.20xAI · Closed

frontier Science Research

1 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

truthfulqa

1 models

1Microsoftphi-477.5%

hle No Tools

26 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Opus 5Anthropicclaude-opus-5

3Muse Spark 1.1Metamuse-spark-1-1

4Sakana Fugu-UltraSakana AI · Closed

5Claude Opus 4.8Anthropic · Closed

+21 more

mmlu Pro Arcee

6 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2Kimi K2.5Moonshot AIkimi-k2-5

3GLM-5Z.AIglm-5

4Trinity-Large-ThinkingArcee AI · Open weight

5MiniMax M2.7MiniMax · Open weight

+1 more

mmlu Redux

11 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

2Qwen3.7 MaxAlibabaqwen3-7-max

3Qwen3.5 397BAlibabaqwen3-5-397b

4Qwen3.7 PlusAlibaba · Closed

5Qwen3.6 PlusAlibaba · Closed

+6 more

mmmlu

6 models

1Interfaze BetaInterfazeinterfaze-beta

2Qwen3.7 MaxAlibabaqwen3-7-max

3DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

4Qwen3.7 PlusAlibaba · Closed

5DeepSeek V4 Flash BaseDeepSeek · Open weight

+1 more

c Eval

7 models

1Qwen3.6 PlusAlibabaqwen3-6-plus

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Qwen3.5 397BAlibabaqwen3-5-397b

4Claude Opus 4.5Anthropic · Closed

5DeepSeek V4 Flash BaseDeepSeek · Open weight

+2 more

cmmlu

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

multi Lo Ko

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

facts Parametric

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

trivia Qa

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

kmmlu

1 models

1Anthropicclaude-sonnet-4-685%

kmmlu Hard

1 models

1OpenAIgpt-5-472.8%