BenchLM Benchmarks

207 benchmarks · 123 model scores · Data from Jul 25, 2026

All Coding Agentic Reasoning Knowledge Multimodal Math Multilingual Instruction Following External

Math23 benchmarks

1 models

1OpenAIgpt-5-1-codex-max99%

1 models

1o3-miniOpenAI87.3%

11 models

1MAI-Thinking-1Microsoftmai-thinking-1

2Kimi K2.5Moonshot AIkimi-k2-5

3Kimi K2.5 (Reasoning)Moonshot AIkimi-k2-5-reasoning

4GLM-4.7Z.AI · Open weight

5MiMo-V2-FlashXiaomi · Open weight

2 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

1 models

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

5 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2Kimi K2.5Moonshot AIkimi-k2-5

4GLM-5Z.AI · Open weight

5MiniMax M2.7MiniMax · Open weight

6Trinity-Large-PreviewArcee AI · Open weight

1 models

1OpenAIgpt-5-496%

1 models

1OpenAIgpt-5-498%

1 models

1Z.AIglm-4-797.1%

1 models

1OpenAIgpt-5-497%

2 models

1MiniCPM5-1BOpenBMBminicpm5-1b

2LFM2.5-8B-A1BLiquidAIlfm2-5-8b-a1b

17 models

1GLM-5.2Z.AIglm-5-2

2InklingThinking Machines Labinkling

3Kimi K2.6Moonshot AIkimi-2-6

4GLM-5Z.AI · Open weight

5Kimi K2.5Moonshot AI · Open weight

ipho2025 Theory

1 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

7 models

1GLM-5Z.AIglm-5

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Kimi K2.5Moonshot AIkimi-k2-5

4Qwen3.5 397BAlibaba · Open weight

5Qwen3.6-27BAlibaba · Open weight

9 models

1GLM-5Z.AIglm-5

2Qwen3.6 PlusAlibabaqwen3-6-plus

3GLM-5.2Z.AIglm-5-2

4GLM-5.1Z.AI · Open weight

5Claude Opus 4.5Anthropic · Closed

20 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4DeepSeek V4 Pro (High)DeepSeek · Open weight

5Qwen3.7 PlusAlibaba · Closed

6Kimi K2.6Moonshot AI · Open weight

imo Answer Bench

8 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4DeepSeek V4 Pro (High)DeepSeek · Open weight

5Qwen3.7 PlusAlibaba · Closed

6DeepSeek V4 Flash (High)DeepSeek · Open weight

8 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4ZAYA1-8BZyphra · Open weight

5DeepSeek V4 Pro (High)DeepSeek · Open weight

6Qwen3.7 PlusAlibaba · Closed

5 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

3DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 Flash (High)DeepSeek · Open weight

5DeepSeek V4 FlashDeepSeek · Open weight

6DeepSeek V4 ProDeepSeek · Open weight

mm Answer Bench

10 models

1GLM-5.2Z.AIglm-5-2

2Kimi K2.6Moonshot AIkimi-2-6

3Claude Opus 4.5Anthropicclaude-opus-4-5

4GLM-5.1Z.AI · Open weight

5Qwen3.6 PlusAlibaba · Closed

7 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2GPT-5.6 TerraOpenAIgpt-5-6-terra

3GPT-5.6 LunaOpenAIgpt-5-6-luna

4GPT-5.5 ProOpenAI · Closed

5GPT-5.5OpenAI · Closed

3 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3MiniMax M3MiniMaxminimax-m3