BenchLM Benchmarks

207 benchmarks · 395 model scores · Data from Jul 25, 2026

All Coding Agentic Reasoning Knowledge Multimodal Math Multilingual Instruction Following External

Multimodal44 benchmarks

mmmu

9 models

1Qwen3.6 PlusAlibabaqwen3-6-plus

2Qwen3.5-122B-A10BAlibabaqwen3-5-122b-a10b

3Qwen3.6-27BAlibabaqwen3-6-27b

4Qwen3.5-27BAlibaba · Open weight

5Qwen3.6-35B-A3BAlibaba · Open weight

+4 more

mmmu Pro

34 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

2Gemini 3.1 ProGooglegemini-3-1-pro

3Gemini 3.5 FlashGooglegemini-3-5-flash

4GPT-5.6 SolOpenAI · Closed

5Kimi K3Moonshot AI · Closed

+29 more

aa Mmmu Pro

92 models

1Claude Opus 5Anthropicclaude-opus-5

2Gemini 3.5 FlashGooglegemini-3-5-flash

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Gemini 3.6 FlashGoogle · Closed

5Gemini 3.1 ProGoogle · Closed

+87 more

ocr Bench V2

2 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Interfaze BetaInterfazeinterfaze-beta

olm Ocr

1 models

1Interfaze BetaInterfazeinterfaze-beta

vox Populi Wer

1 models

1Interfaze BetaInterfazeinterfaze-beta

design Arena Website

87 models

1Kimi K3Moonshot AIkimi-3

2GLM-5.2Z.AIglm-5-2

3Claude Fable 5Anthropicclaude-fable-5

4Claude Opus 4.7 (Adaptive)Anthropic · Closed

5Claude Opus 4.6Anthropic · Closed

+82 more

office Qa Pro

8 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Kimi K3Moonshot AIkimi-3

4Claude Fable 5Anthropic · Closed

5GPT-5.5OpenAI · Closed

+3 more

mmmu Pro Python

9 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Kimi K3Moonshot AIkimi-3

3GPT-5.5OpenAIgpt-5-5

4GPT-5.4OpenAI · Closed

5GPT-5.6 TerraOpenAI · Closed

+4 more

omni Doc Bench15

3 models

1MiniMax M3MiniMaxminimax-m3

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

real World Qa

4 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

3Qwen3.6-27BAlibabaqwen3-6-27b

4LFM2.5-VL-450MLiquidAI · Open weight

video Mme With Sub

5 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-27BAlibabaqwen3-6-27b

3MiMo-V2.5Xiaomimimo-v2-5

4Qwen3.6-35B-A3BAlibaba · Open weight

5MiniMax M3MiniMax · Open weight

video Mme No Sub

1 models

1Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

video Mme

1 models

1Kimi K2.5Moonshot AIkimi-k2-5

math Vision

12 models

1Kimi K3Moonshot AIkimi-3

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.5 397BAlibabaqwen3-5-397b

4Qwen3.6 PlusAlibaba · Closed

5Kimi K2.6Moonshot AI · Open weight

+7 more

we Math

1 models

1Alibabaqwen3-6-plus89.0%

dyna Math

1 models

1Qwen3.6-27BAlibabaqwen3-6-27b

m Star

1 models

1Qwen3.6-27BAlibabaqwen3-6-27b

chat Cvqa

1 models

1OpenAIgpt-5-282.1%

mm Long Bench Doc

0 models

cc Ocr

2 models

1Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

2Qwen3.6-27BAlibabaqwen3-6-27b

ai2d Test

1 models

1Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

count Bench

2 models

1Qwen3.6-27BAlibabaqwen3-6-27b

2LFM2.5-VL-450MLiquidAIlfm2-5-vl-450m

refcoco Avg

3 models

1Qwen3.6-27BAlibabaqwen3-6-27b

2Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

4Interfaze BetaInterfaze · Closed

odinw13

2 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

erqa

7 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Gemini 3.1 ProGooglegemini-3-1-pro

3GPT-5.4OpenAIgpt-5-4

4Muse SparkMeta · Closed

5Qwen3.6-27BAlibaba · Open weight

+2 more

video Mmmu

9 models

1Gemini 3 ProGooglegemini-3-pro

2Kimi K2.5Moonshot AIkimi-k2-5

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.5 397BAlibaba · Open weight

5MiniMax M3MiniMax · Open weight

+4 more

mlvu Avg

3 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-27BAlibabaqwen3-6-27b

3Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

mmvu

4 models

1Kimi K2.5Moonshot AIkimi-k2-5

2Qwen3.5-122B-A10BAlibabaqwen3-5-122b-a10b

3Qwen3.5-27BAlibabaqwen3-5-27b

4Qwen3.5-35B-A3BAlibaba · Open weight

screen Spot Pro

15 models

1Claude Opus 4.8Anthropicclaude-opus-4-8

2GPT-5.4OpenAIgpt-5-4

3Gemini 3.1 ProGooglegemini-3-1-pro

4Muse SparkMeta · Closed

5Claude Opus 4.6Anthropic · Closed

+10 more

med Xpert Qa Mm

7 models

1Gemini 3.1 ProGooglegemini-3-1-pro

2Muse SparkMetamuse-spark

3GPT-5.4OpenAIgpt-5-4

4Qwen3.7 PlusAlibaba · Closed

5Grok 4.20xAI · Closed

+2 more

zero Bench

4 models

1GPT-5.4OpenAIgpt-5-4

2Muse SparkMetamuse-spark

3Gemini 3.1 ProGooglegemini-3-1-pro

4Kimi K3Moonshot AI · Closed

design2 Code

1 models

1Z.AIglm-5v-turbo94.8%

flame Vlm Code

1 models

1Anthropicclaude-opus-4-698.8%

vision2 Web

1 models

1Anthropicclaude-opus-4-643.5%

image Mining

1 models

1Z.AIglm-5v-turbo30.7%

mm Search

1 models

1Z.AIglm-5v-turbo72.9%

mm Search Plus

1 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

simple Vqa

8 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Step 3.7 FlashStepFunstep-3-7-flash

3Gemini 3.1 ProGooglegemini-3-1-pro

4Muse SparkMeta · Closed

5GPT-5.4OpenAI · Closed

+3 more

facts Vlm

1 models

1Z.AIglm-5v-turbo58.6%

v Star

11 models

1Kimi K2.6Moonshot AIkimi-2-6

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Qwen3.5 397BAlibabaqwen3-5-397b

4Step 3.7 FlashStepFun · Open weight

5Qwen3.6-27BAlibaba · Open weight

+6 more

charxiv

29 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Kimi K3Moonshot AIkimi-3

3Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7-max

4Claude Opus 4.8Anthropic · Closed

5Muse Spark 1.1Meta · Closed

+24 more

charxiv No Tools

6 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Kimi K3Moonshot AIkimi-3

3Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7-max

4Claude Opus 4.8Anthropic · Closed

5InklingThinking Machines Lab · Open weight

+1 more

blueprint Bench2

2 models

1Claude Fable 5Anthropicclaude-fable-5

2Gemini 3.5 FlashGooglegemini-3-5-flash