BenchLM Benchmarks

live Code Bench V6

10 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3Kimi K2.6Moonshot AIkimi-2-6

4Qwen3.6 PlusAlibaba · Closed

5Kimi K2.5Moonshot AI · Open weight

live Code Bench Pro

8 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3GPT-5.4OpenAIgpt-5-4

4Gemini 3.1 ProGoogle · Closed

5Muse SparkMeta · Closed

flteval

1 models

1Anthropicclaude-opus-4-639.6%

swe Pro

54 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Fable 5Anthropicclaude-fable-5

3Claude Opus 5Anthropicclaude-opus-5

4Sakana Fugu-UltraSakana AI · Closed

5Claude Opus 4.8Anthropic · Closed

+49 more

swe Multilingual

30 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Composer 2.5Cursorcomposer-2-5

4Ornith-1.0-397BDeepReinforce AI · Open weight

5Laguna S 2.1Poolside · Open weight

+25 more

swe Multimodal

3 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Claude Sonnet 5Anthropicclaude-sonnet-5

cursor Bench31

14 models

1Claude Fable 5Anthropicclaude-fable-5

2Claude Opus 5Anthropicclaude-opus-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Grok 4.5xAI · Closed

5GPT-5.6 TerraOpenAI · Closed

+9 more

multi Swe Bench

1 models

1MiniMax M2.7MiniMaxminimax-m2-7

vibe Pro

1 models

1MiniMax M2.7MiniMaxminimax-m2-7

vibe Code Bench

74 models

3Moonshot AIOpenHandskimi/kimi-k3

4Claude Opus 4.8Anthropic82.72%

5Claude Sonnet 5Anthropic81.33%

6GPT-5.6 SolOpenAI80.50%

7Claude Opus 4.8 Claude CodeAnthropic77.48%

+69 more

program Bench

8 models

5Claude Opus 4.6Anthropic · Closed

7Claude Sonnet 4.6Anthropic · Closed

8GPT-5.4OpenAI · Closed

9Gemini 3.1 ProGoogle · Closed

10Gemini 3 FlashGoogle · Closed

nl2 Repo

13 models

1GLM-5.2Z.AIglm-5-2

2Ornith-1.0-397BDeepReinforce AIornith-1-0-397b

3Qwen3.7 MaxAlibabaqwen3-7-max

4Claude Opus 4.5Anthropic · Closed

5Qwen 3.6 Max (preview)Alibaba · Closed

+8 more

react Native Evals

16 models

1Composer 2Cursorcomposer-2

2Composer 2 FastCursorcomposer-2-fast

3GPT-5.4OpenAIgpt-5-4

4GPT-5.5OpenAI · Closed

5Claude Opus 4.6Anthropic · Closed

+11 more

swe Verified Arcee

5 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2MiniMax M2.7MiniMaxminimax-m2-7

3GLM-5Z.AIglm-5

4Kimi K2.5Moonshot AI · Open weight

5Trinity-Large-ThinkingArcee AI · Open weight

spider2 Lite

1 models

1Interfaze BetaInterfazeinterfaze-beta

sci Code

13 models

1Sakana FuguSakana AIsakana-fugu

2Sakana Fugu-UltraSakana AIsakana-fugu-ultra

3Qwen3.7 MaxAlibabaqwen3-7-max

4Gemini 3.5 FlashGoogle · Closed

5Kimi K2.6Moonshot AI · Open weight

+8 more

aa Coding Index

92 models

1Claude Opus 5Anthropicclaude-opus-5

2GPT-5.6 SolOpenAIgpt-5-6-sol

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4Claude Fable 5Anthropic · Closed

5Kimi K3Moonshot AI · Closed

+87 more

aa Sci Code

163 models

1Claude Fable 5Anthropicclaude-fable-5

2Gemini 3.1 ProGooglegemini-3-1-pro

3Kimi K3Moonshot AIkimi-3

4Muse Spark 1.1Meta · Closed

5GPT-5.4OpenAI · Closed

+158 more

Agentic38 benchmarks

terminal Bench2

45 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Claude Mythos 5Anthropicclaude-mythos-5

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4GPT-5.6 LunaOpenAI · Closed

5Claude Fable 5Anthropic · Closed

+40 more

browse Comp

33 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Kimi K3Moonshot AIkimi-3

3Claude Opus 5Anthropicclaude-opus-5

4GPT-5.5 ProOpenAI · Closed

5GPT-5.4 ProOpenAI · Closed

+28 more

hle With Tools

10 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Sonnet 5Anthropicclaude-sonnet-5

3Qwen3.7 MaxAlibabaqwen3-7-max

4DeepSeek V4 Pro (Max)DeepSeek · Open weight

5Agents-A1InternScience · Open weight

gdpval Aa

87 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Fable 5Anthropicclaude-fable-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Kimi K3Moonshot AI · Closed

5Claude Sonnet 5Anthropic · Closed

+82 more

gdpval Aa Normalized

87 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Fable 5Anthropicclaude-fable-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Kimi K3Moonshot AI · Closed

5Claude Sonnet 5Anthropic · Closed

+82 more

aa Agentic Index

86 models

1Claude Opus 5Anthropicclaude-opus-5

2GPT-5.6 SolOpenAIgpt-5-6-sol

3Claude Fable 5Anthropicclaude-fable-5

4Kimi K3Moonshot AI · Closed

5GPT-5.6 TerraOpenAI · Closed

+81 more

apex Agents Aa

27 models

1Gemini 3.5 FlashGooglegemini-3-5-flash

2Kimi K3Moonshot AIkimi-3

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4GPT-5.5OpenAI · Closed

5GPT-5.6 LunaOpenAI · Closed

+22 more

gert Labs

56 models

1Claude Opus 4.8Anthropicclaude-opus-4-8

2GPT-5.5OpenAIgpt-5-5

3Claude Opus 4.7Anthropicclaude-opus-4-7

4GPT-5.4OpenAI · Closed

5Qwen3.7 MaxAlibaba · Closed

+51 more

os World Verified

27 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Fable 5Anthropicclaude-fable-5

3Claude Opus 4.8Anthropicclaude-opus-4-8

4Gemini 3.6 FlashGoogle · Closed

5Holo3-35B-A3BH Company · Open weight

+22 more

cyber Gym

14 models

1Fugu CyberSakana AIsakana-fugu-cyber

2GPT-5.6 SolOpenAIgpt-5-6-sol

4GPT-5.6 TerraOpenAI · Closed

5GPT-5.5OpenAI · Closed

6GPT-5.4OpenAI · Closed

+9 more

browse Comp Vl

1 models

1Z.AIglm-5v-turbo51.9%

os World

1 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

android World

5 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Holo3.1-35B-A3BH Companyholo3-1-35b-a3b

3Holo3.1-4BH Companyholo3-1-4b

4Holo3.1-9BH Company · Open weight

5Qwen3.6-27BAlibaba · Open weight

web Voyager

1 models

1Z.AIglm-5v-turbo88.5%

mcp Atlas

30 models

1Muse Spark 1.1Metamuse-spark-1-1

2Claude Opus 5Anthropicclaude-opus-5

3Kimi K3Moonshot AIkimi-3

4Gemini 3.5 FlashGoogle · Closed

5Claude Opus 4.8Anthropic · Closed

+25 more

toolathlon

26 models

1Muse Spark 1.1Metamuse-spark-1-1

2Claude Opus 4.8Anthropicclaude-opus-4-8

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Gemini 3.5 FlashGoogle · Closed

5GPT-5.5OpenAI · Closed

+21 more

z Claw Bench

1 models

1Z.AIglm-5-turbo56.4%

tau2 Bench

142 models

4Step 3.7 FlashStepFun · Open weight98.5%

5GLM-5-TurboZ.AI · Closed98.5%

6GLM-5V-TurboZ.AI · Closed98.5%

7GLM-5Z.AI · Open weight98.2%

8GLM-5.1Z.AI · Open weight97.7%

+137 more

deep Search Qa

12 models

1Claude Opus 5Anthropicclaude-opus-5

2Kimi K3Moonshot AIkimi-3

3Claude Opus 4.8Anthropicclaude-opus-4-8

4Step 3.7 FlashStepFun · Open weight

5Kimi K2.6Moonshot AI · Open weight

tau2 Airline

0 models

pinch Bench

43 models

1Anthropic93.5%Overall

2Qwen3.7 MaxAlibabaqwen/qwen3.7-max

5MiMo-V2.5Xiaomi · Closed

6Grok Build 0.1xAI · Closed

7GPT-5.6 LunaOpenAI · Closed

+38 more

open Hands Index

33 models

1Claude Fable 5Anthropicclaude-fable-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7

4Claude Opus 4.6Anthropic · Closed

5GPT-5.5OpenAI · Closed

+28 more

swe Atlas Refactoring

12 models

1Anthropic54.8%Overall

4GPT-5.5OpenAI · Closed

5GPT-5.4OpenAI · Closed

6GLM-5.2Z.AI · Open weight

7GPT-5.3 CodexOpenAI · Closed

inference Bench

16 models

1Claude Opus 4.8 (xHigh)Anthropic7.34x

2GPT-5.4 (High)OpenAI6.16x

3Claude Sonnet 4.6Anthropic5.56x

4GPT-5.3 Codex (High)OpenAI · Closed

5GPT-5.5 (xHigh)OpenAI · Closed

+11 more

bfcl V4

9 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3LFM2.5-8B-A1BLiquidAIlfm2-5-8b-a1b

4Mellum2-12B-A2.5B-ThinkingJetBrains · Open weight

5Mellum2-12B-A2.5B-InstructJetBrains · Open weight

mle Bench Lite

1 models

1MiniMax M2.7MiniMaxminimax-m2-7

mm Claw Bench

2 models

1MiniMax M2.7MiniMaxminimax-m2-7

2MiMo-V2.5Xiaomimimo-v2-5

claw Eval

26 models

1Claude Opus 4.6Anthropicopus46

2Step 3.7 FlashStepFunstep_37_flash

3Claude Sonnet 4.6Anthropicsonnet46

4MiMo-V2.5-ProXiaomi · Closed

5Muse SparkMeta · Closed

+21 more

qwen Claw Bench

10 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen 3.6 Max (preview)Alibabaqwen3-6-max-preview

4Qwen3.6 PlusAlibaba · Closed

5Kimi K2.5Moonshot AI · Open weight

qwen Web Bench

5 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen 3.6 Max (preview)Alibabaqwen3-6-max-preview

4Qwen3.6-27BAlibaba · Open weight

5Qwen3.6-35B-A3BAlibaba · Open weight

tau3 Bench

8 models

1Mistral Medium 3.5 128BMistralτ³-bench Telecom

4Qwen3.6 PlusAlibaba · Closed70.7%

5GLM-5.1Z.AI · Open weight70.6%

6Claude Opus 4.5Anthropic · Closed70.2%

7Qwen3.5 397BAlibaba · Open weight68.4%

vita Bench

10 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.6 PlusAlibabaqwen3-6-plus

4Qwen3.5 397BAlibaba · Open weight

5Agents-A1InternScience · Open weight

deep Planning

7 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Qwen3.5 397BAlibabaqwen3-5-397b

4Claude Opus 4.5Anthropic · Closed

5Qwen3.6-35B-A3BAlibaba · Open weight

mcp Tasks

5 models

1Qwen3.5 397BAlibabaqwen3-5-397b

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Claude Opus 4.5Anthropicclaude-opus-4-5

4GLM-5Z.AI · Open weight

5Kimi K2.5Moonshot AI · Open weight

wide Research

7 models

1Kimi K2.6Moonshot AIkimi-2-6

2Claude Opus 4.5Anthropicclaude-opus-4-5

3Qwen3.6 PlusAlibabaqwen3-6-plus

4Qwen3.5 397BAlibaba · Open weight

5Kimi K2.5Moonshot AI · Open weight

gaia

1 models

1Anthropicclaude-mythos-552.3%

mewc

1 models

1MiniMax M2.5MiniMaxminimax-m2-5

finance Agent V2

40 models

1Anthropicanthropic/claude-opus-558.6%

2Googlegoogle/gemini-3.5-flash57.9%

3Metameta/muse_spark_1_157.2%

4Claude Fable 5Anthropic

5Gemini 3.6 FlashGoogle

+35 more

Reasoning22 benchmarks

musr

1 models

1OpenAIgpt-5-2-pro95%

bbh

4 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

4MiniCPM5-1BOpenBMB · Open weight

5Gemma 4 12BGoogle · Open weight

drop

2 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

hellaswag

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

winogrande

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

cluewsc

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

lisan Bench

143 models

3Anthropicanthropic/claude-opus-4.6:thinking-16k3526.49

4GPT 5.5 (medium)OpenAI · Closed

5Sonnet 4.6 (16k)Anthropic

6GPT 5.4 (medium)OpenAI · Closed

7Opus 4.8 (high)Anthropic · Closed

+138 more

pp Bench

63 models

1Claude Fable 5Anthropicclaude-fable-5@high

2GPT-5.5OpenAIgpt-5.5@xhigh

3GPT-5.4OpenAIgpt-5.4@xhigh

4GPT-5.2OpenAI · Closed

5Claude Opus 4.7Anthropic · Closed

+58 more

long Bench V2

12 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

2Qwen3.5 397BAlibabaqwen3-5-397b

3Qwen3.6 PlusAlibabaqwen3-6-plus

4Nemotron 3 UltraNVIDIA · Open weight

5Kimi K2.5Moonshot AI · Open weight

mrcrv2

7 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.7 MaxAlibabaqwen3-7-max

4Sakana FuguSakana AI · Closed

5Gemini 3.5 FlashGoogle · Closed

mrcrv2 64 128

1 models

1GPT-5.5OpenAIgpt-5-5

mrcrv2 128 256

2 models

1GPT-5.5OpenAIgpt-5-5

2Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7-max

graphwalks Bfs128k

1 models

1MAI-Thinking-1Microsoftmai-thinking-1

graphwalks Parents128k

1 models

1OpenAIgpt-5-489.8%

mrcr1m

7 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

2DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 Flash (High)DeepSeek · Open weight

5Muse Spark 1.1Meta · Closed

6DeepSeek V4 ProDeepSeek · Open weight

corpus Qa1m

4 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4DeepSeek V4 Pro (High)DeepSeek · Open weight

5DeepSeek V4 ProDeepSeek · Open weight

6DeepSeek V4 FlashDeepSeek · Open weight

arc Agi2

19 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Claude Opus 5Anthropicclaude-opus-5

3GPT-5.5OpenAIgpt-5-5

4GPT-5.6 TerraOpenAI · Closed

5GPT-5.4 ProOpenAI · Closed

+14 more

ai Needle

4 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

2Qwen3.5 397BAlibabaqwen3-5-397b

3Qwen3.6 PlusAlibabaqwen3-6-plus

4GLM-5Z.AI · Open weight

gpqa Diamond

45 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Gemini 3.1 ProGoogle · Closed

5Claude Opus 4.7 (Adaptive)Anthropic · Closed

+40 more

lcr

156 models

1GPT-5.2-CodexOpenAIgpt-5-2-codex

2GPT-5 (high)OpenAIgpt-5-high

3GPT-5.1OpenAIgpt-5-1

4Kimi K3Moonshot AI · Closed

5GPT-5.5OpenAI · Closed

+151 more

critpt

158 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2GPT-5.5 ProOpenAIgpt-5-5-pro

3GPT-5.6 TerraOpenAIgpt-5-6-terra

4GPT-5.4 ProOpenAI · Closed

5Claude Opus 5Anthropic · Closed

+153 more

bullshit Bench V2

77 models

4Claude Opus 4.5 (high)Anthropic · Closed

6Claude Opus 4.6 (high)Anthropic · Closed

8Claude Opus 4.7 (none)Anthropic · Closed

9Claude Sonnet 5 (low)Anthropic · Closed

10Claude Sonnet 4.5 (high)Anthropic · Closed

+72 more

Knowledge30 benchmarks

mmlu

8 models

1o1OpenAI91.8%

2GPT-4.1OpenAIgpt-4-1

3DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

4DeepSeek V4 Flash BaseDeepSeek · Open weight

5GPT-4.1 miniOpenAI · Closed

omniscience Hallucination Rate

gpqa

71 models

1Sakana Fugu-UltraSakana AIsakana-fugu-ultra

2Sakana FuguSakana AIsakana-fugu

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Claude Opus 4.7 (Adaptive)Anthropic · Closed

5Claude Mythos 5Anthropic · Closed

+66 more

super Gpqa

19 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2Claude Sonnet 4.6Anthropicclaude-sonnet-4-6

3Qwen 3.6 Max (preview)Alibabaqwen3-6-max-preview

4Qwen3.7 MaxAlibaba · Closed

5Qwen3.6 PlusAlibaba · Closed

+14 more

mmlu Pro

43 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Claude Opus 4.5Anthropicclaude-opus-4-5

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.6 PlusAlibaba · Closed

5Qwen3.5 397BAlibaba · Open weight

+38 more

agieval

2 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

hle

45 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Mythos 5Anthropicclaude-mythos-5

3Muse Spark 1.1Metamuse-spark-1-1

4GPT-5.4 ProOpenAI · Closed

5Claude Opus 4.8Anthropic · Closed

+40 more

frontier Science

1 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

artificial Analysis

167 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Fable 5Anthropicclaude-fable-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Kimi K3Moonshot AI · Closed

5Claude Opus 4.8Anthropic · Closed

+162 more

aa Gpqa Diamond

163 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Gemini 3.1 ProGooglegemini-3-1-pro

3Kimi K3Moonshot AIkimi-3

4GPT-5.5OpenAI · Closed

5Claude Opus 5Anthropic · Closed

+158 more

aa Hle

163 models

1Claude Fable 5Anthropicclaude-fable-5

2Claude Opus 5Anthropicclaude-opus-5

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Claude Opus 4.8Anthropic · Closed

5Muse Spark 1.1Meta · Closed

+158 more

aa Omniscience Index

154 models

1Claude Fable 5Anthropicclaude-fable-5

2Gemini 3.1 ProGooglegemini-3-1-pro

3Claude Opus 5Anthropicclaude-opus-5

4Claude Opus 4.8Anthropic · Closed

5Grok 4.5xAI · Closed

+149 more

omniscience Accuracy

154 models

1Claude Fable 5Anthropicclaude-fable-5

2GPT-5.6 SolOpenAIgpt-5-6-sol

3GPT-5.5OpenAIgpt-5-5

4Gemini 3 ProGoogle · Closed

5Gemini 3.1 ProGoogle · Closed

+149 more

154 models

1Command A+Coherecommand-a-plus

2MiniMax M3MiniMaxminimax-m3

3Qwen3.7 MaxAlibabaqwen3-7-max

4MiMo-V2.5-ProXiaomi · Closed

5Grok 4.3xAI · Closed

+149 more

simple Qa

9 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 ProDeepSeek · Open weight

5DeepSeek V4 Flash (Max)DeepSeek · Open weight

chinese Simple Qa

5 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

3DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 ProDeepSeek · Open weight

5DeepSeek V4 Flash (High)DeepSeek · Open weight

6DeepSeek V4 FlashDeepSeek · Open weight

health Bench Hard

8 models

1Muse SparkMetamuse-spark

2GPT-5.4OpenAIgpt-5-4

3GPT-5.6 SolOpenAIgpt-5-6-sol

4GPT-5.6 TerraOpenAI · Closed

5GPT-5.6 LunaOpenAI · Closed

frontier Science Research

med Xpert Qa Text

5 models

1Gemini 3.1 ProGooglegemini-3-1-pro

2GPT-5.4OpenAIgpt-5-4

3Muse SparkMetamuse-spark

4Claude Opus 4.6Anthropic · Closed

5Grok 4.20xAI · Closed

1 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

truthfulqa

1 models

1Microsoftphi-477.5%

hle No Tools

26 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Opus 5Anthropicclaude-opus-5

3Muse Spark 1.1Metamuse-spark-1-1

4Sakana Fugu-UltraSakana AI · Closed

5Claude Opus 4.8Anthropic · Closed

+21 more

mmlu Pro Arcee

6 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2Kimi K2.5Moonshot AIkimi-k2-5

3GLM-5Z.AIglm-5

4Trinity-Large-ThinkingArcee AI · Open weight

5MiniMax M2.7MiniMax · Open weight

mmlu Redux

11 models

1Claude Opus 4.5Anthropicclaude-opus-4-5

2Qwen3.7 MaxAlibabaqwen3-7-max

3Qwen3.5 397BAlibabaqwen3-5-397b

4Qwen3.7 PlusAlibaba · Closed

5Qwen3.6 PlusAlibaba · Closed

mmmlu

6 models

1Interfaze BetaInterfazeinterfaze-beta

2Qwen3.7 MaxAlibabaqwen3-7-max

3DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

4Qwen3.7 PlusAlibaba · Closed

5DeepSeek V4 Flash BaseDeepSeek · Open weight

c Eval

7 models

1Qwen3.6 PlusAlibabaqwen3-6-plus

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Qwen3.5 397BAlibabaqwen3-5-397b

4Claude Opus 4.5Anthropic · Closed

5DeepSeek V4 Flash BaseDeepSeek · Open weight

cmmlu

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

multi Lo Ko

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

facts Parametric

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

trivia Qa

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

kmmlu

1 models

1Anthropicclaude-sonnet-4-685%

kmmlu Hard

1 models

1OpenAIgpt-5-472.8%

Multimodal44 benchmarks

mmmu

9 models

1Qwen3.6 PlusAlibabaqwen3-6-plus

2Qwen3.5-122B-A10BAlibabaqwen3-5-122b-a10b

3Qwen3.6-27BAlibabaqwen3-6-27b

4Qwen3.5-27BAlibaba · Open weight

5Qwen3.6-35B-A3BAlibaba · Open weight

mmmu Pro

34 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

2Gemini 3.1 ProGooglegemini-3-1-pro

3Gemini 3.5 FlashGooglegemini-3-5-flash

4GPT-5.6 SolOpenAI · Closed

5Kimi K3Moonshot AI · Closed

+29 more

aa Mmmu Pro

92 models

1Claude Opus 5Anthropicclaude-opus-5

2Gemini 3.5 FlashGooglegemini-3-5-flash

3GPT-5.6 SolOpenAIgpt-5-6-sol

4Gemini 3.6 FlashGoogle · Closed

5Gemini 3.1 ProGoogle · Closed

+87 more

ocr Bench V2

2 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Interfaze BetaInterfazeinterfaze-beta

olm Ocr

1 models

1Interfaze BetaInterfazeinterfaze-beta

vox Populi Wer

1 models

1Interfaze BetaInterfazeinterfaze-beta

design Arena Website

87 models

1Kimi K3Moonshot AIkimi-3

2GLM-5.2Z.AIglm-5-2

3Claude Fable 5Anthropicclaude-fable-5

4Claude Opus 4.7 (Adaptive)Anthropic · Closed

5Claude Opus 4.6Anthropic · Closed

+82 more

office Qa Pro

8 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Kimi K3Moonshot AIkimi-3

4Claude Fable 5Anthropic · Closed

5GPT-5.5OpenAI · Closed

mmmu Pro Python

9 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2Kimi K3Moonshot AIkimi-3

3GPT-5.5OpenAIgpt-5-5

4GPT-5.4OpenAI · Closed

5GPT-5.6 TerraOpenAI · Closed

omni Doc Bench15

3 models

1MiniMax M3MiniMaxminimax-m3

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

real World Qa

4 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

3Qwen3.6-27BAlibabaqwen3-6-27b

4LFM2.5-VL-450MLiquidAI · Open weight

video Mme With Sub

5 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-27BAlibabaqwen3-6-27b

3MiMo-V2.5Xiaomimimo-v2-5

4Qwen3.6-35B-A3BAlibaba · Open weight

5MiniMax M3MiniMax · Open weight

video Mme No Sub

1 models

1Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

video Mme

1 models

1Kimi K2.5Moonshot AIkimi-k2-5

math Vision

12 models

1Kimi K3Moonshot AIkimi-3

2Qwen3.7 PlusAlibabaqwen3-7-plus

3Qwen3.5 397BAlibabaqwen3-5-397b

4Qwen3.6 PlusAlibaba · Closed

5Kimi K2.6Moonshot AI · Open weight

we Math

1 models

1Alibabaqwen3-6-plus89.0%

dyna Math

1 models

1Qwen3.6-27BAlibabaqwen3-6-27b

m Star

1 models

1Qwen3.6-27BAlibabaqwen3-6-27b

chat Cvqa

1 models

1OpenAIgpt-5-282.1%

mm Long Bench Doc

0 models

cc Ocr

2 models

1Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

2Qwen3.6-27BAlibabaqwen3-6-27b

ai2d Test

1 models

1Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

count Bench

2 models

1Qwen3.6-27BAlibabaqwen3-6-27b

2LFM2.5-VL-450MLiquidAIlfm2-5-vl-450m

refcoco Avg

3 models

1Qwen3.6-27BAlibabaqwen3-6-27b

2Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

4Interfaze BetaInterfaze · Closed

odinw13

2 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

erqa

7 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Gemini 3.1 ProGooglegemini-3-1-pro

3GPT-5.4OpenAIgpt-5-4

4Muse SparkMeta · Closed

5Qwen3.6-27BAlibaba · Open weight

video Mmmu

9 models

1Gemini 3 ProGooglegemini-3-pro

2Kimi K2.5Moonshot AIkimi-k2-5

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.5 397BAlibaba · Open weight

5MiniMax M3MiniMax · Open weight

mlvu Avg

3 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Qwen3.6-27BAlibabaqwen3-6-27b

3Qwen3.6-35B-A3BAlibabaqwen3-6-35b-a3b

mmvu

4 models

1Kimi K2.5Moonshot AIkimi-k2-5

2Qwen3.5-122B-A10BAlibabaqwen3-5-122b-a10b

3Qwen3.5-27BAlibabaqwen3-5-27b

4Qwen3.5-35B-A3BAlibaba · Open weight

screen Spot Pro

15 models

1Claude Opus 4.8Anthropicclaude-opus-4-8

2GPT-5.4OpenAIgpt-5-4

3Gemini 3.1 ProGooglegemini-3-1-pro

4Muse SparkMeta · Closed

5Claude Opus 4.6Anthropic · Closed

+10 more

med Xpert Qa Mm

7 models

1Gemini 3.1 ProGooglegemini-3-1-pro

2Muse SparkMetamuse-spark

3GPT-5.4OpenAIgpt-5-4

4Qwen3.7 PlusAlibaba · Closed

5Grok 4.20xAI · Closed

zero Bench

4 models

1GPT-5.4OpenAIgpt-5-4

2Muse SparkMetamuse-spark

3Gemini 3.1 ProGooglegemini-3-1-pro

4Kimi K3Moonshot AI · Closed

design2 Code

1 models

1Z.AIglm-5v-turbo94.8%

flame Vlm Code

1 models

1Anthropicclaude-opus-4-698.8%

vision2 Web

1 models

1Anthropicclaude-opus-4-643.5%

image Mining

1 models

1Z.AIglm-5v-turbo30.7%

mm Search

1 models

1Z.AIglm-5v-turbo72.9%

mm Search Plus

1 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

simple Vqa

8 models

1Qwen3.7 PlusAlibabaqwen3-7-plus

2Step 3.7 FlashStepFunstep-3-7-flash

3Gemini 3.1 ProGooglegemini-3-1-pro

4Muse SparkMeta · Closed

5GPT-5.4OpenAI · Closed

facts Vlm

1 models

1Z.AIglm-5v-turbo58.6%

v Star

11 models

1Kimi K2.6Moonshot AIkimi-2-6

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Qwen3.5 397BAlibabaqwen3-5-397b

4Step 3.7 FlashStepFun · Open weight

5Qwen3.6-27BAlibaba · Open weight

charxiv

29 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Kimi K3Moonshot AIkimi-3

3Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7-max

4Claude Opus 4.8Anthropic · Closed

5Muse Spark 1.1Meta · Closed

+24 more

charxiv No Tools

6 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Kimi K3Moonshot AIkimi-3

3Claude Opus 4.7 (Adaptive)Anthropicclaude-opus-4-7-max

4Claude Opus 4.8Anthropic · Closed

5InklingThinking Machines Lab · Open weight

blueprint Bench2

2 models

1Claude Fable 5Anthropicclaude-fable-5

2Gemini 3.5 FlashGooglegemini-3-5-flash

Math23 benchmarks

aime2023

1 models

1OpenAIgpt-5-1-codex-max99%

aime2024

1 models

1o3-miniOpenAI87.3%

aime2025

11 models

1MAI-Thinking-1Microsoftmai-thinking-1

2Kimi K2.5Moonshot AIkimi-k2-5

3Kimi K2.5 (Reasoning)Moonshot AIkimi-k2-5-reasoning

4GLM-4.7Z.AI · Open weight

5MiMo-V2-FlashXiaomi · Open weight

gsm8k

2 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

3Soofi S 30B-A3BSoofi Projectsoofi-s-30b-a3b

math Benchmark

1 models

1DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

cmath

1 models

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

aime2025 Arcee

5 models

1Claude Opus 4.6Anthropicclaude-opus-4-6

2Kimi K2.5Moonshot AIkimi-k2-5

4GLM-5Z.AI · Open weight

5MiniMax M2.7MiniMax · Open weight

6Trinity-Large-PreviewArcee AI · Open weight

hmmt2023

1 models

1OpenAIgpt-5-496%

hmmt2024

1 models

1OpenAIgpt-5-498%

hmmt2025

1 models

1Z.AIglm-4-797.1%

brumo2025

1 models

1OpenAIgpt-5-497%

math500

2 models

1MiniCPM5-1BOpenBMBminicpm5-1b

2LFM2.5-8B-A1BLiquidAIlfm2-5-8b-a1b

aime2026

17 models

1GLM-5.2Z.AIglm-5-2

2InklingThinking Machines Labinkling

3Kimi K2.6Moonshot AIkimi-2-6

4GLM-5Z.AI · Open weight

5Kimi K2.5Moonshot AI · Open weight

+12 more

ipho2025 Theory

1 models

1GPT-5.4 ProOpenAIgpt-5-4-pro

hmmt Feb2025

7 models

1GLM-5Z.AIglm-5

2Qwen3.6 PlusAlibabaqwen3-6-plus

3Kimi K2.5Moonshot AIkimi-k2-5

4Qwen3.5 397BAlibaba · Open weight

5Qwen3.6-27BAlibaba · Open weight

hmmt Nov2025

9 models

1GLM-5Z.AIglm-5

2Qwen3.6 PlusAlibabaqwen3-6-plus

3GLM-5.2Z.AIglm-5-2

4GLM-5.1Z.AI · Open weight

5Claude Opus 4.5Anthropic · Closed

hmmt Feb2026

20 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4DeepSeek V4 Pro (High)DeepSeek · Open weight

5Qwen3.7 PlusAlibaba · Closed

6Kimi K2.6Moonshot AI · Open weight

+15 more

imo Answer Bench

8 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4DeepSeek V4 Pro (High)DeepSeek · Open weight

5Qwen3.7 PlusAlibaba · Closed

6DeepSeek V4 Flash (High)DeepSeek · Open weight

apex

8 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

4ZAYA1-8BZyphra · Open weight

5DeepSeek V4 Pro (High)DeepSeek · Open weight

6Qwen3.7 PlusAlibaba · Closed

apex Shortlist

5 models

1DeepSeek V4 Pro (Max)DeepSeekdeepseek-v4-pro-max

3DeepSeek V4 Pro (High)DeepSeekdeepseek-v4-pro-high

4DeepSeek V4 Flash (High)DeepSeek · Open weight

5DeepSeek V4 FlashDeepSeek · Open weight

6DeepSeek V4 ProDeepSeek · Open weight

mm Answer Bench

10 models

1GLM-5.2Z.AIglm-5-2

2Kimi K2.6Moonshot AIkimi-2-6

3Claude Opus 4.5Anthropicclaude-opus-4-5

4GLM-5.1Z.AI · Open weight

5Qwen3.6 PlusAlibaba · Closed

frontier Math

7 models

1GPT-5.6 SolOpenAIgpt-5-6-sol

2GPT-5.6 TerraOpenAIgpt-5-6-terra

3GPT-5.6 LunaOpenAIgpt-5-6-luna

4GPT-5.5 ProOpenAI · Closed

5GPT-5.5OpenAI · Closed

usamo2026

3 models

1Claude Mythos 5Anthropicclaude-mythos-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3MiniMax M3MiniMaxminimax-m3

Multilingual7 benchmarks

mgsm

1 models

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

mmlu Pro X

12 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Claude Opus 4.5Anthropicclaude-opus-4-5

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.6 PlusAlibaba · Closed

5Qwen3.5 397BAlibaba · Open weight

nova63

7 models

1Qwen3.5 397BAlibabaqwen3-5-397b

2Qwen3.7 MaxAlibabaqwen3-7-max

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.6 PlusAlibaba · Closed

5Claude Opus 4.5Anthropic · Closed

include

4 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Qwen3.7 MaxAlibabaqwen3-7-max

4Qwen3.7 PlusAlibaba · Closed

poly Math

2 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

vwt2k Lite

1 models

1Alibabaqwen3-6-plus84.3%

maxife

2 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

Instruction Following4 benchmarks

ifeval

21 models

4Qwen3.7 MaxAlibaba · Closed94.3%

5Qwen3.6 PlusAlibaba · Closed94.3%

6Kimi K2.5Moonshot AI · Open weight93.9%

7o3-miniOpenAI · Closed93.9%

8Qwen3.5-122B-A10BAlibaba · Open weight93.4%

+16 more

if Bench

15 models

1MAI-Thinking-1Microsoftmai-thinking-1

3Grok 4.3xAIgrok-4-3

4InklingThinking Machines Lab · Open weight

5Qwen3.7 MaxAlibaba · Closed

6Qwen3.7 PlusAlibaba · Closed

+10 more

aa If Bench

145 models

1MiniMax M3MiniMaxminimax-m3

3Grok 4.3xAIgrok-4-3

4Qwen3.7 MaxAlibaba · Closed

5MiMo-V2.5-ProXiaomi · Closed

6DeepSeek V4 Flash (Max)DeepSeek · Open weight

+140 more

sob Value Acc

1 models

1Interfaze BetaInterfazeinterfaze-beta

External15 benchmarks

vals Index

40 models

1Anthropicanthropic/claude-fable-575.14%

2Anthropicanthropic/claude-opus-574.82%

3Moonshot AIkimi/kimi-k374.70%

4GPT-5.6 SolOpenAI

5Claude Opus 4.8Anthropic

+35 more

vals Multimodal Index

29 models

1Anthropicanthropic/claude-fable-574.15%

2Anthropicanthropic/claude-opus-573.90%

3Moonshot AIkimi/kimi-k373.42%

4GPT-5.6 SolOpenAI

5Claude Opus 4.8Anthropic

+24 more

vals Corp Fin V2

126 models

1Anthropicanthropic/claude-opus-573.19%

2Anthropicanthropic/claude-fable-571.83%

3Moonshot AIkimi/kimi-k371.56%

4Muse Spark 1.1Meta

5InklingThinkingmachines

+121 more

vals Med Code

76 models

1Anthropicanthropic/claude-opus-563.57%

2Googlegoogle/gemini-3.1-pro-preview59.06%

3Anthropicanthropic/claude-fable-556.07%

4Gemini 3 Flash PreviewGoogle

5Gemini 3.5 FlashGoogle

+71 more

vals Med Scribe

75 models

1Anthropicanthropic/claude-opus-590.98%

2Metameta/muse_spark_1_188.89%

3Anthropicanthropic/claude-fable-588.52%

4GPT-5.1OpenAI

5Kimi K3Moonshot AI

+70 more

vals Mortgage Tax

90 models

1Anthropicanthropic/claude-opus-572.06%

2Anthropicanthropic/claude-opus-4-770.27%

3Anthropicanthropic/claude-sonnet-570.03%

4Claude Opus 4.8Anthropic

5Gemini 3.1 Pro PreviewGoogle

+85 more

vals Proof Bench

54 models

1Anthropicanthropic/claude-opus-578.00%

2OpenAIopenai/gpt-5.6-sol77.00%

3Anthropicanthropic/claude-fable-577.00%

4GPT-5.6 TerraOpenAI

5AristotleHarmonic

+49 more

vals Legal Bench

129 models

1Anthropicanthropic/claude-fable-588.56%

2Googlegoogle/gemini-3.1-pro-preview87.40%

3Googlegoogle/gemini-3-pro-preview87.03%

4Claude Opus 5Anthropic

5GPT-5.6 SolOpenAI

+124 more

vals Case Law V2

54 models

1xAIgrok/grok-4.379.31%

2OpenAIopenai/gpt-5.1-2025-11-1373.42%

3OpenAIopenai/gpt-4.1-2025-04-1469.88%

4GPT-5 MiniOpenAI

5Claude Opus 4.7Anthropic

+49 more

deep Swe

11 models

1OpenAImini_swe_agent_gpt_5_6_sol_max72.7%

4kimi-k3[max]Moonshot AI · Closed

6gpt-5-5[xhigh]OpenAI · Closed

7claude-opus-4-8[max]Anthropic · Closed

8claude-sonnet-5[max]Anthropic · Closed