BenchLM Benchmarks

207 benchmarks · 1208 model scores · Data from Jul 25, 2026

All Coding Agentic Reasoning Knowledge Multimodal Math Multilingual Instruction Following External

External15 benchmarks

40 models

1Anthropicanthropic/claude-fable-575.14%

2Anthropicanthropic/claude-opus-574.82%

3Moonshot AIkimi/kimi-k374.70%

4GPT-5.6 SolOpenAI

5Claude Opus 4.8Anthropic

vals Multimodal Index

29 models

1Anthropicanthropic/claude-fable-574.15%

2Anthropicanthropic/claude-opus-573.90%

3Moonshot AIkimi/kimi-k373.42%

4GPT-5.6 SolOpenAI

5Claude Opus 4.8Anthropic

vals Corp Fin V2

126 models

1Anthropicanthropic/claude-opus-573.19%

2Anthropicanthropic/claude-fable-571.83%

3Moonshot AIkimi/kimi-k371.56%

4Muse Spark 1.1Meta

5InklingThinkingmachines

76 models

1Anthropicanthropic/claude-opus-563.57%

2Googlegoogle/gemini-3.1-pro-preview59.06%

3Anthropicanthropic/claude-fable-556.07%

4Gemini 3 Flash PreviewGoogle

5Gemini 3.5 FlashGoogle

vals Med Scribe

75 models

1Anthropicanthropic/claude-opus-590.98%

2Metameta/muse_spark_1_188.89%

3Anthropicanthropic/claude-fable-588.52%

4GPT-5.1OpenAI

5Kimi K3Moonshot AI

vals Mortgage Tax

90 models

1Anthropicanthropic/claude-opus-572.06%

2Anthropicanthropic/claude-opus-4-770.27%

3Anthropicanthropic/claude-sonnet-570.03%

4Claude Opus 4.8Anthropic

5Gemini 3.1 Pro PreviewGoogle

vals Proof Bench

54 models

1Anthropicanthropic/claude-opus-578.00%

2OpenAIopenai/gpt-5.6-sol77.00%

3Anthropicanthropic/claude-fable-577.00%

4GPT-5.6 TerraOpenAI

5AristotleHarmonic

vals Legal Bench

129 models

1Anthropicanthropic/claude-fable-588.56%

2Googlegoogle/gemini-3.1-pro-preview87.40%

3Googlegoogle/gemini-3-pro-preview87.03%

4Claude Opus 5Anthropic

5GPT-5.6 SolOpenAI

vals Case Law V2

54 models

1xAIgrok/grok-4.379.31%

2OpenAIopenai/gpt-5.1-2025-11-1373.42%

3OpenAIopenai/gpt-4.1-2025-04-1469.88%

4GPT-5 MiniOpenAI

5Claude Opus 4.7Anthropic

11 models

1OpenAImini_swe_agent_gpt_5_6_sol_max72.7%

4kimi-k3[max]Moonshot AI · Closed

6gpt-5-5[xhigh]OpenAI · Closed

7claude-opus-4-8[max]Anthropic · Closed

8claude-sonnet-5[max]Anthropic · Closed

75 models

1Anthropicanthropic/claude-opus-597.00%

2OpenAIopenai/gpt-5.6-sol96.20%

3Anthropicanthropic/claude-fable-595.00%

4Kimi K3Moonshot AI

5GPT-5.6 LunaOpenAI

vals Terminal Bench2

67 models

1OpenAIopenai/gpt-5.573.20%

2Anthropicanthropic/claude-opus-4-870.04%

3Anthropicanthropic/claude-opus-4-768.54%

4Gemini 3.5 FlashGoogle

5Gemini 3.1 Pro PreviewGoogle

vals Live Code Bench

131 models

1Anthropicanthropic/claude-fable-589.78%

2Anthropicanthropic/claude-opus-589.03%

3Googlegoogle/gemini-3.1-pro-preview88.48%

4Gemini 3.6 FlashGoogle

5GPT-5.2 CodexOpenAI

vals Gpqa Diamond

126 models

1Googlegoogle/gemini-3.1-pro-preview95.45%

2OpenAIopenai/gpt-5.6-sol95.20%

3Googlegoogle/gemini-3.6-flash93.43%

4Claude Opus 5Anthropic

5Claude Fable 5Anthropic

125 models

1Anthropicanthropic/claude-opus-591.59%

2Anthropicanthropic/claude-fable-591.50%

3Googlegoogle/gemini-3.1-pro-preview90.99%

4Gemini 3 Pro PreviewGoogle

5Claude Opus 4.7Anthropic