BenchLM Benchmarks

207 benchmarks · 29 model scores · Data from Jul 25, 2026

Multilingual7 benchmarks

1 models

2DeepSeek V4 Pro BaseDeepSeekdeepseek-v4-pro-base

12 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Claude Opus 4.5Anthropicclaude-opus-4-5

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.6 PlusAlibaba · Closed

5Qwen3.5 397BAlibaba · Open weight

7 models

1Qwen3.5 397BAlibabaqwen3-5-397b

2Qwen3.7 MaxAlibabaqwen3-7-max

3Qwen3.7 PlusAlibabaqwen3-7-plus

4Qwen3.6 PlusAlibaba · Closed

5Claude Opus 4.5Anthropic · Closed

4 models

1Claude Opus 5Anthropicclaude-opus-5

2Claude Opus 4.8Anthropicclaude-opus-4-8

3Qwen3.7 MaxAlibabaqwen3-7-max

4Qwen3.7 PlusAlibaba · Closed

2 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus

1 models

1Alibabaqwen3-6-plus84.3%

2 models

1Qwen3.7 MaxAlibabaqwen3-7-max

2Qwen3.7 PlusAlibabaqwen3-7-plus