mmlu Pro

43 models evaluated

#	Model	Provider	Type	Score
1	Qwen3.7 Max	Alibaba	Closed	qwen3-7-max
2	Claude Opus 4.5	Anthropic	Closed	claude-opus-4-5
3	Qwen3.7 Plus	Alibaba	Closed	qwen3-7-plus
4	Qwen3.6 Plus	Alibaba · Closed	88.5%
5	Qwen3.5 397B	Alibaba · Open weight	87.8%
6	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	87.5%
7	DeepSeek V4 Pro (High)	DeepSeek · Open weight	87.1%
8	Kimi K2.5	Moonshot AI · Open weight	87.1%
9	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	87.1%
10	Nemotron 3 Ultra	NVIDIA · Open weight	86.8%
11	Qwen3.5-122B-A10B	Alibaba · Open weight	86.7%
12	DeepSeek V4 Flash (High)	DeepSeek · Open weight	86.4%
13	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	86.2%
14	Qwen3.6-27B	Alibaba · Open weight	86.2%
15	Qwen3.5-27B	Alibaba · Open weight	86.1%
16	GLM-5	Z.AI · Open weight	85.7%
17	Qwen3.5-35B-A3B	Alibaba · Open weight	85.3%
18	Qwen3.6-35B-A3B	Alibaba · Open weight	85.2%
19	Gemma 4 31B	Google · Open weight	85.2%
20	MAI-Thinking-1	Microsoft · Closed	85%
21	MiMo-V2-Flash	Xiaomi · Open weight	84.9%
22	GLM-4.7	Z.AI · Open weight	84.3%
23	Qwen3 235B 2507	Alibaba · Open weight	83%
24	DeepSeek V4 Flash	DeepSeek · Open weight	83%
25	DeepSeek V4 Pro	DeepSeek · Open weight	82.9%
26	Gemma 4 26B A4B	Google · Open weight	82.6%
27	Claude Opus 4.6	Anthropic · Closed	82%
28	Exaone 4.0 32B	LG AI Research · Open weight	81.8%
29	Claude Sonnet 4.6	Anthropic · Closed	79.2%
30	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	77.3%
31	Gemma 4 12B	Google · Open weight	77.2%
32	Celeris-1	Celeris · Closed	75.9%
33	DeepSeek V3	DeepSeek · Open weight	75.9%
34	ZAYA1-8B	Zyphra · Open weight	74.2%
35	DeepSeek V4 Pro Base	DeepSeek · Open weight	73.5%
36	Gemma 4 E4B	Google · Open weight	69.4%
37	DeepSeek V4 Flash Base	DeepSeek · Open weight	68.3%
38	ZAYA1-74B-Preview	Zyphra · Open weight	68.1%
39	Gemma 4 E2B	Google · Open weight	60%
40	Soofi S 30B-A3B	Soofi Project · Open weight	51.4%
41	MiniCPM5-1B	OpenBMB · Open weight	48.9%
42	LFM2.5-230M	LiquidAI · Open weight	20.3%
43	LFM2.5-VL-450M	LiquidAI · Open weight	19.3%