mmmu Pro

34 models evaluated

#	Model	Provider	Type	Score
1	GPT-5.4 Pro	OpenAI	Closed	gpt-5-4-pro
2	Gemini 3.1 Pro	Google	Closed	gemini-3-1-pro
3	Gemini 3.5 Flash	Google	Closed	gemini-3-5-flash
4	GPT-5.6 Sol	OpenAI · Closed	83%
5	Kimi K3	Moonshot AI · Closed	81.6%
6	GPT-5.5	OpenAI · Closed	81.2%
7	GPT-5.4	OpenAI · Closed	81.2%
8	Gemini 3 Pro	Google · Closed	81%
9	GPT-5.6 Terra	OpenAI · Closed	80.7%
10	Muse Spark	Meta · Closed	80.4%
11	GPT-5.2	OpenAI · Closed	79.5%
12	Kimi K2.6	Moonshot AI · Open weight	79.4%
13	Qwen3.7 Plus	Alibaba · Closed	79%
14	Qwen3.5 397B	Alibaba · Open weight	79%
15	Qwen3.6 Plus	Alibaba · Closed	78.8%
16	Kimi K2.5	Moonshot AI · Open weight	78.5%
17	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	78.5%
18	GPT-5.6 Luna	OpenAI · Closed	78.4%
19	MiniMax M3	MiniMax · Open weight	78.1%
20	Grok 4.3	xAI · Closed	78.1%
21	MiMo-V2.5	Xiaomi · Closed	77.9%
22	Claude Opus 4.6	Anthropic · Closed	77.3%
23	Gemma 4 31B	Google · Open weight	76.9%
24	GPT-5.4 mini	OpenAI · Closed	76.6%
25	Qwen3.6-27B	Alibaba · Open weight	75.8%
26	Qwen3.6-35B-A3B	Alibaba · Open weight	75.3%
27	Grok 4.20	xAI · Closed	75.2%
28	Gemma 4 26B A4B	Google · Open weight	73.8%
29	Inkling	Thinking Machines Lab · Open weight	73.5%
30	Interfaze Beta	Interfaze · Closed	71.1%
31	Claude Opus 4.5	Anthropic · Closed	70.6%
32	Gemma 4 12B	Google · Open weight	69.1%
33	GPT-5.4 nano	OpenAI · Closed	66.1%
34	Command A+	Cohere · Open weight	63%