aa Mmmu Pro

92 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 5	Anthropic	Closed	claude-opus-5
2	Gemini 3.5 Flash	Google	Closed	gemini-3-5-flash
3	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
4	Gemini 3.6 Flash	Google · Closed	83.2%
5	Gemini 3.1 Pro	Google · Closed	82.4%
6	GPT-5.6 Terra	OpenAI · Closed	80.7%
7	Qwen3.7 Plus	Alibaba · Closed	80.5%
8	Kimi K3	Moonshot AI · Closed	80.5%
9	Muse Spark	Meta · Closed	80.5%
10	Grok 4.5	xAI · Closed	80.4%
11	Gemini 3 Pro	Google · Closed	80.2%
12	GPT-5.5	OpenAI · Closed	79.9%
13	Kimi K2.6	Moonshot AI · Open weight	79.4%
14	Gemini 3.5 Flash-Lite	Google · Closed	79.0%
15	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	78.8%
16	GPT-5.6 Luna	OpenAI · Closed	78.6%
17	MiniMax M3	MiniMax · Open weight	78.6%
18	Gemini 3 Flash	Google · Closed	78.6%
19	GPT-5.3 Codex	OpenAI · Closed	78.5%
20	GPT-5.3-Codex-Spark	OpenAI · Closed	78.5%
21	GPT-5.4	OpenAI · Closed	78.4%
22	Grok 4.3	xAI · Closed	78.1%
23	Qwen3.6 Plus	Alibaba · Closed	78.0%
24	Claude Sonnet 5	Anthropic · Closed	77.3%
25	Qwen3.5 397B	Alibaba · Open weight	77.3%
26	Qwen3.5 397B (Reasoning)	Alibaba · Open weight	77.3%
27	Claude Opus 4.7	Anthropic · Closed	76.4%
28	GPT-5.2-Codex	OpenAI · Closed	76.3%
29	GPT-5.1	OpenAI · Closed	75.5%
30	Gemini 3.1 Flash-Lite	Google · Closed	75.5%
31	Kimi K2.5	Moonshot AI · Open weight	75.4%
32	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	75.4%
33	Claude Opus 4.6 (Adaptive)	Anthropic · Closed	75.4%
34	Step 3.7 Flash	StepFun · Open weight	75.3%
35	Qwen3.5-122B-A10B	Alibaba · Open weight	75.0%
36	Qwen3.5-27B	Alibaba · Open weight	75.0%
37	Qwen3.6-35B-A3B	Alibaba · Open weight	75.0%
38	Gemini 2.5 Pro	Google · Closed	74.9%
39	Qwen3.6-27B	Alibaba · Open weight	74.6%
40	GPT-5 (medium)	OpenAI · Closed	74.3%
41	GPT-5 (high)	OpenAI · Closed	74.2%
42	Claude Opus 4.5 Thinking	Anthropic · Closed	74.0%
43	Inkling	Thinking Machines Lab · Open weight	73.5%
44	Gemma 4 31B	Google · Open weight	73.4%
45	GPT-5.4 mini	OpenAI · Closed	73.3%
46	GLM-5V-Turbo	Z.AI · Closed	72.8%
47	Qwen3.5-35B-A3B	Alibaba · Open weight	72.7%
48	Claude Opus 4.6	Anthropic · Closed	72.5%
49	GPT-5.1-Codex-Max	OpenAI · Closed	72.5%
50	GPT-5.1-Codex	OpenAI · Closed	72.5%
51	Claude Opus 4.5	Anthropic · Closed	71.2%
52	Claude Sonnet 4.6	Anthropic · Closed	70.6%
53	o3	OpenAI · Closed	70.1%
54	GPT-5 mini	OpenAI · Closed	70.1%
55	MiMo-V2-Omni	Xiaomi · Closed	69.9%
56	Gemma 4 12B	Google · Open weight	69.7%
57	Gemma 4 26B A4B	Google · Open weight	69.2%
58	Grok 4	xAI · Closed	68.8%
59	Claude 4.1 Opus Thinking	Anthropic · Closed	67.9%
60	Gemini 2.5 Flash	Google · Closed	65.5%
61	GPT-5.4 nano	OpenAI · Closed	65.4%
62	Mistral Medium 3.5 128B	Mistral · Open weight	64.9%
63	Grok 4.1 Fast (Reasoning)	xAI · Closed	63.3%
64	Command A+	Cohere · Open weight	63.2%
65	Claude 4 Sonnet	Anthropic · Closed	62.4%
66	Llama 4 Maverick	Meta · Open weight	62.1%
67	Grok 4 Fast (Reasoning)	xAI · Closed	61.8%
68	GPT-4.1	OpenAI · Closed	61.2%
69	GPT-5 nano	OpenAI · Closed	61.0%
70	GPT-4.1 mini	OpenAI · Closed	58.7%
71	Mistral Small 4	Mistral · Open weight	56.8%
72	Mistral Small 4 (Reasoning)	Mistral · Open weight	56.8%
73	Mistral Large 3	Mistral · Closed	55.7%
74	Gemini 1.5 Pro	Google · Closed	55.0%
75	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	53.2%
76	Mistral Medium 3	Mistral · Closed	53.0%
77	Llama 4 Scout	Meta · Open weight	52.9%
78	Gemma 4 E4B	Google · Open weight	51.4%
79	Ministral 3 14B (Reasoning)	Mistral · Open weight	49.8%
80	Ministral 3 14B	Mistral · Open weight	49.8%
81	Grok 4.1 Fast	xAI · Closed	48.4%
82	Gemma 3 27B	Google · Open weight	48.0%
83	Ministral 3 8B (Reasoning)	Mistral · Open weight	46.0%
84	Ministral 3 8B	Mistral · Open weight	46.0%
85	Gemma 4 E2B	Google · Open weight	44.6%
86	Nova Pro	Amazon · Closed	44.3%
87	GPT-4o mini	OpenAI · Closed	41.5%
88	GPT-4.1 nano	OpenAI · Closed	40.1%
89	Ministral 3 3B (Reasoning)	Mistral · Open weight	38.1%
90	Ministral 3 3B	Mistral · Open weight	38.1%
91	Claude 3 Haiku	Anthropic · Closed	30.8%
92	LFM2.5-VL-1.6B-Extract	LiquidAI · Open weight	26.5%