mmmu Pro Python

9 models evaluated

#	Model	Provider	Type	Score
1	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
2	Kimi K3	Moonshot AI	Closed	kimi-3
3	GPT-5.5	OpenAI	Closed	gpt-5-5
4	GPT-5.4	OpenAI · Closed	82.1%
5	GPT-5.6 Terra	OpenAI · Closed	82%
6	Kimi K2.6	Moonshot AI · Open weight	80.1%
7	GPT-5.6 Luna	OpenAI · Closed	79.5%
8	GPT-5.4 mini	OpenAI · Closed	78%
9	GPT-5.4 nano	OpenAI · Closed	69.5%