math Vision

12 models evaluated

#	Model	Provider	Type	Score
1	Kimi K3	Moonshot AI	Closed	kimi-3
2	Qwen3.7 Plus	Alibaba	Closed	qwen3-7-plus
3	Qwen3.5 397B	Alibaba	Open	qwen3-5-397b
4	Qwen3.6 Plus	Alibaba · Closed	88.0%
5	Kimi K2.6	Moonshot AI · Open weight	87.4%
6	Gemini 3 Pro	Google · Closed	86.6%
7	Qwen3.5-122B-A10B	Alibaba · Open weight	86.2%
8	Qwen3.5-27B	Alibaba · Open weight	86.0%
9	Qwen3.5-35B-A3B	Alibaba · Open weight	83.9%
10	GPT-5.2	OpenAI · Closed	83.0%
11	Gemma 4 12B	Google · Open weight	79.7%
12	Claude Opus 4.5	Anthropic · Closed	74.3%