super Gpqa

19 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 4.6	Anthropic	Closed	claude-opus-4-6
2	Claude Sonnet 4.6	Anthropic	Closed	claude-sonnet-4-6
3	Qwen 3.6 Max (preview)	Alibaba	Closed	qwen3-6-max-preview
4	Qwen3.7 Max	Alibaba · Closed	73.6%
5	Qwen3.6 Plus	Alibaba · Closed	71.6%
6	Qwen3.7 Plus	Alibaba · Closed	71.4%
7	Claude Opus 4.5	Anthropic · Closed	70.6%
8	Qwen3.5 397B	Alibaba · Open weight	70.4%
9	Kimi K2.5	Moonshot AI · Open weight	69.2%
10	Qwen3.5-122B-A10B	Alibaba · Open weight	67.1%
11	GLM-5	Z.AI · Open weight	66.8%
12	Qwen3.6-27B	Alibaba · Open weight	66%
13	Qwen3.5-27B	Alibaba · Open weight	65.6%
14	Qwen3.6-35B-A3B	Alibaba · Open weight	64.7%
15	Qwen3.5-35B-A3B	Alibaba · Open weight	63.4%
16	Qwen3 235B 2507	Alibaba · Open weight	62.6%
17	DeepSeek V4 Pro Base	DeepSeek · Open weight	53.9%
18	DeepSeek V4 Flash Base	DeepSeek · Open weight	46.5%
19	MiniCPM5-1B	OpenBMB · Open weight	23.1%