gpqa

71 models evaluated

#	Model	Provider	Type	Score
1	Sakana Fugu-Ultra	Sakana AI	Closed	sakana-fugu-ultra
2	Sakana Fugu	Sakana AI	Closed	sakana-fugu
3	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
4	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	94.2%
5	Claude Mythos 5	Anthropic · Closed	94.1%
6	Claude Opus 4.8	Anthropic · Closed	93.6%
7	GPT-5.5	OpenAI · Closed	93.6%
8	Kimi K3	Moonshot AI · Closed	93.5%
9	GPT-5.6 Terra	OpenAI · Closed	92.9%
10	GPT-5.4	OpenAI · Closed	92.8%
11	Qwen3.7 Max	Alibaba · Closed	92.4%
12	GPT-5.2	OpenAI · Closed	92.4%
13	GPT-5.6 Luna	OpenAI · Closed	92.3%
14	Gemini 3.5 Flash	Google · Closed	92.2%
15	Claude Opus 4.6	Anthropic · Closed	91.3%
16	GLM-5.2	Z.AI · Open weight	91.2%
17	Kimi K2.6	Moonshot AI · Open weight	90.5%
18	Qwen3.6 Plus	Alibaba · Closed	90.4%
19	Qwen3.7 Plus	Alibaba · Closed	90.3%
20	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	90.1%
21	Grok 4.3	xAI · Closed	90.1%
22	Claude Sonnet 4.6	Anthropic · Closed	89.9%
23	Interfaze Beta	Interfaze · Closed	89.9%
24	DeepSeek V4 Pro (High)	DeepSeek · Open weight	89.1%
25	Qwen3.5 397B	Alibaba · Open weight	88.4%
26	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	88.1%
27	GPT-5.4 mini	OpenAI · Closed	88%
28	Inkling	Thinking Machines Lab · Open weight	87.9%
29	Qwen3.6-27B	Alibaba · Open weight	87.8%
30	Kimi K2.5	Moonshot AI · Open weight	87.6%
31	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	87.6%
32	DeepSeek V4 Flash (High)	DeepSeek · Open weight	87.4%
33	Hy3 Preview	Tencent · Open weight	87.2%
34	Claude Opus 4.5	Anthropic · Closed	87%
35	Nemotron 3 Ultra	NVIDIA · Open weight	87%
36	Qwen3.5-122B-A10B	Alibaba · Open weight	86.6%
37	GLM-5	Z.AI · Open weight	86%
38	Qwen3.6-35B-A3B	Alibaba · Open weight	86%
39	GLM-4.7	Z.AI · Open weight	85.7%
40	Qwen3.5-27B	Alibaba · Open weight	85.5%
41	Gemma 4 31B	Google · Open weight	84.3%
42	MAI-Thinking-1	Microsoft · Closed	84.2%
43	Qwen3.5-35B-A3B	Alibaba · Open weight	84.2%
44	MiMo-V2-Flash	Xiaomi · Open weight	83.7%
45	Claude Sonnet 4.5	Anthropic · Closed	83.4%
46	Gemini 2.5 Pro	Google · Closed	83%
47	GPT-5.4 nano	OpenAI · Closed	82.8%
48	o1-pro	OpenAI · Closed	79%
49	Gemma 4 12B	Google · Open weight	78.8%
50	Qwen3 235B 2507	Alibaba · Open weight	77.5%
51	o3-mini	OpenAI · Closed	77.2%
52	o1	OpenAI · Closed	75.7%
53	DeepSeek V4 Pro	DeepSeek · Open weight	72.9%
54	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	72.2%
55	DeepSeek V4 Flash	DeepSeek · Open weight	71.2%
56	GPT-5 nano	OpenAI · Closed	71.2%
57	ZAYA1-8B	Zyphra · Open weight	71%
58	GPT-4.1	OpenAI · Closed	66.3%
59	GPT-4.1 mini	OpenAI · Closed	64.2%
60	Claude 3.5 Sonnet	Anthropic · Closed	59.4%
61	DeepSeek V3	DeepSeek · Open weight	59.1%
62	Ling 2.6 Flash	InclusionAI · Open weight	59%
63	Gemma 4 E4B	Google · Open weight	58.6%
64	Mellum2-12B-A2.5B-Thinking	JetBrains · Open weight	57.6%
65	ZAYA1-74B-Preview	Zyphra · Open weight	57.3%
66	GPT-4.1 nano	OpenAI · Closed	50.3%
67	Soofi S 30B-A3B	Soofi Project · Open weight	43.4%
68	Gemma 4 E2B	Google · Open weight	43.4%
69	Mellum2-12B-A2.5B-Instruct	JetBrains · Open weight	40.9%
70	LFM2.5-VL-450M	LiquidAI · Open weight	25.7%
71	LFM2.5-230M	LiquidAI · Open weight	25.4%