gpqa Diamond

45 models evaluated

#	Model	Provider	Type	Score
1	Sakana Fugu-Ultra	Sakana AI	Closed	sakana-fugu-ultra
2	Sakana Fugu	Sakana AI	Closed	sakana-fugu
3	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
4	Gemini 3.1 Pro	Google · Closed	94.3%
5	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	94.2%
6	Claude Opus 4.8	Anthropic · Closed	93.6%
7	GPT-5.5	OpenAI · Closed	93.6%
8	Kimi K3	Moonshot AI · Closed	93.5%
9	GPT-5.6 Terra	OpenAI · Closed	92.9%
10	GPT-5.4	OpenAI · Closed	92.8%
11	Gemini 3.5 Flash	Google · Closed	92.7%
12	Qwen3.7 Max	Alibaba · Closed	92.4%
13	GPT-5.6 Luna	OpenAI · Closed	92.3%
14	GLM-5.2	Z.AI · Open weight	91.2%
15	Kimi K2.6	Moonshot AI · Open weight	90.5%
16	Qwen3.7 Plus	Alibaba · Closed	90.3%
17	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	90.1%
18	Interfaze Beta	Interfaze · Closed	89.9%
19	Muse Spark	Meta · Closed	89.5%
20	Claude Opus 4.6	Anthropic · Closed	89.2%
21	DeepSeek V4 Pro (High)	DeepSeek · Open weight	89.1%
22	Grok 4.20	xAI · Closed	88.5%
23	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	88.1%
24	Inkling	Thinking Machines Lab · Open weight	87.9%
25	Kimi K2.5	Moonshot AI · Open weight	87.6%
26	DeepSeek V4 Flash (High)	DeepSeek · Open weight	87.4%
27	Hy3 Preview	Tencent · Open weight	87.2%
28	Nemotron 3 Ultra	NVIDIA · Open weight	87.0%
29	MiniMax M2.7	MiniMax · Open weight	87.0%
30	GLM-5.1	Z.AI · Open weight	86.2%
31	GLM-5	Z.AI · Open weight	86.0%
32	MAI-Thinking-1	Microsoft · Closed	84.2%
33	Gemma 4 12B	Google · Open weight	78.8%
34	Trinity-Large-Thinking	Arcee AI · Open weight	76.3%
35	DeepSeek V4 Pro	DeepSeek · Open weight	72.9%
36	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	72.2%
37	DeepSeek V4 Flash	DeepSeek · Open weight	71.2%
38	ZAYA1-8B	Zyphra · Open weight	71.0%
39	Trinity-Large-Preview	Arcee AI · Open weight	63.3%
40	Mellum2-12B-A2.5B-Thinking	JetBrains · Open weight	57.6%
41	ZAYA1-74B-Preview	Zyphra · Open weight	57.3%
42	Soofi S 30B-A3B	Soofi Project · Open weight	43.4%
43	Mellum2-12B-A2.5B-Instruct	JetBrains · Open weight	40.9%
44	MiniCPM5-1B	OpenBMB · Open weight	26.3%
45	LFM2.5-230M	LiquidAI · Open weight	25.4%