gdpval Aa Normalized

87 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 5	Anthropic	Closed	claude-opus-5
2	Claude Fable 5	Anthropic	Closed	claude-fable-5
3	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
4	Kimi K3	Moonshot AI · Closed	59.3%
5	Claude Sonnet 5	Anthropic · Closed	55.2%
6	Claude Opus 4.8	Anthropic · Closed	54.6%
7	GPT-5.6 Terra	OpenAI · Closed	54.1%
8	GPT-5.6 Luna	OpenAI · Closed	54.1%
9	Grok 4.5	xAI · Closed	51.4%
10	GLM-5.2	Z.AI · Open weight	50.5%
11	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	49.7%
12	GPT-5.5	OpenAI · Closed	49.6%
13	Gemini 3.6 Flash	Google · Closed	46.2%
14	GPT-5.4	OpenAI · Closed	44.6%
15	MiniMax M3	MiniMax · Open weight	44.5%
16	Muse Spark 1.1	Meta · Closed	43.8%
17	Gemini 3.5 Flash	Google · Closed	42.2%
18	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	40.3%
19	DeepSeek V4 Pro (High)	DeepSeek · Open weight	40.0%
20	Qwen3.7 Max	Alibaba · Closed	38.6%
21	MiMo-V2.5-Pro	Xiaomi · Closed	38.3%
22	GLM-5.1	Z.AI · Open weight	37.8%
23	Inkling	Thinking Machines Lab · Open weight	36.8%
24	Hy3 Preview	Tencent · Open weight	35.8%
25	Hy3	Tencent · Open weight	35.8%
26	Kimi K2.6	Moonshot AI · Open weight	34.4%
27	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	34.4%
28	Kimi K2.7 Code	Moonshot AI · Open weight	34.3%
29	GPT-5.4 mini	OpenAI · Closed	33.5%
30	GLM-4.7	Z.AI · Open weight	33.3%
31	Nemotron 3 Ultra	NVIDIA · Open weight	33.1%
32	MiniMax M2.7	MiniMax · Open weight	32.9%
33	DeepSeek V4 Flash (High)	DeepSeek · Open weight	32.4%
34	Muse Spark	Meta · Closed	32.2%
35	Qwen3.6 Plus	Alibaba · Closed	31.9%
36	Qwen3.6-27B	Alibaba · Open weight	31.9%
37	Gemini 3.5 Flash-Lite	Google · Closed	31.9%
38	GPT-5.4 nano	OpenAI · Closed	30.1%
39	Grok 4.3	xAI · Closed	29.2%
40	GPT-5 (high)	OpenAI · Closed	28.9%
41	Qwen3.6-35B-A3B	Alibaba · Open weight	27.6%
42	Step 3.7 Flash	StepFun · Open weight	25.8%
43	Kimi K2.5	Moonshot AI · Open weight	25.1%
44	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	25.1%
45	GPT-5.1	OpenAI · Closed	24.4%
46	Qwen3.5-122B-A10B	Alibaba · Open weight	24.1%
47	Gemini 3.1 Pro	Google · Closed	23.2%
48	Qwen3.5 397B	Alibaba · Open weight	23.1%
49	Qwen3.5 397B (Reasoning)	Alibaba · Open weight	23.1%
50	Qwen3.7 Plus	Alibaba · Closed	22.1%
51	Mistral Medium 3.5 128B	Mistral · Open weight	21.6%
52	GPT-5 mini	OpenAI · Closed	21.6%
53	MiMo-V2-Flash	Xiaomi · Open weight	16.9%
54	Gemma 4 31B	Google · Open weight	15.5%
55	GPT-OSS 120B	OpenAI · Open weight	15.1%
56	Gemma 4 26B A4B	Google · Open weight	13.5%
57	Command A+	Cohere · Open weight	10.9%
58	Mercury 2	Inception · Closed	9.9%
59	Nemotron 3 Super 120B A12B	NVIDIA · Open weight	9.9%
60	Gemini 2.5 Pro	Google · Closed	8.6%
61	Gemma 4 12B	Google · Open weight	7.6%
62	Gemini 3.1 Flash-Lite	Google · Closed	7.4%
63	Mistral Large 3	Mistral · Closed	7.0%
64	K-Exaone	LG AI Research · Closed	4.9%
65	Mistral Small 4	Mistral · Open weight	4.6%
66	Mistral Small 4 (Reasoning)	Mistral · Open weight	4.6%
67	GPT-OSS 20B	OpenAI · Open weight	3.4%
68	Trinity-Large-Preview	Arcee AI · Open weight	3.2%
69	Trinity-Large-Thinking	Arcee AI · Open weight	3.2%
70	Ling 2.6 Flash	InclusionAI · Open weight	2.5%
71	GPT-4.1 mini	OpenAI · Closed	0.4%
72	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	0.0%
73	GPT-4.1 nano	OpenAI · Closed	0.0%
74	DeepSeek V3	DeepSeek · Open weight	0.0%
75	Llama 4 Scout	Meta · Open weight	0.0%
76	Llama 4 Maverick	Meta · Open weight	0.0%
77	Gemma 3 27B	Google · Open weight	0.0%
78	Nemotron 3 Nano 30B	NVIDIA · Open weight	0.0%
79	GPT-4o mini	OpenAI · Closed	0.0%
80	Gemma 4 E2B	Google · Open weight	0.0%
81	Gemma 4 E4B	Google · Open weight	0.0%
82	Ministral 3 14B (Reasoning)	Mistral · Open weight	0.0%
83	Ministral 3 14B	Mistral · Open weight	0.0%
84	Ministral 3 8B (Reasoning)	Mistral · Open weight	0.0%
85	Ministral 3 8B	Mistral · Open weight	0.0%
86	Ministral 3 3B (Reasoning)	Mistral · Open weight	0.0%
87	Ministral 3 3B	Mistral · Open weight	0.0%