critpt

158 models evaluated

#	Model	Provider	Type	Score
1	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
2	GPT-5.5 Pro	OpenAI	Closed	gpt-5-5-pro
3	GPT-5.6 Terra	OpenAI	Closed	gpt-5-6-terra
4	GPT-5.4 Pro	OpenAI · Closed	30.0%
5	Claude Opus 5	Anthropic · Closed	29.1%
6	Claude Fable 5	Anthropic · Closed	28.6%
7	GPT-5.5	OpenAI · Closed	27.1%
8	Gemini 3 Pro Deep Think	Google · Closed	25.7%
9	Kimi K3	Moonshot AI · Closed	23.4%
10	GPT-5.4	OpenAI · Closed	23.4%
11	Claude Opus 4.8	Anthropic · Closed	20.9%
12	GLM-5.2	Z.AI · Open weight	20.9%
13	GPT-5.6 Luna	OpenAI · Closed	20.6%
14	Gemini 3.1 Pro	Google · Closed	17.7%
15	Claude Sonnet 5	Anthropic · Closed	16.9%
16	GPT-5.3 Codex	OpenAI · Closed	16.9%
17	GPT-5.3-Codex-Spark	OpenAI · Closed	16.9%
18	Grok 4.5	xAI · Closed	15.4%
19	Muse Spark 1.1	Meta · Closed	15.1%
20	Qwen3.7 Max	Alibaba · Closed	13.4%
21	Gemini 3.5 Flash	Google · Closed	13.1%
22	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	12.9%
23	Claude Opus 4.6 (Adaptive)	Anthropic · Closed	12.6%
24	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	12.0%
25	GPT-5.2	OpenAI · Closed	11.6%
26	Muse Spark	Meta · Closed	11.3%
27	Gemini 3.6 Flash	Google · Closed	10.6%
28	DeepSeek V4 Pro (High)	DeepSeek · Open weight	10.0%
29	GPT-5.4 mini	OpenAI · Closed	10.0%
30	Kimi K2.7 Code	Moonshot AI · Open weight	10.0%
31	GPT-5.4 nano	OpenAI · Closed	9.3%
32	Qwen3.7 Plus	Alibaba · Closed	9.1%
33	Gemini 3 Pro	Google · Closed	9.1%
34	GPT-5.2-Codex	OpenAI · Closed	8.7%
35	Kimi K2.6	Moonshot AI · Open weight	8.0%
36	Grok 4.3	xAI · Closed	8.0%
37	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	7.1%
38	GPT-5 (high)	OpenAI · Closed	5.7%
39	GPT-5.1-Codex-Max	OpenAI · Closed	5.7%
40	GPT-5.1-Codex	OpenAI · Closed	5.7%
41	Inkling	Thinking Machines Lab · Open weight	5.4%
42	Claude Opus 4.7	Anthropic · Closed	5.1%
43	GPT-5.1	OpenAI · Closed	4.9%
44	Hy3 Preview	Tencent · Open weight	4.9%
45	Hy3	Tencent · Open weight	4.9%
46	GLM-5.1	Z.AI · Open weight	4.6%
47	Claude Opus 4.5 Thinking	Anthropic · Closed	4.6%
48	MiMo-V2.5-Pro	Xiaomi · Closed	4.0%
49	MiniMax M3	MiniMax · Open weight	3.7%
50	Qwen 3.6 Max (preview)	Alibaba · Closed	3.7%
51	DeepSeek V4 Flash (High)	DeepSeek · Open weight	3.4%
52	Kimi K2.5	Moonshot AI · Open weight	3.1%
53	Nemotron 3 Ultra	NVIDIA · Open weight	3.1%
54	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	3.1%
55	Nemotron 3 Super 120B A12B	NVIDIA · Open weight	3.1%
56	Qwen3.6 Plus	Alibaba · Closed	2.9%
57	Grok 4.1 Fast (Reasoning)	xAI · Closed	2.9%
58	Grok 4 Fast (Reasoning)	xAI · Closed	2.9%
59	Claude Opus 4.6	Anthropic · Closed	2.8%
60	Gemini 2.5 Pro	Google · Closed	2.6%
61	Step 3.7 Flash	StepFun · Open weight	2.3%
62	Step 3.5 Flash	StepFun · Open weight	2.3%
63	GLM-5	Z.AI · Open weight	2.0%
64	Grok 4	xAI · Closed	2.0%
65	DeepSeek V3.1 (Reasoning)	DeepSeek · Open weight	2.0%
66	Qwen3.5 397B	Alibaba · Open weight	1.7%
67	GLM-4.7	Z.AI · Open weight	1.7%
68	Qwen3.5 397B (Reasoning)	Alibaba · Open weight	1.7%
69	Gemini 3 Flash	Google · Closed	1.4%
70	Gemma 4 31B	Google · Open weight	1.4%
71	Gemini 2.5 Flash	Google · Closed	1.4%
72	DeepSeek-R1	DeepSeek · Open weight	1.4%
73	GPT-OSS 20B	OpenAI · Open weight	1.4%
74	Qwen3.6-27B	Alibaba · Open weight	1.1%
75	Claude 4 Sonnet	Anthropic · Closed	1.1%
76	Gemini 3.1 Flash-Lite	Google · Closed	1.1%
77	o3	OpenAI · Closed	1.1%
78	MiMo-V2-Omni	Xiaomi · Closed	1.1%
79	GPT-OSS 120B	OpenAI · Open weight	1.1%
80	K-Exaone	LG AI Research · Closed	1.1%
81	MiniMax M2.5	MiniMax · Closed	1.1%
82	Claude Sonnet 4.6	Anthropic · Closed	0.9%
83	Qwen3.5-27B	Alibaba · Open weight	0.9%
84	Qwen3.5-35B-A3B	Alibaba · Open weight	0.9%
85	DeepSeek V3.2	DeepSeek · Open weight	0.9%
86	Trinity-Large-Preview	Arcee AI · Open weight	0.9%
87	Trinity-Large-Thinking	Arcee AI · Open weight	0.9%
88	Nemotron 3 Nano 30B	NVIDIA · Open weight	0.9%
89	Mercury 2	Inception · Closed	0.8%
90	Qwen3.5-122B-A10B	Alibaba · Open weight	0.6%
91	MiniMax M2.7	MiniMax · Open weight	0.6%
92	GLM-5V-Turbo	Z.AI · Closed	0.6%
93	Gemma 4 E4B	Google · Open weight	0.6%
94	Claude Opus 4.5	Anthropic · Closed	0.3%
95	Qwen3.6-35B-A3B	Alibaba · Open weight	0.3%
96	o1	OpenAI · Closed	0.3%
97	Command A+	Cohere · Open weight	0.3%
98	GLM-5-Turbo	Z.AI · Closed	0.3%
99	MiMo-V2-Pro	Xiaomi · Closed	0.3%
100	Mistral Small 4	Mistral · Open weight	0.3%
101	Sarvam 30B	Sarvam · Open weight	0.3%
102	Mistral Small 4 (Reasoning)	Mistral · Open weight	0.3%
103	GLM-4.7-Flash	Z.AI · Open weight	0.3%
104	Exaone 4.0 32B	LG AI Research · Open weight	0.0%
105	Mistral Medium 3.5 128B	Mistral · Open weight	0.0%
106	MiMo-V2-Flash	Xiaomi · Open weight	0.0%
107	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	0.0%
108	Gemini 3.5 Flash-Lite	Google · Closed	0.0%
109	LFM2.5-8B-A1B	LiquidAI · Open weight	0.0%
110	Kimi K2	Moonshot AI · Closed	0.0%
111	Gemma 4 26B A4B	Google · Open weight	0.0%
112	GPT-4.1 nano	OpenAI · Closed	0.0%
113	GPT-4.1	OpenAI · Closed	0.0%
114	Gemma 4 12B	Google · Open weight	0.0%
115	GPT-4.1 mini	OpenAI · Closed	0.0%
116	GLM-4.6	Z.AI · Open weight	0.0%
117	DeepSeek V3	DeepSeek · Open weight	0.0%
118	GPT-4o	OpenAI · Closed	0.0%
119	Llama 4 Scout	Meta · Open weight	0.0%
120	Llama 4 Maverick	Meta · Open weight	0.0%
121	Ling 2.6 Flash	InclusionAI · Open weight	0.0%
122	Grok 4.1 Fast	xAI · Closed	0.0%
123	DeepSeek V3.1	DeepSeek · Open weight	0.0%
124	Mistral Large 3	Mistral · Closed	0.0%
125	GLM-4.5-Air	Z.AI · Closed	0.0%
126	Gemma 3 27B	Google · Open weight	0.0%
127	GPT-5 (medium)	OpenAI · Closed	0.0%
128	Mistral Large 2	Mistral · Closed	0.0%
129	Llama 3.1 405B	Meta · Open weight	0.0%
130	Phi-4	Microsoft · Open weight	0.0%
131	Grok Code Fast 1	xAI · Closed	0.0%
132	Nemotron Ultra 253B	NVIDIA · Open weight	0.0%
133	Claude 3 Haiku	Anthropic · Closed	0.0%
134	Claude 4.1 Opus Thinking	Anthropic · Closed	0.0%
135	Nova Pro	Amazon · Closed	0.0%
136	LFM2.5-VL-1.6B-Extract	LiquidAI · Open weight	0.0%
137	Qwen3 Max	Alibaba · Closed	0.0%
138	Gemma 4 E2B	Google · Open weight	0.0%
139	Sarvam 105B	Sarvam · Open weight	0.0%
140	Mistral Medium 3	Mistral · Closed	0.0%
141	Granite-4.0-1B	IBM · Open weight	0.0%
142	Granite-4.0-350M	IBM · Open weight	0.0%
143	Granite-4.0-H-1B	IBM · Open weight	0.0%
144	Granite-4.0-H-350M	IBM · Open weight	0.0%
145	Exaone 4.0 1.2B	LG AI Research · Open weight	0.0%
146	Solar Pro 2	Upstage · Closed	0.0%
147	GPT-5 mini	OpenAI · Closed	0.0%
148	Ministral 3 14B (Reasoning)	Mistral · Open weight	0.0%
149	Ministral 3 14B	Mistral · Open weight	0.0%
150	GPT-5 nano	OpenAI · Closed	0.0%
151	MiniMax M1 80k	MiniMax · Closed	0.0%
152	LFM2-24B-A2B	LiquidAI · Closed	0.0%
153	Ministral 3 8B (Reasoning)	Mistral · Open weight	0.0%
154	LFM2.5-1.2B-Thinking	LiquidAI · Closed	0.0%
155	Ministral 3 8B	Mistral · Open weight	0.0%
156	Ministral 3 3B (Reasoning)	Mistral · Open weight	0.0%
157	LFM2.5-1.2B-Instruct	LiquidAI · Closed	0.0%
158	Ministral 3 3B	Mistral · Open weight	0.0%