aa If Bench

145 models evaluated

#	Model	Provider	Type	Score
1	MiniMax M3	MiniMax	Open	minimax-m3
3	Grok 4.3	xAI	Closed	grok-4-3
4	Qwen3.7 Max	Alibaba · Closed	80.5%
5	MiMo-V2.5-Pro	Xiaomi · Closed	79.9%
6	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	79.2%
7	Qwen3.5 397B	Alibaba · Open weight	78.8%
8	Qwen3.5 397B (Reasoning)	Alibaba · Open weight	78.8%
9	Qwen3.7 Plus	Alibaba · Closed	78.0%
10	GPT-5.2-Codex	OpenAI · Closed	77.6%
11	Gemini 3.1 Flash-Lite	Google · Closed	77.2%
12	Gemini 3.1 Pro	Google · Closed	77.1%
13	Qwen 3.6 Max (preview)	Alibaba · Closed	76.6%
14	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	76.5%
15	Gemini 3.5 Flash	Google · Closed	76.3%
16	GLM-5.1	Z.AI · Open weight	76.3%
17	Kimi K2.6	Moonshot AI · Open weight	76.0%
18	GPT-5.5	OpenAI · Closed	75.9%
19	GPT-5.4 nano	OpenAI · Closed	75.9%
20	Muse Spark	Meta · Closed	75.9%
21	Qwen3.5-122B-A10B	Alibaba · Open weight	75.7%
22	MiniMax M2.7	MiniMax · Open weight	75.7%
23	Qwen3.5-27B	Alibaba · Open weight	75.6%
24	Gemma 4 31B	Google · Open weight	75.6%
25	GPT-5.2	OpenAI · Closed	75.4%
26	GPT-5.3 Codex	OpenAI · Closed	75.4%
27	GPT-5.3-Codex-Spark	OpenAI · Closed	75.4%
28	GPT-5 mini	OpenAI · Closed	75.4%
29	Qwen3.6 Plus	Alibaba · Closed	75.2%
30	GPT-5.4	OpenAI · Closed	73.9%
31	Command A+	Cohere · Open weight	73.9%
32	DeepSeek V4 Flash (High)	DeepSeek · Open weight	73.5%
33	Gemma 4 12B	Google · Open weight	73.5%
34	GLM-5.2	Z.AI · Open weight	73.3%
35	GPT-5.4 mini	OpenAI · Closed	73.3%
36	GLM-5-Turbo	Z.AI · Closed	73.2%
37	GPT-5 (high)	OpenAI · Closed	73.1%
38	GPT-5.1	OpenAI · Closed	72.9%
39	GPT-5.6 Sol	OpenAI · Closed	72.7%
40	Qwen3.5-35B-A3B	Alibaba · Open weight	72.5%
41	Gemma 4 26B A4B	Google · Open weight	72.4%
42	GLM-5	Z.AI · Open weight	72.3%
43	MiniMax M2.5	MiniMax · Closed	71.6%
44	Nemotron 3 Super 120B A12B	NVIDIA · Open weight	71.5%
45	o3	OpenAI · Closed	71.4%
46	DeepSeek V4 Pro (High)	DeepSeek · Open weight	71.3%
47	GPT-5.6 Terra	OpenAI · Closed	71.2%
48	Nemotron 3 Nano 30B	NVIDIA · Open weight	71.1%
49	GPT-5 (medium)	OpenAI · Closed	70.6%
50	Gemini 3 Pro	Google · Closed	70.4%
51	o1	OpenAI · Closed	70.3%
52	Kimi K2.5	Moonshot AI · Open weight	70.2%
53	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	70.2%
54	GPT-5.1-Codex-Max	OpenAI · Closed	70.0%
55	GPT-5.1-Codex	OpenAI · Closed	70.0%
56	Mercury 2	Inception · Closed	69.8%
57	GPT-OSS 120B	OpenAI · Open weight	69.0%
58	Mistral Medium 3.5 128B	Mistral · Open weight	68.8%
59	MiMo-V2-Pro	Xiaomi · Closed	68.8%
60	GLM-4.7	Z.AI · Open weight	67.9%
61	Qwen3.6-27B	Alibaba · Open weight	67.6%
62	GPT-5 nano	OpenAI · Closed	67.6%
63	Step 3.7 Flash	StepFun · Open weight	67.3%
64	Step 3.5 Flash	StepFun · Open weight	66.5%
65	GPT-OSS 20B	OpenAI · Open weight	65.1%
66	K-Exaone	LG AI Research · Closed	64.7%
67	Qwen3.6-35B-A3B	Alibaba · Open weight	64.4%
68	Claude Fable 5	Anthropic · Closed	63.5%
69	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	63.2%
70	Kimi K2.7 Code	Moonshot AI · Open weight	63.1%
71	Claude Opus 4.8	Anthropic · Closed	62.2%
72	GLM-5V-Turbo	Z.AI · Closed	61.1%
73	GLM-4.7-Flash	Z.AI · Open weight	60.8%
74	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	58.6%
75	Claude Opus 4.5 Thinking	Anthropic · Closed	58.0%
76	Ling 2.6 Flash	InclusionAI · Open weight	57.4%
77	Trinity-Large-Preview	Arcee AI · Open weight	56.3%
78	Trinity-Large-Thinking	Arcee AI · Open weight	56.3%
79	Claude 4.1 Opus Thinking	Anthropic · Closed	55.4%
80	Gemini 3 Flash	Google · Closed	55.1%
81	Grok 4	xAI · Closed	53.7%
82	MiMo-V2-Omni	Xiaomi · Closed	53.5%
83	LFM2.5-8B-A1B	LiquidAI · Open weight	53.3%
84	Claude Opus 4.6 (Adaptive)	Anthropic · Closed	53.1%
85	Grok 4.1 Fast (Reasoning)	xAI · Closed	52.7%
86	Grok 4 Fast (Reasoning)	xAI · Closed	50.5%
87	DeepSeek V3.2	DeepSeek · Open weight	49.0%
88	Gemini 2.5 Pro	Google · Closed	48.7%
89	Mistral Small 4	Mistral · Open weight	48.2%
90	Mistral Small 4 (Reasoning)	Mistral · Open weight	48.2%
91	LFM2-24B-A2B	LiquidAI · Closed	45.9%
92	Claude 4 Sonnet	Anthropic · Closed	45.4%
93	Claude Opus 4.6	Anthropic · Closed	44.6%
94	Qwen3 Max	Alibaba · Closed	44.1%
95	Claude Opus 4.7	Anthropic · Closed	43.6%
96	Claude Opus 4.5	Anthropic · Closed	43.0%
97	GPT-4.1	OpenAI · Closed	43.0%
98	Llama 4 Maverick	Meta · Open weight	43.0%
99	MiniMax M1 80k	MiniMax · Closed	41.8%
100	LFM2.5-1.2B-Thinking	LiquidAI · Closed	41.8%
101	Kimi K2	Moonshot AI · Closed	41.5%
102	DeepSeek V3.1 (Reasoning)	DeepSeek · Open weight	41.5%
103	Grok Code Fast 1	xAI · Closed	41.4%
104	Claude Sonnet 4.6	Anthropic · Closed	41.2%
105	LFM2.5-1.2B-Instruct	LiquidAI · Closed	41.0%
106	Gemma 4 E4B	Google · Open weight	40.6%
107	MiMo-V2-Flash	Xiaomi · Open weight	39.9%
108	DeepSeek-R1	DeepSeek · Open weight	39.6%
109	Llama 4 Scout	Meta · Open weight	39.5%
110	Mistral Medium 3	Mistral · Closed	39.3%
111	Gemini 2.5 Flash	Google · Closed	39.0%
112	Llama 3.1 405B	Meta · Open weight	39.0%
113	GPT-4.1 mini	OpenAI · Closed	38.3%
114	Nemotron Ultra 253B	NVIDIA · Open weight	38.2%
115	Nova Pro	Amazon · Closed	38.1%
116	DeepSeek V3.1	DeepSeek · Open weight	37.8%
117	GLM-4.5-Air	Z.AI · Closed	37.6%
118	GLM-4.6	Z.AI · Open weight	36.7%
119	Grok 4.1 Fast	xAI · Closed	36.5%
120	Mistral Large 3	Mistral · Closed	36.2%
121	Claude 3 Haiku	Anthropic · Closed	36.1%
122	Gemma 4 E2B	Google · Open weight	36.0%
123	DeepSeek V3	DeepSeek · Open weight	34.8%
124	Sarvam 105B	Sarvam · Open weight	34.4%
125	GPT-4o	OpenAI · Closed	34.3%
126	Solar Pro 2	Upstage · Closed	33.7%
127	Exaone 4.0 32B	LG AI Research · Open weight	33.5%
128	LFM2.5-VL-1.6B-Extract	LiquidAI · Open weight	33.1%
129	GPT-4.1 nano	OpenAI · Closed	32.0%
130	Ministral 3 14B (Reasoning)	Mistral · Open weight	32.0%
131	Ministral 3 14B	Mistral · Open weight	32.0%
132	Gemma 3 27B	Google · Open weight	31.8%
133	Mistral Large 2	Mistral · Closed	31.2%
134	GPT-4o mini	OpenAI · Closed	31.0%
135	Ministral 3 8B (Reasoning)	Mistral · Open weight	29.1%
136	Ministral 3 8B	Mistral · Open weight	29.1%
137	Sarvam 30B	Sarvam · Open weight	26.5%
138	Exaone 4.0 1.2B	LG AI Research · Open weight	25.3%
139	Granite-4.0-H-1B	IBM · Open weight	25.1%
140	Ministral 3 3B (Reasoning)	Mistral · Open weight	24.1%
141	Ministral 3 3B	Mistral · Open weight	24.1%
142	Phi-4	Microsoft · Open weight	23.5%
143	DeepSeek R1 Distill Qwen 32B	DeepSeek · Open weight	22.9%
144	Granite-4.0-1B	IBM · Open weight	20.5%
145	Granite-4.0-H-350M	IBM · Open weight	17.1%
146	Granite-4.0-350M	IBM · Open weight	15.1%