aa Agentic Index

86 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 5	Anthropic	Closed	claude-opus-5
2	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
3	Claude Fable 5	Anthropic	Closed	claude-fable-5
4	Kimi K3	Moonshot AI · Closed	50.1%
5	GPT-5.6 Terra	OpenAI · Closed	47.4%
6	Claude Opus 4.8	Anthropic · Closed	47.2%
7	Claude Sonnet 5	Anthropic · Closed	46.7%
8	Grok 4.5	xAI · Closed	45.7%
9	GPT-5.6 Luna	OpenAI · Closed	45.6%
10	GPT-5.5	OpenAI · Closed	44.9%
11	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	44.4%
12	GLM-5.2	Z.AI · Open weight	43.1%
13	GPT-5.4	OpenAI · Closed	41.1%
14	Gemini 3.6 Flash	Google · Closed	38.7%
15	Muse Spark 1.1	Meta · Closed	37.5%
16	Gemini 3.5 Flash	Google · Closed	37.5%
17	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	36.4%
18	MiniMax M3	MiniMax · Open weight	35.4%
19	DeepSeek V4 Pro (High)	DeepSeek · Open weight	34.4%
20	Inkling	Thinking Machines Lab · Open weight	32.3%
21	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	31.1%
22	Hy3 Preview	Tencent · Open weight	30.7%
23	Hy3	Tencent · Open weight	30.7%
24	Qwen3.7 Max	Alibaba · Closed	30.6%
25	Kimi K2.6	Moonshot AI · Open weight	30.3%
26	GPT-5.4 mini	OpenAI · Closed	30.2%
27	GLM-5.1	Z.AI · Open weight	29.9%
28	Kimi K2.7 Code	Moonshot AI · Open weight	29.6%
29	MiMo-V2.5-Pro	Xiaomi · Closed	29.1%
30	Muse Spark	Meta · Closed	28.7%
31	DeepSeek V4 Flash (High)	DeepSeek · Open weight	28.2%
32	Qwen3.6 Plus	Alibaba · Closed	27.6%
33	GPT-5.4 nano	OpenAI · Closed	27.5%
34	Nemotron 3 Ultra	NVIDIA · Open weight	27.4%
35	Qwen3.6-27B	Alibaba · Open weight	27.0%
36	Gemini 3.5 Flash-Lite	Google · Closed	26.8%
37	GPT-5 (high)	OpenAI · Closed	25.7%
38	MiniMax M2.7	MiniMax · Open weight	25.6%
39	GLM-4.7	Z.AI · Open weight	25.4%
40	Grok 4.3	xAI · Closed	24.1%
41	Kimi K2.5	Moonshot AI · Open weight	21.7%
42	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	21.7%
43	Step 3.7 Flash	StepFun · Open weight	21.5%
44	Qwen3.6-35B-A3B	Alibaba · Open weight	21.4%
45	Gemini 3.1 Pro	Google · Closed	21.4%
46	GPT-5.1	OpenAI · Closed	21.0%
47	Qwen3.7 Plus	Alibaba · Closed	20.8%
48	Qwen3.5-122B-A10B	Alibaba · Open weight	20.7%
49	Qwen3.5 397B	Alibaba · Open weight	19.9%
50	Qwen3.5 397B (Reasoning)	Alibaba · Open weight	19.9%
51	GPT-5 mini	OpenAI · Closed	19.4%
52	Mistral Medium 3.5 128B	Mistral · Open weight	19.0%
53	Gemma 4 31B	Google · Open weight	14.4%
54	GPT-OSS 120B	OpenAI · Open weight	13.2%
55	MiMo-V2-Flash	Xiaomi · Open weight	12.0%
56	Gemma 4 26B A4B	Google · Open weight	11.0%
57	Mercury 2	Inception · Closed	9.6%
58	Command A+	Cohere · Open weight	9.2%
59	Nemotron 3 Super 120B A12B	NVIDIA · Open weight	8.7%
60	K-Exaone	LG AI Research · Closed	8.0%
61	Gemma 4 12B	Google · Open weight	7.9%
62	Gemini 2.5 Pro	Google · Closed	7.1%
63	Gemini 3.1 Flash-Lite	Google · Closed	6.2%
64	Mistral Large 3	Mistral · Closed	5.5%
65	Mistral Small 4	Mistral · Open weight	4.7%
66	Mistral Small 4 (Reasoning)	Mistral · Open weight	4.7%
67	Trinity-Large-Preview	Arcee AI · Open weight	3.6%
68	Trinity-Large-Thinking	Arcee AI · Open weight	3.6%
69	GPT-OSS 20B	OpenAI · Open weight	3.1%
70	Ling 2.6 Flash	InclusionAI · Open weight	2.3%
71	Ministral 3 14B (Reasoning)	Mistral · Open weight	2.2%
72	Ministral 3 14B	Mistral · Open weight	2.2%
73	Nemotron 3 Nano 30B	NVIDIA · Open weight	2.0%
74	Gemma 4 E4B	Google · Open weight	1.8%
75	GPT-4.1 mini	OpenAI · Closed	1.7%
76	DeepSeek V3	DeepSeek · Open weight	1.6%
77	Ministral 3 3B (Reasoning)	Mistral · Open weight	1.6%
78	Ministral 3 3B	Mistral · Open weight	1.6%
79	Gemma 4 E2B	Google · Open weight	1.5%
80	Llama 4 Maverick	Meta · Open weight	1.3%
81	Ministral 3 8B (Reasoning)	Mistral · Open weight	1.2%
82	Ministral 3 8B	Mistral · Open weight	1.2%
83	GPT-4.1 nano	OpenAI · Closed	1.2%
84	Llama 4 Scout	Meta · Open weight	1.1%
85	GPT-4o mini	OpenAI · Closed	1.0%
86	Gemma 3 27B	Google · Open weight	0.3%