apex Agents Aa

27 models evaluated

#	Model	Provider	Type	Score
1	Gemini 3.5 Flash	Google	Closed	gemini-3-5-flash
2	Kimi K3	Moonshot AI	Closed	kimi-3
3	GPT-5.6 Terra	OpenAI	Closed	gpt-5-6-terra
4	GPT-5.5	OpenAI · Closed	37.7%
5	GPT-5.6 Luna	OpenAI · Closed	35.8%
6	GLM-5.2	Z.AI · Open weight	33.7%
7	GPT-5.4	OpenAI · Closed	33.3%
8	Claude Opus 4.6 (Adaptive)	Anthropic · Closed	33.0%
9	Gemini 3.1 Pro	Google · Closed	32.0%
10	Kimi K2.6	Moonshot AI · Open weight	28.5%
11	GPT-5.4 mini	OpenAI · Closed	28.2%
12	GPT-5.4 nano	OpenAI · Closed	24.9%
13	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	24.3%
14	Qwen3.7 Plus	Alibaba · Closed	22.4%
15	Grok 4.3	xAI · Closed	17.0%
16	Qwen3.5 397B	Alibaba · Open weight	15.3%
17	Qwen3.5 397B (Reasoning)	Alibaba · Open weight	15.3%
18	Step 3.7 Flash	StepFun · Open weight	14.8%
19	GLM-5	Z.AI · Open weight	14.5%
20	Gemini 3.1 Flash-Lite	Google · Closed	12.2%
21	Kimi K2.5	Moonshot AI · Open weight	11.5%
22	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	11.5%
23	MiniMax M2.7	MiniMax · Open weight	10.6%
24	GPT-OSS 120B	OpenAI · Open weight	3.1%
25	MiMo-V2.5-Pro	Xiaomi · Closed	2.4%
26	Nemotron 3 Super 120B A12B	NVIDIA · Open weight	1.8%
27	GPT-OSS 20B	OpenAI · Open weight	0.7%