browse Comp

33 models evaluated

#	Model	Provider	Type	Score
1	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
2	Kimi K3	Moonshot AI	Closed	kimi-3
3	Claude Opus 5	Anthropic	Closed	claude-opus-5
4	GPT-5.5 Pro	OpenAI · Closed	90.1%
5	GPT-5.4 Pro	OpenAI · Closed	89.3%
6	Claude Mythos 5	Anthropic · Closed	88%
7	GPT-5.6 Terra	OpenAI · Closed	87.5%
8	Claude Sonnet 5	Anthropic · Closed	84.7%
9	GPT-5.5	OpenAI · Closed	84.4%
10	Claude Opus 4.8	Anthropic · Closed	84.3%
11	Claude Opus 4.6	Anthropic · Closed	83.7%
12	MiniMax M3	MiniMax · Open weight	83.5%
13	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	83.4%
14	GPT-5.6 Luna	OpenAI · Closed	83.3%
15	Kimi K2.6	Moonshot AI · Open weight	83.2%
16	GPT-5.4	OpenAI · Closed	82.7%
17	DeepSeek V4 Pro (High)	DeepSeek · Open weight	80.4%
18	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	79.3%
19	Inkling	Thinking Machines Lab · Open weight	77.1%
20	Step 3.7 Flash	StepFun · Open weight	75.8%
21	Agents-A1	InternScience · Open weight	75.5%
22	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	73.2%
23	GLM-5.1	Z.AI · Open weight	68%
24	GPT-5.2	OpenAI · Closed	65.8%
25	Qwen3.5-122B-A10B	Alibaba · Open weight	63.8%
26	Qwen3.5 397B	Alibaba · Open weight	62%
27	Qwen3.5-27B	Alibaba · Open weight	61%
28	Qwen3.5-35B-A3B	Alibaba · Open weight	61%
29	Kimi K2.5	Moonshot AI · Open weight	60.6%
30	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	60.6%
31	DeepSeek V4 Flash (High)	DeepSeek · Open weight	53.5%
32	GLM-4.7	Z.AI · Open weight	52%
33	Nemotron 3 Ultra	NVIDIA · Open weight	44.4%