mcp Atlas

30 models evaluated

#	Model	Provider	Type	Score
1	Muse Spark 1.1	Meta	Closed	muse-spark-1-1
2	Claude Opus 5	Anthropic	Closed	claude-opus-5
3	Kimi K3	Moonshot AI	Closed	kimi-3
4	Gemini 3.5 Flash	Google · Closed	83.6%
5	Claude Opus 4.8	Anthropic · Closed	82.2%
6	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	77.3%
7	GLM-5.2	Z.AI · Open weight	76.8%
8	Qwen3.7 Max	Alibaba · Closed	76.4%
9	Kimi K2.7 Code	Moonshot AI · Open weight	76%
10	GPT-5.5	OpenAI · Closed	75.3%
11	DeepSeek V4 Pro (High)	DeepSeek · Open weight	74.2%
12	MiniMax M3	MiniMax · Open weight	74.2%
13	Inkling	Thinking Machines Lab · Open weight	74.1%
14	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	73.6%
15	Qwen3.7 Plus	Alibaba · Closed	73.2%
16	GLM-5.1	Z.AI · Open weight	71.8%
17	GPT-5.4	OpenAI · Closed	70.6%
18	DeepSeek V4 Pro	DeepSeek · Open weight	69.4%
19	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	69%
20	DeepSeek V4 Flash (High)	DeepSeek · Open weight	67.4%
21	DeepSeek V4 Flash	DeepSeek · Open weight	64%
22	Qwen3.6-35B-A3B	Alibaba · Open weight	62.8%
23	GPT-5.4 mini	OpenAI · Closed	57.7%
24	GPT-5.4 nano	OpenAI · Closed	56.1%
25	Kimi K2.6	Moonshot AI · Open weight	55.9%
26	Qwen3.6 Plus	Alibaba · Closed	48.2%
27	Qwen3.5 397B	Alibaba · Open weight	46.1%
28	Claude Opus 4.5	Anthropic · Closed	42.3%
29	GLM-5	Z.AI · Open weight	31.1%
30	Kimi K2.5	Moonshot AI · Open weight	29.5%