toolathlon

26 models evaluated

#	Model	Provider	Type	Score
1	Muse Spark 1.1	Meta	Closed	muse-spark-1-1
2	Claude Opus 4.8	Anthropic	Closed	claude-opus-4-8
3	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
4	Gemini 3.5 Flash	Google · Closed	56.5%
5	GPT-5.5	OpenAI · Closed	55.6%
6	GPT-5.4	OpenAI · Closed	54.6%
7	GPT-5.6 Luna	OpenAI · Closed	53.4%
8	GPT-5.6 Terra	OpenAI · Closed	53.1%
9	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	51.8%
10	Kimi K2.6	Moonshot AI · Open weight	50%
11	Step 3.7 Flash	StepFun · Open weight	49.5%
12	DeepSeek V4 Pro (High)	DeepSeek · Open weight	49%
13	GLM-5.2	Z.AI · Open weight	48.2%
14	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	47.8%
15	DeepSeek V4 Pro	DeepSeek · Open weight	46.3%
16	MiniMax M2.7	MiniMax · Open weight	46.3%
17	Claude Opus 4.5	Anthropic · Closed	43.5%
18	DeepSeek V4 Flash (High)	DeepSeek · Open weight	43.5%
19	GPT-5.4 mini	OpenAI · Closed	42.9%
20	DeepSeek V4 Flash	DeepSeek · Open weight	40.7%
21	Qwen3.6 Plus	Alibaba · Closed	39.8%
22	GLM-5	Z.AI · Open weight	38%
23	Qwen3.5 397B	Alibaba · Open weight	36.3%
24	GPT-5.4 nano	OpenAI · Closed	35.5%
25	Kimi K2.5	Moonshot AI · Open weight	27.8%
26	Qwen3.6-35B-A3B	Alibaba · Open weight	26.9%