claw Eval

26 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 4.6	Anthropic	Closed	opus46
2	Step 3.7 Flash	StepFun	Open	step_37_flash
3	Claude Sonnet 4.6	Anthropic	Closed	sonnet46
4	MiMo-V2.5-Pro	Xiaomi · Closed	63.8%
5	Muse Spark	Meta · Closed	63.8%
6	Kimi K2.6	Moonshot AI · Open weight	62.3%
7	MiMo-V2.5	Xiaomi · Closed	62.3%
8	GLM-5.1	Z.AI · Open weight	62.3%
9	GPT-5.4	OpenAI · Closed	60.3%
10	DeepSeek V4 Pro	DeepSeek · Open weight	59.8%
11	SenseNova 6.7 Flash-Lite	SenseTime	58.8%
12	Qwen3.6 Plus	Alibaba · Closed	58.8%
13	Gemini 3.1 Pro	Google · Closed	57.8%
14	DeepSeek V4 Flash	DeepSeek · Open weight	57.8%
15	MiMo-V2-Pro	Xiaomi · Closed	57.8%
16	Qwen3.5 397B	Alibaba · Open weight	56.8%
17	GLM-5-Turbo	Z.AI · Closed	55.8%
18	GLM-5V-Turbo	Z.AI · Closed	53.8%
19	Kimi K2.5	Moonshot AI · Open weight	52.3%
20	Agnes-2.0-flash	SapiensAI	51.8%
21	Gemini 3 Flash	Google · Closed	49.2%
22	Mach-Mind-4-pro	Li	49.2%
23	MiniMax M2.7	MiniMax · Open weight	48.7%
24	MiMo-V2-Omni	Xiaomi · Closed	45.2%
25	DeepSeek V3.2	DeepSeek · Open weight	40.2%
26	Nemotron 3 Super 100B	NVIDIA · Open weight	5.5%