charxiv

29 models evaluated

#	Model	Provider	Type	Score
1	Claude Mythos 5	Anthropic	Closed	claude-mythos-5
2	Kimi K3	Moonshot AI	Closed	kimi-3
3	Claude Opus 4.7 (Adaptive)	Anthropic	Closed	claude-opus-4-7-max
4	Claude Opus 4.8	Anthropic · Closed	89.9%
5	Muse Spark 1.1	Meta · Closed	88.4%
6	Claude Sonnet 5	Anthropic · Closed	88.3%
7	Sakana Fugu-Ultra	Sakana AI · Closed	86.6%
8	Muse Spark	Meta · Closed	86.4%
9	Qwen3.7 Plus	Alibaba · Closed	85.9%
10	Sakana Fugu	Sakana AI · Closed	85.1%
11	Gemini 3.5 Flash	Google · Closed	84.2%
12	GPT-5.4	OpenAI · Closed	82.8%
13	GPT-5.2	OpenAI · Closed	82.1%
14	Inkling	Thinking Machines Lab · Open weight	82%
15	Qwen3.6 Plus	Alibaba · Closed	81.5%
16	Gemini 3 Pro	Google · Closed	81.4%
17	MiMo-V2.5	Xiaomi · Closed	81%
18	Qwen3.5 397B	Alibaba · Open weight	80.8%
19	Kimi K2.6	Moonshot AI · Open weight	80.4%
20	Gemini 3.1 Pro	Google · Closed	80.2%
21	Qwen3.6-27B	Alibaba · Open weight	78.4%
22	Qwen3.6-35B-A3B	Alibaba · Open weight	78%
23	Claude Sonnet 4.6	Anthropic · Closed	77.4%
24	Qwen3.5-122B-A10B	Alibaba · Open weight	77.2%
25	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	76.3%
26	Gemini 3.1 Flash-Lite	Google · Closed	73.2%
27	Claude Opus 4.5	Anthropic · Closed	68.5%
28	Grok 4.20	xAI · Closed	60.9%
29	Command A+	Cohere · Open weight	52.7%