hle No Tools

26 models evaluated

#	Model	Provider	Type	Score
1	Claude Mythos 5	Anthropic	Closed	claude-mythos-5
2	Claude Opus 5	Anthropic	Closed	claude-opus-5
3	Muse Spark 1.1	Meta	Closed	muse-spark-1-1
4	Sakana Fugu-Ultra	Sakana AI · Closed	50%
5	Claude Opus 4.8	Anthropic · Closed	49.8%
6	Sakana Fugu	Sakana AI · Closed	47.2%
7	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	46.9%
8	Gemini 3.1 Pro	Google · Closed	45.4%
9	Kimi K3	Moonshot AI · Closed	43.5%
10	Claude Sonnet 5	Anthropic · Closed	43.2%
11	GPT-5.5 Pro	OpenAI · Closed	43.1%
12	Muse Spark	Meta · Closed	42.8%
13	GPT-5.4 Pro	OpenAI · Closed	42.7%
14	GPT-5.5	OpenAI · Closed	41.4%
15	GLM-5.2	Z.AI · Open weight	40.5%
16	Claude Opus 4.6	Anthropic · Closed	40%
17	GPT-5.4	OpenAI · Closed	39.8%
18	MiMo-V2.5-Pro	Xiaomi · Closed	34%
19	Grok 4.20	xAI · Closed	31.6%
20	Inkling	Thinking Machines Lab · Open weight	30%
21	GPT-5.4 mini	OpenAI · Closed	28.2%
22	Nemotron 3 Ultra	NVIDIA · Open weight	26.7%
23	GPT-5.4 nano	OpenAI · Closed	24.3%
24	Gemma 4 31B	Google · Open weight	19.5%
25	Gemma 4 26B A4B	Google · Open weight	8.7%
26	Gemma 4 12B	Google · Open weight	5.2%