hle

45 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 5	Anthropic	Closed	claude-opus-5
2	Claude Mythos 5	Anthropic	Closed	claude-mythos-5
3	Muse Spark 1.1	Meta	Closed	muse-spark-1-1
4	GPT-5.4 Pro	OpenAI · Closed	58.7%
5	Claude Opus 4.8	Anthropic · Closed	57.9%
6	Claude Sonnet 5	Anthropic · Closed	57.4%
7	GPT-5.5 Pro	OpenAI · Closed	57.2%
8	Kimi K3	Moonshot AI · Closed	56%
9	GLM-5.2	Z.AI · Open weight	54.7%
10	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	54.7%
11	Claude Opus 4.6	Anthropic · Closed	53%
12	GLM-5.1	Z.AI · Open weight	52.3%
13	GPT-5.5	OpenAI · Closed	52.2%
14	GPT-5.4	OpenAI · Closed	52.1%
15	GLM-5	Z.AI · Open weight	50.4%
16	Muse Spark	Meta · Closed	50.4%
17	Claude Sonnet 4.6	Anthropic · Closed	49%
18	MiMo-V2.5-Pro	Xiaomi · Closed	48%
19	Agents-A1	InternScience · Open weight	47.6%
20	Inkling	Thinking Machines Lab · Open weight	46%
21	GPT-5.4 mini	OpenAI · Closed	41.5%
22	Qwen3.7 Max	Alibaba · Closed	41.4%
23	Gemini 3.5 Flash	Google · Closed	40.2%
24	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	37.7%
25	GPT-5.4 nano	OpenAI · Closed	37.7%
26	Grok 4.3	xAI · Closed	35%
27	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	34.8%
28	Qwen3.7 Plus	Alibaba · Closed	34.7%
29	Kimi K2.6	Moonshot AI · Open weight	34.7%
30	DeepSeek V4 Pro (High)	DeepSeek · Open weight	34.5%
31	Claude Opus 4.5	Anthropic · Closed	30.8%
32	Kimi K2.5	Moonshot AI · Open weight	30.1%
33	DeepSeek V4 Flash (High)	DeepSeek · Open weight	29.4%
34	Qwen3.6 Plus	Alibaba · Closed	28.8%
35	Qwen3.5 397B	Alibaba · Open weight	28.7%
36	Nemotron 3 Ultra	NVIDIA · Open weight	26.7%
37	Gemma 4 31B	Google · Open weight	26.5%
38	Hy3 Preview	Tencent · Open weight	25.5%
39	GLM-4.7	Z.AI · Open weight	24.8%
40	Qwen3.6-27B	Alibaba · Open weight	24%
41	Qwen3.6-35B-A3B	Alibaba · Open weight	21.4%
42	Gemini 2.5 Pro	Google · Closed	18.8%
43	Gemma 4 26B A4B	Google · Open weight	17.2%
44	DeepSeek V4 Flash	DeepSeek · Open weight	8.1%
45	DeepSeek V4 Pro	DeepSeek · Open weight	7.7%