hmmt Feb2026

20 models evaluated

#	Model	Provider	Type	Score
1	Qwen3.7 Max	Alibaba	Closed	qwen3-7-max
2	DeepSeek V4 Pro (Max)	DeepSeek	Open	deepseek-v4-pro-max
4	DeepSeek V4 Pro (High)	DeepSeek · Open weight	94.0%
5	Qwen3.7 Plus	Alibaba · Closed	92.9%
6	Kimi K2.6	Moonshot AI · Open weight	92.7%
7	GLM-5.2	Z.AI · Open weight	92.5%
8	DeepSeek V4 Flash (High)	DeepSeek · Open weight	91.9%
9	Qwen3.5 397B	Alibaba · Open weight	87.9%
10	Qwen3.6 Plus	Alibaba · Closed	87.8%
11	Kimi K2.5	Moonshot AI · Open weight	87.1%
12	GLM-5	Z.AI · Open weight	86.4%
13	Claude Opus 4.5	Anthropic · Closed	85.3%
14	MAI-Thinking-1	Microsoft · Closed	84.9%
15	Qwen3.6-27B	Alibaba · Open weight	84.3%
16	Qwen3.6-35B-A3B	Alibaba · Open weight	83.6%
17	GLM-5.1	Z.AI · Open weight	82.6%
18	ZAYA1-8B	Zyphra · Open weight	71.6%
19	DeepSeek V4 Flash	DeepSeek · Open weight	40.8%
20	DeepSeek V4 Pro	DeepSeek · Open weight	31.7%
21	MiniCPM5-1B	OpenBMB · Open weight	25.8%