long Bench V2

12 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 4.5	Anthropic	Closed	claude-opus-4-5
2	Qwen3.5 397B	Alibaba	Open	qwen3-5-397b
3	Qwen3.6 Plus	Alibaba	Closed	qwen3-6-plus
4	Nemotron 3 Ultra	NVIDIA · Open weight	61.9%
5	Kimi K2.5	Moonshot AI · Open weight	61%
6	GLM-5	Z.AI · Open weight	60.8%
7	Qwen3.5-27B	Alibaba · Open weight	60.6%
8	Qwen3.5-122B-A10B	Alibaba · Open weight	60.2%
9	Agents-A1	InternScience · Open weight	60.2%
10	Qwen3.5-35B-A3B	Alibaba · Open weight	59%
11	DeepSeek V4 Pro Base	DeepSeek · Open weight	51.5%
12	DeepSeek V4 Flash Base	DeepSeek · Open weight	44.7%