swe Multilingual

30 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 5	Anthropic	Closed	claude-opus-5
2	Claude Opus 4.8	Anthropic	Closed	claude-opus-4-8
3	Composer 2.5	Cursor	Closed	composer-2-5
4	Ornith-1.0-397B	DeepReinforce AI · Open weight	78.9%
5	Laguna S 2.1	Poolside · Open weight	78.5%
6	Qwen3.7 Max	Alibaba · Closed	78.3%
7	Claude Sonnet 5	Anthropic · Closed	78.3%
8	Grok 4.5	xAI · Closed	78%
9	SWE-1.7	Cognition · Closed	77.8%
10	Claude Opus 4.5	Anthropic · Closed	77.5%
11	Kimi K2.6	Moonshot AI · Open weight	76.7%
12	MiniMax M2.7	MiniMax · Open weight	76.5%
13	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	76.2%
14	Qwen3.7 Plus	Alibaba · Closed	75.8%
15	DeepSeek V4 Pro (High)	DeepSeek · Open weight	74.1%
16	Qwen3.6 Plus	Alibaba · Closed	73.8%
17	Composer 2	Cursor · Closed	73.7%
18	GLM-5	Z.AI · Open weight	73.3%
19	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	73.3%
20	Kimi K2.5	Moonshot AI · Open weight	73%
21	Qwen3.6-27B	Alibaba · Open weight	71.3%
22	DeepSeek V4 Flash (High)	DeepSeek · Open weight	70.2%
23	DeepSeek V4 Pro	DeepSeek · Open weight	69.8%
24	DeepSeek V4 Flash	DeepSeek · Open weight	69.7%
25	Ornith-1.0-35B	DeepReinforce AI · Open weight	69.3%
26	Nemotron 3 Ultra	NVIDIA · Open weight	67.7%
27	Qwen3.6-35B-A3B	Alibaba · Open weight	67.2%
28	Laguna M.1	Poolside · Closed	63.1%
29	Laguna XS.2	Poolside · Open weight	57.7%
30	Ornith-1.0-9B	DeepReinforce AI · Open weight	52%