swe Verified

59 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 5	Anthropic	Closed	claude-opus-5
2	Claude Mythos 5	Anthropic	Closed	claude-mythos-5
3	Claude Fable 5	Anthropic	Closed	claude-fable-5
4	Claude Opus 4.8	Anthropic · Closed	88.6%
5	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	87.6%
6	Claude Sonnet 5	Anthropic · Closed	85.2%
7	GPT-5.3 Codex	OpenAI · Closed	85%
8	Ornith-1.0-397B	DeepReinforce AI · Open weight	82.4%
9	Claude Opus 4.5	Anthropic · Closed	80.9%
10	Claude Opus 4.6	Anthropic · Closed	80.8%
11	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	80.6%
12	MiniMax M3	MiniMax · Open weight	80.5%
13	Qwen3.7 Max	Alibaba · Closed	80.4%
14	Kimi K2.6	Moonshot AI · Open weight	80.2%
15	GPT-5.2	OpenAI · Closed	80%
16	Claude Sonnet 4.6	Anthropic · Closed	79.6%
17	DeepSeek V4 Pro (High)	DeepSeek · Open weight	79.4%
18	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	79%
19	Qwen3.6 Plus	Alibaba · Closed	78.8%
20	DeepSeek V4 Flash (High)	DeepSeek · Open weight	78.6%
21	MiMo-V2-Pro	Xiaomi · Closed	78%
22	GLM-5	Z.AI · Open weight	77.8%
23	Qwen3.7 Plus	Alibaba · Closed	77.7%
24	Inkling	Thinking Machines Lab · Open weight	77.6%
25	Mistral Medium 3.5 128B	Mistral · Open weight	77.6%
26	Muse Spark	Meta · Closed	77.4%
27	Qwen3.6-27B	Alibaba · Open weight	77.2%
28	Claude Sonnet 4.5	Anthropic · Closed	77.2%
29	Kimi K2.5	Moonshot AI · Open weight	76.8%
30	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	76.8%
31	Grok 4.20	xAI · Closed	76.7%
32	Qwen3.5 397B	Alibaba · Open weight	76.2%
33	Ornith-1.0-35B	DeepReinforce AI · Open weight	75.6%
34	MiMo-V2-Omni	Xiaomi · Closed	74.8%
35	Laguna M.1	Poolside · Closed	74.6%
36	Claude 4.1 Opus	Anthropic · Closed	74.5%
37	Hy3 Preview	Tencent · Open weight	74.4%
38	GLM-4.7	Z.AI · Open weight	73.8%
39	DeepSeek V4 Flash	DeepSeek · Open weight	73.7%
40	DeepSeek V4 Pro	DeepSeek · Open weight	73.6%
41	MAI-Thinking-1	Microsoft · Closed	73.5%
42	Qwen3.6-35B-A3B	Alibaba · Open weight	73.4%
43	MiMo-V2-Flash	Xiaomi · Open weight	73.4%
44	Claude Haiku 4.5	Anthropic · Closed	73.3%
45	Claude 4 Sonnet	Anthropic · Closed	72.7%
46	Qwen3.5-27B	Alibaba · Open weight	72.4%
47	Qwen3.5-122B-A10B	Alibaba · Open weight	72%
48	Nemotron 3 Ultra	NVIDIA · Open weight	71.9%
49	Grok Code Fast 1	xAI · Closed	70.8%
50	Laguna XS.2	Poolside · Open weight	69.9%
51	Ornith-1.0-9B	DeepReinforce AI · Open weight	69.4%
52	Qwen3.5-35B-A3B	Alibaba · Open weight	69.2%
53	Gemini 2.5 Pro	Google · Closed	63.8%
54	GPT-4.1	OpenAI · Closed	54.6%
55	ZAYA1-74B-Preview	Zyphra · Open weight	53.2%
56	o3-mini	OpenAI · Closed	49.3%
57	Claude 3.5 Sonnet	Anthropic · Closed	49%
58	DeepSeek V3	DeepSeek · Open weight	42%
59	GPT-4.1 mini	OpenAI · Closed	23.6%