swe Pro

54 models evaluated

#	Model	Provider	Type	Score
1	Claude Mythos 5	Anthropic	Closed	claude-mythos-5
2	Claude Fable 5	Anthropic	Closed	claude-fable-5
3	Claude Opus 5	Anthropic	Closed	claude-opus-5
4	Sakana Fugu-Ultra	Sakana AI · Closed	73.7%
5	Claude Opus 4.8	Anthropic · Closed	69.2%
6	Grok 4.5	xAI · Closed	64.7%
7	GPT-5.6 Sol	OpenAI · Closed	64.6%
8	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	64.3%
9	GPT-5.6 Terra	OpenAI · Closed	63.4%
10	Claude Sonnet 5	Anthropic · Closed	63.2%
11	GPT-5.6 Luna	OpenAI · Closed	62.7%
12	Ornith-1.0-397B	DeepReinforce AI · Open weight	62.2%
13	GLM-5.2	Z.AI · Open weight	62.1%
14	Muse Spark 1.1	Meta · Closed	61.5%
15	Qwen3.7 Max	Alibaba · Closed	60.6%
16	Laguna S 2.1	Poolside · Open weight	59.4%
17	MiniMax M3	MiniMax · Open weight	59%
18	Sakana Fugu	Sakana AI · Closed	59%
19	GPT-5.5	OpenAI · Closed	58.6%
20	Kimi K2.6	Moonshot AI · Open weight	58.6%
21	GLM-5.1	Z.AI · Open weight	58.4%
22	GPT-5.4	OpenAI · Closed	57.7%
23	Qwen3.7 Plus	Alibaba · Closed	57.6%
24	Qwen 3.6 Max (preview)	Alibaba · Closed	57.3%
25	MiMo-V2.5-Pro	Xiaomi · Closed	57.2%
26	Claude Opus 4.5	Anthropic · Closed	57.1%
27	GPT-5.3 Codex	OpenAI · Closed	56.8%
28	Qwen3.6 Plus	Alibaba · Closed	56.6%
29	Step 3.7 Flash	StepFun · Open weight	56.3%
30	MiniMax M2.7	MiniMax · Open weight	56.2%
31	MiMo-V2.5	Xiaomi · Closed	56.1%
32	GPT-5.2	OpenAI · Closed	55.6%
33	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	55.4%
34	Gemini 3.5 Flash	Google · Closed	55.1%
35	GLM-5	Z.AI · Open weight	55.1%
36	DeepSeek V4 Pro (High)	DeepSeek · Open weight	54.4%
37	Inkling	Thinking Machines Lab · Open weight	54.3%
38	Gemini 3.5 Flash-Lite	Google · Closed	54.2%
39	Qwen3.6-27B	Alibaba · Open weight	53.5%
40	Claude Opus 4.6	Anthropic · Closed	53.4%
41	MAI-Thinking-1	Microsoft · Closed	52.8%
42	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	52.6%
43	Muse Spark	Meta · Closed	52.4%
44	DeepSeek V4 Flash (High)	DeepSeek · Open weight	52.3%
45	DeepSeek V4 Pro	DeepSeek · Open weight	52.1%
46	Grok 4.20	xAI · Closed	51.8%
47	Qwen3.5 397B	Alibaba · Open weight	50.9%
48	Kimi K2.5	Moonshot AI · Open weight	50.7%
49	Ornith-1.0-35B	DeepReinforce AI · Open weight	50.4%
50	Qwen3.6-35B-A3B	Alibaba · Open weight	49.5%
51	Laguna M.1	Poolside · Closed	49.2%
52	DeepSeek V4 Flash	DeepSeek · Open weight	49.1%
53	Laguna XS.2	Poolside · Open weight	46.3%
54	Ornith-1.0-9B	DeepReinforce AI · Open weight	42.9%