deep Swe

11 models evaluated

#	Model	Provider	Type	Score
1	OpenAI	mini_swe_agent_gpt_5_6_sol_max	gpt-5-6-sol[max]	72.7%
4	kimi-k3[max]	Moonshot AI · Closed	68.5%
6	gpt-5-5[xhigh]	OpenAI · Closed	67.0%
7	claude-opus-4-8[max]	Anthropic · Closed	59.0%
8	claude-sonnet-5[max]	Anthropic · Closed	53.8%
11	gpt-5-4[xhigh]	OpenAI · Closed	51.8%
12	glm-5-2[max]	Z.AI · Open weight	43.8%
13	gemini-3-5-flash[medium]	Google · Closed	37.4%
14	kimi-k2-7-code	Moonshot AI · Open weight	30.5%
15	claude-sonnet-4-6[high]	Anthropic · Closed	29.9%
16	gemini-3-1-pro-preview[high]	Google · Closed	11.8%