swe Atlas Refactoring

12 models evaluated

#	Model	Provider	Type	Score
1	Anthropic	54.8%	Fable-5 (Claude Code) xHigh	Overall
4	GPT-5.5	OpenAI · Closed	44.8%
5	GPT-5.4	OpenAI · Closed	44.3%
6	GLM-5.2	Z.AI · Open weight	42.4%
7	GPT-5.3 Codex	OpenAI · Closed	42.4%
8	Claude Opus 4.6	Anthropic · Closed	35.6%
9	Gemini 3.1 Pro	Google · Closed	33.8%
10	Claude Sonnet 4.6	Anthropic · Closed	32.2%
11	GLM-5	Z.AI · Open weight	24.2%
12	Kimi K2.5	Moonshot AI · Open weight	20.9%
13	MiniMax M2.5	MiniMax · Closed	19.5%
14	Gemini 3 Flash	Google · Closed	10.0%