cursor Bench31

14 models evaluated

#	Model	Provider	Type	Score
1	Claude Fable 5	Anthropic	Closed	claude-fable-5
2	Claude Opus 5	Anthropic	Closed	claude-opus-5
3	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
4	Grok 4.5	xAI · Closed	66.7%
5	GPT-5.6 Terra	OpenAI · Closed	64.9%
6	Claude Opus 4.8	Anthropic · Closed	62.3%
7	Claude Sonnet 5	Anthropic · Closed	61.5%
8	GPT-5.6 Luna	OpenAI · Closed	61.1%
9	GPT-5.5	OpenAI · Closed	58.4%
10	Composer 2.5	Cursor · Closed	56.1%
11	GLM-5.2	Z.AI · Open weight	55.0%
12	Gemini 3.6 Flash	Google · Closed	53.5%
13	Kimi K2.7 Code	Moonshot AI · Open weight	49.7%
14	Gemini 3.5 Flash	Google · Closed	48.8%