terminal Bench2

45 models evaluated

#	Model	Provider	Type	Score
1	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
2	Claude Mythos 5	Anthropic	Closed	claude-mythos-5
3	GPT-5.6 Terra	OpenAI	Closed	gpt-5-6-terra
4	GPT-5.6 Luna	OpenAI · Closed	84.7%
5	Claude Fable 5	Anthropic · Closed	84.3%
6	Grok 4.5	xAI · Closed	83.3%
7	Sakana Fugu-Ultra	Sakana AI · Closed	82.1%
8	GPT-5.5	OpenAI · Closed	82.0%
9	SWE-1.7	Cognition · Closed	81.5%
10	GLM-5.2	Z.AI · Open weight	81.0%
11	Claude Sonnet 5	Anthropic · Closed	80.4%
12	Sakana Fugu	Sakana AI · Closed	80.2%
13	Muse Spark 1.1	Meta · Closed	80.0%
14	Ornith-1.0-397B	DeepReinforce AI · Open weight	77.5%
15	Gemini 3.5 Flash	Google · Closed	76.2%
16	Claude Opus 4.8	Anthropic · Closed	74.6%
17	Qwen3.7 Plus	Alibaba · Closed	70.3%
18	Laguna S 2.1	Poolside · Open weight	70.2%
19	Qwen3.7 Max	Alibaba · Closed	69.7%
20	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	69.4%
21	Composer 2.5	Cursor · Closed	69.3%
22	MiMo-V2.5-Pro	Xiaomi · Closed	68.4%
23	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	67.9%
24	Kimi K2.6	Moonshot AI · Open weight	66.7%
25	MiniMax M3	MiniMax · Open weight	66.0%
26	MiMo-V2.5	Xiaomi · Closed	65.8%
27	Qwen 3.6 Max (preview)	Alibaba · Closed	65.4%
28	Ornith-1.0-35B	DeepReinforce AI · Open weight	64.2%
29	Inkling	Thinking Machines Lab · Open weight	63.8%
30	DeepSeek V4 Pro (High)	DeepSeek · Open weight	63.3%
31	Composer 2	Cursor · Closed	61.7%
32	Step 3.7 Flash	StepFun · Open weight	59.5%
33	Qwen3.6-27B	Alibaba · Open weight	59.3%
34	DeepSeek V4 Pro	DeepSeek · Open weight	59.1%
35	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	56.9%
36	DeepSeek V4 Flash (High)	DeepSeek · Open weight	56.6%
37	Nemotron 3 Ultra	NVIDIA · Open weight	56.4%
38	Hy3 Preview	Tencent · Open weight	54.4%
39	Gemini 3.5 Flash-Lite	Google · Closed	54.0%
40	Qwen3.6-35B-A3B	Alibaba · Open weight	51.5%
41	DeepSeek V4 Flash	DeepSeek · Open weight	49.1%
42	MAI-Thinking-1	Microsoft · Closed	46.0%
43	Laguna M.1	Poolside · Closed	45.8%
44	Ornith-1.0-9B	DeepReinforce AI · Open weight	43.1%
45	Laguna XS.2	Poolside · Open weight	35.7%