inference Bench

16 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 4.8 (xHigh)	Anthropic	Closed	7.34x
2	GPT-5.4 (High)	OpenAI	Closed	6.16x
3	Claude Sonnet 4.6	Anthropic	Closed	5.56x
4	GPT-5.3 Codex (High)	OpenAI · Closed	5.49x
5	GPT-5.5 (xHigh)	OpenAI · Closed	5.45x
6	Gemini 3.1 Pro	Google · Closed	4.92x
7	Kimi K2.6	Moonshot AI · Open weight	4.51x
8	Claude Opus 4.6	Anthropic · Closed	4.38x
9	GPT-5.2	OpenAI · Closed	4.28x
11	Gemini 3.5 Flash	Google · Closed	4.16x
12	Claude Opus 4.5	Anthropic · Closed	3.76x
13	GPT-5.1 Codex Max	OpenAI · Closed	3.59x
14	GLM-5	Z.AI · Open weight	3.22x
15	Claude Sonnet 4.5	Anthropic · Closed	3.18x
16	Claude Haiku 4.5	Anthropic · Closed	2.78x
18	GPT-5.2 Codex	OpenAI · Closed	1.98x