pp Bench

63 models evaluated

#	Model	Provider	Type	Score
1	Claude Fable 5	Anthropic	Closed	claude-fable-5@high
2	GPT-5.5	OpenAI	Closed	gpt-5.5@xhigh
3	GPT-5.4	OpenAI	Closed	gpt-5.4@xhigh
4	GPT-5.2	OpenAI · Closed	56.0%
5	Claude Opus 4.7	Anthropic · Closed	50.0%
6	Gemini 3.5 Flash	Google · Closed	41.9%
7	Qwen3.7 Max	Alibaba · Closed	40.0%
9	claude-opus-4-6-1m	Anthropic	36.7%
10	Claude Opus 4.6 (Adaptive)	Anthropic · Closed	33.3%
11	Gemini 3.1 Pro	Google · Closed	33.3%
12	Claude Opus 4.6	Anthropic · Closed	30.0%
13	GLM-5.2	Z.AI · Open weight	26.7%
14	Claude Sonnet 4.6	Anthropic · Closed	26.7%
15	GPT-5.2 Pro	OpenAI · Closed	26.7%
17	claude-opus-4-6@max	Anthropic	23.3%
18	claude-sonnet-4-6-1m	Anthropic	23.3%
19	Kimi K2.6	Moonshot AI · Open weight	20.0%
20	Kimi K2.7 Code	Moonshot AI · Open weight	16.7%
21	Qwen3.7 Plus	Alibaba · Closed	16.7%
22	Gemini 3 Pro	Google · Closed	16.7%
27	Qwen3.6 Plus	Alibaba · Closed	10.0%
28	GPT-5.1	OpenAI · Closed	7.7%
29	MiniMax M3	MiniMax · Open weight	7.1%
30	Claude Opus 4.5 Thinking	Anthropic · Closed	6.7%
31	Gemini 3 Flash	Google · Closed	6.7%
33	Grok 4.20	xAI · Closed	6.7%
34	GPT-5 (high)	OpenAI · Closed	6.0%
35	Kimi K2.5	Moonshot AI · Open weight	6.0%
36	Grok 4.1 Fast	xAI · Closed	5.7%
37	Grok 4.1 Fast (Reasoning)	xAI · Closed	5.3%
38	DeepSeek V4 Pro	DeepSeek · Open weight	4.0%
39	Grok 4.3	xAI · Closed	3.3%
40	o3	OpenAI · Closed	3.3%
41	nemotron-3-ultra-550b-a55b	Other	3.3%
42	MiniMax M2.5	MiniMax · Closed	3.3%
43	Claude Opus 4.5	Anthropic · Closed	3.3%
44	Claude Sonnet 4.5	Anthropic · Closed	3.3%
45	deepseek-v3.2-speciale	DeepSeek	2.3%
46	Claude Sonnet 4.5 Thinking	Anthropic · Closed	2.3%
47	DeepSeek V3.2	DeepSeek · Open weight	2.0%
49	Kimi K2	Moonshot AI · Closed	1.3%
50	MiMo-V2-Pro	Xiaomi · Closed	1.0%
51	o1	OpenAI · Closed	0.7%
52	MiniMax M2.7	MiniMax · Open weight	0.7%
53	qwen3.5-397b-a17b	Alibaba	0.7%
54	GLM-5	Z.AI · Open weight	0.7%
55	Gemini 2.5 Pro	Google · Closed	0.3%
57	gemma-4-31b-it	Other	0.3%
58	minimax-m2.1	MiniMax	0.3%
59	GPT-OSS 120B	OpenAI · Open weight	0.3%
60	qwen3-235b-a22b-thinking-2507	Alibaba	0.3%
61	qwen3-next-80b-a3b-thinking	Alibaba	0.3%
62	qwen3-vl-235b-a22b-thinking	Alibaba	0.3%
63	MiMo-V2-Flash	Xiaomi · Open weight	0.3%
64	GLM-4.7	Z.AI · Open weight	0.3%
65	Grok Code Fast 1	xAI · Closed	0.3%
67	gpt-3.5-turbo	OpenAI	0.0%
68	GPT-4.1	OpenAI · Closed	0.0%
69	GPT-4o	OpenAI · Closed	0.0%
70	devstral-2512	Mistral	0.0%
71	mistral-large-2512	Mistral	0.0%
72	mistral-small-2603	Mistral	0.0%
73	qwen3-coder	Alibaba	0.0%