bullshit Bench V2

77 models evaluated

#	Model	Provider	Type
4	Claude Opus 4.5 (high)	Anthropic · Closed	90%
6	Claude Opus 4.6 (high)	Anthropic · Closed	87%
8	Claude Opus 4.7 (none)	Anthropic · Closed	83%
9	Claude Sonnet 5 (low)	Anthropic · Closed	80%
10	Claude Sonnet 4.5 (high)	Anthropic · Closed	79%
13	Qwen3.5 397B (Reasoning) (high)	Alibaba · Open weight	78%
14	Claude Haiku 4.5 (high)	Anthropic · Closed	77%
17	Kimi K3 (xhigh)	Moonshot AI · Closed	73%
18	Qwen3.6 Plus (none)	Alibaba · Closed	72%
21	Qwen3.7 Max (none)	Alibaba · Closed	71%
22	Qwen3.5 397B (none)	Alibaba · Open weight	69%
23	Grok 4.20 Multi-Agent Beta (low)	67%
24	Kimi K2.6 (none)	Moonshot AI · Open weight	65%
27	MiniMax M3 (xhigh)	MiniMax · Open weight	63%
29	MiMo-V2.5-Pro (xhigh)	Xiaomi · Closed	62%
33	Claude Fable 5 (xhigh)	Anthropic · Closed	54%
34	Grok 4.5 (low)	xAI · Closed	54%
37	Nemotron 3 Super 120B A12B (xhigh)	NVIDIA · Open weight	54%
38	GPT-5.6 Terra (max)	OpenAI · Closed	53%
39	Kimi K2.5 (none)	Moonshot AI · Open weight	52%
40	Grok 4.3 (minimal)	xAI · Closed	50%
45	GPT-5.4 (none)	OpenAI · Closed	48%
46	Gemini 3 Pro (low)	Google · Closed	48%
47	GPT-5.6 Sol (low)	OpenAI · Closed	47%
48	GPT-5.5 (xhigh)	OpenAI · Closed	47%
56	GPT-5.2-Codex (low)	OpenAI · Closed	45%
57	Claude 3.5 Sonnet	Anthropic · Closed	45%
58	GPT-5.1	OpenAI · Closed	45%
60	Claude 4.1 Opus (none)	Anthropic · Closed	43%
66	GPT-5.6 Luna (max)	OpenAI · Closed	40%
67	GPT-5.3 Instant	OpenAI · Closed	40%
71	GPT-5.2 (none)	OpenAI · Closed	38%
73	Gemini 3.1 Pro (low)	Google · Closed	37%
76	GPT-5.5 Pro (xhigh)	OpenAI · Closed	36%
78	Gemini 3 Pro Deep Think (high)	Google · Closed	36%
79	MiMo-V2.5 (xhigh)	Xiaomi · Closed	35%
84	GPT-5.4 mini (high)	OpenAI · Closed	32%
86	GPT-5.1-Codex-Max	OpenAI · Closed	32%
88	Kimi K2.5 (Reasoning) (high)	Moonshot AI · Closed	31%
90	GLM-5-Turbo (high)	Z.AI · Closed	31%
92	GLM-5.2 (xhigh)	Z.AI · Open weight	31%
93	Claude 4 Sonnet (high)	Anthropic · Closed	30%
96	Llama 4 Maverick	Meta · Open weight	28%
97	GLM-5 (Reasoning) (high)	Z.AI · Open weight	28%
99	GPT-5.2 Instant	OpenAI · Closed	27%
100	o3	OpenAI · Closed	26%
103	Gemma 4 31B (high)	Google · Open weight	25%
104	GPT-5.3 Codex (low)	OpenAI · Closed	24%
107	GLM-5.1 (xhigh)	Z.AI · Open weight	22%
108	Step 3.5 Flash (xhigh)	StepFun · Open weight	22%
110	Gemma 4 26B A4B (xhigh)	Google · Open weight	21%
113	Gemini 2.5 Pro	Google · Closed	20%
114	GLM-5 (none)	Z.AI · Open weight	20%
116	Gemini 3.5 Flash (xhigh)	Google · Closed	20%
118	Grok 4.1 Fast (high)	xAI · Closed	19%
119	Llama 4 Scout	Meta · Open weight	19%
120	Gemini 2.5 Flash	Google · Closed	19%
123	DeepSeek V4 Flash (none)	DeepSeek · Open weight	18%
126	Trinity-Large-Thinking (minimal)	Arcee AI · Open weight	17%
127	MiMo-V2-Flash (none)	Xiaomi · Open weight	16%
128	Hy3 (none)	Tencent · Open weight	16%
130	DeepSeek V4 Pro (xhigh)	DeepSeek · Open weight	14%
132	GPT-5.4 nano (high)	OpenAI · Closed	14%
134	GPT-4.1	OpenAI · Closed	14%
137	DeepSeek V3.2 (Thinking) (high)	DeepSeek · Open weight	13%
143	Gemini 3.1 Flash-Lite	Google · Closed	11%
144	Seed 1.6 (none)	ByteDance · Closed	11%
145	GPT-OSS 120B (low)	OpenAI · Open weight	11%
148	Gemini 3 Flash (high)	Google · Closed	10%
149	DeepSeek V3.2 (none)	DeepSeek · Open weight	10%
150	Claude 3 Haiku	Anthropic · Closed	10%
153	Kimi K2	Moonshot AI · Closed	10%
155	MiniMax M2.5 (low)	MiniMax · Closed	9%
158	GLM-4.5 (xhigh)	Z.AI · Closed	8%
159	MiniMax M2.7 (high)	MiniMax · Open weight	8%
160	DeepSeek-R1 (xhigh)	DeepSeek · Open weight	8%
161	o4-mini (high) (low)	OpenAI · Closed	8%