omniscience Hallucination Rate

154 models evaluated

#	Model	Provider	Type	Score
1	Command A+	Cohere	Open	command-a-plus
2	MiniMax M3	MiniMax	Open	minimax-m3
3	Qwen3.7 Max	Alibaba	Closed	qwen3-7-max
4	MiMo-V2.5-Pro	Xiaomi · Closed	24.5%
5	Grok 4.3	xAI · Closed	25.0%
6	Qwen3.7 Plus	Alibaba · Closed	25.5%
7	GLM-5.2	Z.AI · Open weight	28.1%
8	Nemotron 3 Ultra	NVIDIA · Open weight	28.5%
9	GLM-5.1	Z.AI · Open weight	29.4%
10	MiMo-V2-Pro	Xiaomi · Closed	29.9%
11	Gemma 4 E4B	Google · Open weight	31.3%
12	Qwen3.6 Plus	Alibaba · Closed	32.0%
13	Gemma 4 E2B	Google · Open weight	32.9%
14	Gemini 3.5 Flash-Lite	Google · Closed	33.5%
15	GLM-5	Z.AI · Open weight	34.0%
16	MiniMax M2.7	MiniMax · Open weight	34.4%
17	Claude Opus 4.8	Anthropic · Closed	35.9%
18	Claude Opus 4.7 (Adaptive)	Anthropic · Closed	36.2%
19	Claude Sonnet 5	Anthropic · Closed	37.3%
20	GPT-4o	OpenAI · Closed	37.9%
21	Muse Spark 1.1	Meta · Closed	38.1%
22	Kimi K2.6	Moonshot AI · Open weight	39.3%
23	Claude 4 Sonnet	Anthropic · Closed	40.8%
24	Qwen 3.6 Max (preview)	Alibaba · Closed	44.2%
25	MiMo-V2-Omni	Xiaomi · Closed	44.4%
26	LFM2.5-8B-A1B	LiquidAI · Open weight	47.0%
27	Qwen3.6-27B	Alibaba · Open weight	48.3%
28	Qwen3.6-35B-A3B	Alibaba · Open weight	49.7%
29	Gemini 3.1 Pro	Google · Closed	49.9%
30	Claude Opus 5	Anthropic · Closed	50.1%
31	Kimi K3	Moonshot AI · Closed	50.9%
32	Llama 3.1 405B	Meta · Open weight	51.0%
33	GPT-5.1	OpenAI · Closed	51.3%
34	Claude Opus 4.7	Anthropic · Closed	51.9%
35	Gemini 3.6 Flash	Google · Closed	53.5%
36	Grok 4.5	xAI · Closed	53.5%
37	GPT-5 mini	OpenAI · Closed	54.1%
38	Claude Fable 5	Anthropic · Closed	54.9%
39	GPT-5 nano	OpenAI · Closed	56.3%
40	Claude Opus 4.5 Thinking	Anthropic · Closed	59.8%
41	Gemini 3.5 Flash	Google · Closed	60.7%
42	Mistral Medium 3	Mistral · Closed	60.9%
43	Claude Opus 4.6 (Adaptive)	Anthropic · Closed	61.3%
44	GLM-5-Turbo	Z.AI · Closed	62.2%
45	Inkling	Thinking Machines Lab · Open weight	63.1%
46	Grok 4	xAI · Closed	64.2%
47	Kimi K2.5	Moonshot AI · Open weight	64.6%
48	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	64.6%
49	Claude Sonnet 4.6	Anthropic · Closed	65.9%
50	Grok 4 Fast (Reasoning)	xAI · Closed	66.0%
51	GLM-4.6	Z.AI · Open weight	66.1%
52	Mistral Small 4	Mistral · Open weight	66.8%
53	Mistral Small 4 (Reasoning)	Mistral · Open weight	66.8%
54	Mistral Large 2	Mistral · Closed	67.8%
55	GLM-5V-Turbo	Z.AI · Closed	67.9%
56	o1	OpenAI · Closed	69.3%
57	LFM2-24B-A2B	LiquidAI · Closed	70.0%
58	Grok 4.1 Fast (Reasoning)	xAI · Closed	72.4%
59	GPT-5.2-Codex	OpenAI · Closed	72.8%
60	Hy3 Preview	Tencent · Open weight	73.0%
61	Hy3	Tencent · Open weight	73.0%
62	Muse Spark	Meta · Closed	73.2%
63	GPT-5.4 nano	OpenAI · Closed	73.6%
64	Kimi K2	Moonshot AI · Closed	74.2%
65	GPT-5.1-Codex-Max	OpenAI · Closed	74.4%
66	GPT-5.1-Codex	OpenAI · Closed	74.4%
67	MiMo-V2-Flash	Xiaomi · Open weight	75.1%
68	Claude Opus 4.5	Anthropic · Closed	75.4%
69	Claude Opus 4.6	Anthropic · Closed	76.0%
70	Ministral 3 3B (Reasoning)	Mistral · Open weight	77.5%
71	Ministral 3 3B	Mistral · Open weight	77.5%
72	Granite-4.0-350M	IBM · Open weight	77.8%
73	Nova Pro	Amazon · Closed	77.9%
74	Claude 3 Haiku	Anthropic · Closed	78.2%
75	Llama 4 Scout	Meta · Open weight	78.3%
76	Grok Code Fast 1	xAI · Closed	78.5%
77	GPT-4.1	OpenAI · Closed	79.6%
78	Qwen3.5-27B	Alibaba · Open weight	79.7%
79	GPT-5.2	OpenAI · Closed	79.7%
80	GPT-5 (medium)	OpenAI · Closed	80.1%
81	DeepSeek V3.1 (Reasoning)	DeepSeek · Open weight	80.3%
82	Kimi K2.7 Code	Moonshot AI · Open weight	80.3%
83	GPT-4.1 nano	OpenAI · Closed	80.4%
84	Phi-4	Microsoft · Open weight	80.5%
85	Gemma 4 12B	Google · Open weight	80.8%
86	Gemma 4 26B A4B	Google · Open weight	80.9%
87	Exaone 4.0 32B	LG AI Research · Open weight	81.0%
88	Gemini 3.1 Flash-Lite	Google · Closed	81.6%
89	Gemma 4 31B	Google · Open weight	81.6%
90	Nemotron Ultra 253B	NVIDIA · Open weight	81.7%
91	Grok 4.1 Fast	xAI · Closed	81.8%
92	Mistral Medium 3.5 128B	Mistral · Open weight	82.0%
93	GPT-4.1 mini	OpenAI · Closed	82.0%
94	GPT-5 (high)	OpenAI · Closed	82.1%
95	Nemotron 3 Nano 30B	NVIDIA · Open weight	82.9%
96	Nemotron 3 Nano Omni 30B A3B	NVIDIA · Open weight	83.1%
97	Granite-4.0-H-1B	IBM · Open weight	83.4%
98	DeepSeek V3.1	DeepSeek · Open weight	83.5%
99	Mistral Large 3	Mistral · Closed	83.7%
100	Qwen3.5-35B-A3B	Alibaba · Open weight	84.0%
101	DeepSeek-R1	DeepSeek · Open weight	84.0%
102	Step 3.7 Flash	StepFun · Open weight	84.4%
103	LFM2.5-1.2B-Instruct	LiquidAI · Closed	84.8%
104	GPT-5.6 Terra	OpenAI · Closed	85.2%
105	GPT-5.5	OpenAI · Closed	85.5%
106	Qwen3.5-122B-A10B	Alibaba · Open weight	85.5%
107	Trinity-Large-Preview	Arcee AI · Open weight	86.6%
108	Trinity-Large-Thinking	Arcee AI · Open weight	86.6%
109	MiniMax M1 80k	MiniMax · Closed	86.8%
110	GPT-5.3 Codex	OpenAI · Closed	86.9%
111	GPT-5.3-Codex-Spark	OpenAI · Closed	86.9%
112	Nemotron 3 Super 120B A12B	NVIDIA · Open weight	87.0%
113	o3	OpenAI · Closed	87.1%
114	Llama 4 Maverick	Meta · Open weight	87.3%
115	Gemini 2.5 Pro	Google · Closed	87.4%
116	GPT-5.4	OpenAI · Closed	88.6%
117	DeepSeek V4 Pro (High)	DeepSeek · Open weight	88.6%
118	GPT-5.6 Sol	OpenAI · Closed	88.8%
119	Ministral 3 8B (Reasoning)	Mistral · Open weight	89.0%
120	Ministral 3 8B	Mistral · Open weight	89.0%
121	Qwen3.5 397B	Alibaba · Open weight	89.1%
122	Qwen3.5 397B (Reasoning)	Alibaba · Open weight	89.1%
123	K-Exaone	LG AI Research · Closed	89.1%
124	MiniMax M2.5	MiniMax · Closed	89.3%
125	DeepSeek V3	DeepSeek · Open weight	89.4%
126	Qwen3 Max	Alibaba · Closed	89.4%
127	Gemma 3 27B	Google · Open weight	89.5%
128	GLM-4.7-Flash	Z.AI · Open weight	89.5%
129	DeepSeek V4 Flash (High)	DeepSeek · Open weight	89.7%
130	GPT-5.4 mini	OpenAI · Closed	89.8%
131	GPT-5.6 Luna	OpenAI · Closed	90.1%
132	Gemini 3 Flash	Google · Closed	90.2%
133	Ministral 3 14B (Reasoning)	Mistral · Open weight	90.2%
134	Ministral 3 14B	Mistral · Open weight	90.2%
135	GLM-4.7	Z.AI · Open weight	90.3%
136	Gemini 3 Pro	Google · Closed	90.9%
137	GPT-OSS 120B	OpenAI · Open weight	91.2%
138	Exaone 4.0 1.2B	LG AI Research · Open weight	91.5%
139	Solar Pro 2	Upstage · Closed	91.5%
140	Mercury 2	Inception · Closed	91.5%
141	Step 3.5 Flash	StepFun · Open weight	91.6%
142	GLM-4.5-Air	Z.AI · Closed	92.3%
143	Gemini 2.5 Flash	Google · Closed	93.3%
144	DeepSeek V3.2	DeepSeek · Open weight	93.5%
145	Sarvam 105B	Sarvam · Open weight	93.5%
146	Granite-4.0-1B	IBM · Open weight	93.5%
147	DeepSeek V4 Pro (Max)	DeepSeek · Open weight	94.0%
148	LFM2.5-VL-1.6B-Extract	LiquidAI · Open weight	94.0%
149	GPT-OSS 20B	OpenAI · Open weight	94.1%
150	Granite-4.0-H-350M	IBM · Open weight	94.4%
151	DeepSeek V4 Flash (Max)	DeepSeek · Open weight	95.8%
152	Ling 2.6 Flash	InclusionAI · Open weight	95.8%
153	LFM2.5-1.2B-Thinking	LiquidAI · Closed	96.9%
154	Sarvam 30B	Sarvam · Open weight	97.0%