deep Search Qa

12 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 5	Anthropic	Closed	claude-opus-5
2	Kimi K3	Moonshot AI	Closed	kimi-3
3	Claude Opus 4.8	Anthropic	Closed	claude-opus-4-8
4	Step 3.7 Flash	StepFun · Open weight	92.8%
5	Kimi K2.6	Moonshot AI · Open weight	92.5%
6	Muse Spark 1.1	Meta · Closed	84.9%
7	Kimi K2.5	Moonshot AI · Open weight	77.1%
8	Muse Spark	Meta · Closed	74.8%
9	Claude Opus 4.6	Anthropic · Closed	73.7%
10	GPT-5.4	OpenAI · Closed	73.6%
11	Gemini 3.1 Pro	Google · Closed	69.7%
12	Grok 4.20	xAI · Closed	62.8%