health Bench Hard

8 models evaluated

#	Model	Provider	Type	Score
1	Muse Spark	Meta	Closed	muse-spark
2	GPT-5.4	OpenAI	Closed	gpt-5-4
3	GPT-5.6 Sol	OpenAI	Closed	gpt-5-6-sol
4	GPT-5.6 Terra	OpenAI · Closed	32.7%
5	GPT-5.6 Luna	OpenAI · Closed	32.0%
6	Gemini 3.1 Pro	Google · Closed	20.6%
7	Grok 4.20	xAI · Closed	20.3%
8	Claude Opus 4.6	Anthropic · Closed	14.8%