ifeval

21 models evaluated

#	Model	Provider	Type	Score
4	Qwen3.7 Max	Alibaba · Closed	IFEval metric view not recorded	94.3%
5	Qwen3.6 Plus	Alibaba · Closed	IFEval metric view not recorded	94.3%
6	Kimi K2.5	Moonshot AI · Open weight	IFEval metric view not recorded	93.9%
7	o3-mini	OpenAI · Closed	IFEval metric view not recorded	93.9%
8	Qwen3.5-122B-A10B	Alibaba · Open weight	IFEval metric view not recorded	93.4%
9	GLM-5	Z.AI · Open weight	IFEval metric view not recorded	92.6%
10	Qwen3.5 397B	Alibaba · Open weight	IFEval metric view not recorded	92.6%
11	o1	OpenAI · Closed	IFEval metric view not recorded	92.2%
12	Qwen3.5-35B-A3B	Alibaba · Open weight	IFEval metric view not recorded	91.9%
13	LFM2.5-8B-A1B	LiquidAI · Open weight	IFEval metric view not recorded	91.8%
14	Claude Opus 4.5	Anthropic · Closed	IFEval metric view not recorded	90.9%
15	GPT-4.1 mini	OpenAI · Closed	IFEval metric view not recorded	88.5%
16	GPT-4.1	OpenAI · Closed	IFEval metric view not recorded	87.4%
17	DeepSeek V3	DeepSeek · Open weight	IFEval metric view not recorded	86.1%
18	ZAYA1-8B	Zyphra · Open weight	IFEval metric view not recorded	85.6%
19	GPT-4.1 nano	OpenAI · Closed	IFEval metric view not recorded	83.2%
20	MiniCPM5-1B	OpenBMB · Open weight	IFEval metric view not recorded	80.4%
21	Mellum2-12B-A2.5B-Thinking	JetBrains · Open weight	IFEval metric view not recorded	76.5%
22	Mellum2-12B-A2.5B-Instruct	JetBrains · Open weight	IFEval metric view not recorded	75.8%
23	LFM2.5-230M	LiquidAI · Open weight	IFEval metric view not recorded	71.7%
24	LFM2.5-VL-450M	LiquidAI · Open weight	IFEval metric view not recorded	61.2%