tau3 Bench

8 models evaluated

#	Model	Provider	Type	Score
1	Mistral Medium 3.5 128B	Mistral	Open	τ³-bench Telecom
4	Qwen3.6 Plus	Alibaba · Closed	τ³-bench published setup	70.7%
5	GLM-5.1	Z.AI · Open weight	τ³-bench published setup	70.6%
6	Claude Opus 4.5	Anthropic · Closed	τ³-bench published setup	70.2%
7	Qwen3.5 397B	Alibaba · Open weight	τ³-bench published setup	68.4%
8	Qwen3.6-35B-A3B	Alibaba · Open weight	τ³-bench published setup	67.2%
9	Kimi K2.5	Moonshot AI · Open weight	τ³-bench published setup	65.7%
10	GLM-5	Z.AI · Open weight	τ³-bench published setup	65.6%