gert Labs

56 models evaluated

#	Model	Provider	Type	Score
1	Claude Opus 4.8	Anthropic	Closed	claude-opus-4-8
2	GPT-5.5	OpenAI	Closed	gpt-5-5
3	Claude Opus 4.7	Anthropic	Closed	claude-opus-4-7
4	GPT-5.4	OpenAI · Closed	64.89%
5	Qwen3.7 Max	Alibaba · Closed	64.27%
6	Claude Opus 4.5	Anthropic · Closed	64.23%
7	Gemini 3 Pro	Google · Closed	63.23%
8	Claude Sonnet 4.6	Anthropic · Closed	62.92%
9	MiMo-V2.5-Pro	Xiaomi · Closed	62.70%
10	Gemini 3.5 Flash	Google · Closed	61.85%
11	Claude Opus 4.6	Anthropic · Closed	61.85%
12	GLM-5.1	Z.AI · Open weight	60.11%
13	GPT-5.3 Codex	OpenAI · Closed	57.47%
14	Gemini 3.1 Pro	Google · Closed	56.87%
15	Kimi K2.6	Moonshot AI · Open weight	56.82%
16	Gemini 3 Flash	Google · Closed	56.63%
17	Qwen3.6-27B	Alibaba · Open weight	54.84%
18	DeepSeek V4 Flash	DeepSeek · Open weight	54.35%
19	GPT-5.2-Codex	OpenAI · Closed	51.79%
20	Step 3.7 Flash	StepFun · Open weight	51.57%
21	GLM-5	Z.AI · Open weight	50.99%
22	Qwen3.6 Plus	Alibaba · Closed	50.60%
23	DeepSeek V4 Pro	DeepSeek · Open weight	50.28%
24	GPT-5.1-Codex	OpenAI · Closed	49.68%
25	Grok Build 0.1	xAI · Closed	49.15%
26	Claude Sonnet 4.5	Anthropic · Closed	48.51%
27	Grok 4.1 Fast	xAI · Closed	47.32%
28	MiMo-V2.5	Xiaomi · Closed	46.89%
29	Qwen3.5 397B	Alibaba · Open weight	46.76%
30	GPT-5.2	OpenAI · Closed	46.54%
31	Kimi K2.5	Moonshot AI · Open weight	45.88%
32	Grok 4.3	xAI · Closed	43.86%
33	Qwen3 Max	Alibaba · Closed	43.74%
34	Qwen3.6-35B-A3B	Alibaba · Open weight	42.65%
35	Grok 4	xAI · Closed	42.34%
36	Gemini 2.5 Pro	Google · Closed	42.01%
37	GPT-5.1	OpenAI · Closed	41.24%
38	MiniMax M2.7	MiniMax · Open weight	40.40%
39	GLM-4.7	Z.AI · Open weight	39.95%
40	Claude 4 Sonnet	Anthropic · Closed	39.66%
41	Qwen3.5-27B	Alibaba · Open weight	39.41%
42	MiniMax M2.5	MiniMax · Closed	39.11%
43	Mistral Medium 3.5 128B	Mistral · Open weight	39.10%
44	Gemini 3.1 Flash-Lite	Google · Closed	38.46%
45	Grok 4.20	xAI · Closed	38.36%
46	Hy3 Preview	Tencent · Open weight	36.91%
47	MiMo-V2-Pro	Xiaomi · Closed	36.68%
48	Gemma 4 31B	Google · Open weight	35.26%
49	Kimi K2.5 (Reasoning)	Moonshot AI · Closed	32.58%
50	Trinity-Large-Thinking	Arcee AI · Open weight	32.55%
51	GLM-5V-Turbo	Z.AI · Closed	30.76%
52	GPT-OSS 120B	OpenAI · Open weight	29.61%
53	DeepSeek V3.2	DeepSeek · Open weight	29.57%
54	Qwen3.5-35B-A3B	Alibaba · Open weight	28.96%
55	GPT-4.1	OpenAI · Closed	25.65%
56	Nemotron 3 Super 120B A12B	NVIDIA · Open weight	25.34%