GLM-5.

Zhipu AIopen-source130B params1 current SOTA

§ 02 · Benchmarks

Every benchmark GLM-5 has a recorded score for.

#	Benchmark	Area · Task	Metric	Value	Rank	Date	Source
01	Tau2-Bench	Agentic AI · Tool Use	accuracy	89.7%	#1/11	—	source ↗
02	React Native Evals	Mobile Development · React Native Code Generation	animation-satisfaction	66.0%	#4/10	—	source ↗
03	SWE-Bench Verified	Computer Code · Code Generation	accuracy	77.8%	#6/22	—	source ↗
04	SWE-bench	Computer Code · Code Generation	resolve-rate-agentic	77.8%	#7/25	2026-01-01	source ↗
05	BrowseComp	Natural Language Processing · Question Answering	accuracy	62.0%	#8/16	—	source ↗
06	React Native Evals	Mobile Development · React Native Code Generation	requirement-satisfaction	74.2%	#8/10	—	source ↗
07	React Native Evals	Mobile Development · React Native Code Generation	navigation-satisfaction	86.7%	#8/10	—	source ↗
08	SWE-bench	Computer Code · Code Generation	resolve-rate	77.8%	#9/32	2026-01-01	source ↗
09	React Native Evals	Mobile Development · React Native Code Generation	async-state-satisfaction	73.8%	#9/10	—	source ↗
10	SWE-bench Verified	Agentic AI · SWE-bench	resolve-rate	77.8%	#11/81	—	source ↗
11	GPQA Diamond	Reasoning · Multi-step Reasoning	accuracy	86.0%	#16/74	—	source ↗
12	HLE	Reasoning · Multi-step Reasoning	accuracy	30.5%	#16/74	—	source ↗
13	PLCC	Natural Language Processing · Polish Cultural Competency	grammar	82.0%	#16/165	—	source ↗
14	PLCC	Natural Language Processing · Polish Cultural Competency	geography	91.0%	#21/165	—	source ↗
15	PLCC	Natural Language Processing · Polish Cultural Competency	history	88.0%	#28/165	—	source ↗
16	PLCC	Natural Language Processing · Polish Cultural Competency	average	80.0%	#33/165	—	source ↗
17	PLCC	Natural Language Processing · Polish Cultural Competency	culture-and-tradition	81.0%	#37/165	—	source ↗
18	PLCC	Natural Language Processing · Polish Cultural Competency	vocabulary	72.0%	#39/165	—	source ↗
19	PLCC	Natural Language Processing · Polish Cultural Competency	art-and-entertainment	66.0%	#47/165	—	source ↗

Rank column shows this model’s position vs all other models scored on the same benchmark + metric (competitors after the slash). #1 in red means current SOTA. Sorted by rank, then newest result.

§ 03 · Strengths by area