Qwen3.5-397B-A17B.

Alibabaopen-source

§ 02 · Benchmarks

Every benchmark Qwen3.5-397B-A17B has a recorded score for.

#	Benchmark	Area · Task	Metric	Value	Rank	Date	Source
01	MMMU	Multimodal · Image-Text-to-Text	accuracy	85.0%	#1/36	—	source ↗
02	MMStar	Multimodal · Image-Text-to-Text	accuracy	83.8%	#1/21	—	source ↗
03	MVBench	Multimodal · Video Understanding	accuracy	77.6%	#2/20	—	source ↗
04	Video-MME	Multimodal · Video Understanding	accuracy	87.5%	#2/24	—	source ↗
05	Tau2-Bench	Agentic AI · Tool Use	accuracy	86.7%	#3/11	—	source ↗
06	BrowseComp	Natural Language Processing · Question Answering	accuracy	69.0%	#5/16	—	source ↗
07	MMMU-Pro	Multimodal · Visual Question Answering	accuracy	79.0%	#5/31	—	source ↗
08	OmniDocBench	Computer Vision · Document Parsing	accuracy	90.8%	#6/13	—	source ↗
09	RealWorldQA	Multimodal · Visual Question Answering	accuracy	83.9%	#6/23	—	source ↗
10	LiveCodeBench	Computer Code · Code Generation	pass-1	83.6%	#7/24	—	source ↗
11	GPQA Diamond	Reasoning · Multi-step Reasoning	accuracy	88.4%	#8/74	—	source ↗
12	SWE-Bench Verified	Computer Code · Code Generation	accuracy	76.4%	#9/22	—	source ↗
13	HLE	Reasoning · Multi-step Reasoning	accuracy	28.7%	#18/74	—	source ↗
14	PLCC	Natural Language Processing · Polish Cultural Competency	grammar	76.0%	#30/165	—	source ↗
15	PLCC	Natural Language Processing · Polish Cultural Competency	geography	85.0%	#41/165	—	source ↗
16	PLCC	Natural Language Processing · Polish Cultural Competency	vocabulary	70.0%	#43/165	—	source ↗
17	PLCC	Natural Language Processing · Polish Cultural Competency	average	75.0%	#46/165	—	source ↗
18	PLCC	Natural Language Processing · Polish Cultural Competency	history	83.0%	#49/165	—	source ↗
19	PLCC	Natural Language Processing · Polish Cultural Competency	art-and-entertainment	63.0%	#54/165	—	source ↗
20	PLCC	Natural Language Processing · Polish Cultural Competency	culture-and-tradition	73.0%	#60/165	—	source ↗

Rank column shows this model’s position vs all other models scored on the same benchmark + metric (competitors after the slash). #1 in red means current SOTA. Sorted by rank, then newest result.

§ 03 · Strengths by area