Qwen3.5-122B-A10B.

Alibabaopen-source

§ 02 · Benchmarks

Every benchmark Qwen3.5-122B-A10B has a recorded score for.

#	Benchmark	Area · Task	Metric	Value	Rank	Date	Source
01	MMMU	Multimodal · Image-Text-to-Text	accuracy	83.9%	#2/36	—	source ↗
02	MMStar	Multimodal · Image-Text-to-Text	accuracy	82.9%	#2/21	—	source ↗
03	RealWorldQA	Multimodal · Visual Question Answering	accuracy	85.1%	#2/23	—	source ↗
04	MVBench	Multimodal · Video Understanding	accuracy	76.6%	#3/20	—	source ↗
05	BrowseComp	Natural Language Processing · Question Answering	accuracy	63.8%	#7/16	—	source ↗
06	MMMU-Pro	Multimodal · Visual Question Answering	accuracy	76.9%	#7/31	—	source ↗
07	Tau2-Bench	Agentic AI · Tool Use	accuracy	79.5%	#7/11	—	source ↗
08	GPQA Diamond	Reasoning · Multi-step Reasoning	accuracy	86.6%	#13/74	—	source ↗
09	SWE-Bench Verified	Computer Code · Code Generation	accuracy	72.0%	#15/22	—	source ↗
10	PLCC	Natural Language Processing · Polish Cultural Competency	grammar	73.0%	#39/165	—	source ↗
11	PLCC	Natural Language Processing · Polish Cultural Competency	geography	83.0%	#50/165	—	source ↗
12	PLCC	Natural Language Processing · Polish Cultural Competency	history	78.0%	#66/165	—	source ↗
13	PLCC	Natural Language Processing · Polish Cultural Competency	vocabulary	61.0%	#66/165	—	source ↗
14	PLCC	Natural Language Processing · Polish Cultural Competency	average	68.3%	#68/165	—	source ↗
15	PLCC	Natural Language Processing · Polish Cultural Competency	culture-and-tradition	62.0%	#83/165	—	source ↗
16	PLCC	Natural Language Processing · Polish Cultural Competency	art-and-entertainment	53.0%	#84/165	—	source ↗

Rank column shows this model’s position vs all other models scored on the same benchmark + metric (competitors after the slash). #1 in red means current SOTA. Sorted by rank, then newest result.

§ 03 · Strengths by area