Qwen3.5: Towards Native Multimodal Agents

arXiv:pwc-83017Submitted Feb 16, 202640 benchmark results

Authors pending

Code ↗Edit

Tasks

edit

• AI

Results

40 results reproduced from this paper.

submit

MetricSort byDirectionSorted instantly in-page

Results

SOTA rows

Models

Datasets

#	Model	Vendor	Benchmark	Value	SOTA	Date	Source
01	Qwen3.5-397B-A17B	Alibaba	OmniDocBench	90.8%	—	—	source ↗
02	Qwen3.5-397B-A17B	Alibaba	GPQA Diamond	88.4%	—	—	source ↗
03	Qwen3.5-397B-A17B	Alibaba	Video-MME	87.5%	—	—	source ↗
04	Qwen3.5-397B-A17B	Alibaba	Tau2-Bench	86.7%	—	—	source ↗
05	Qwen3.5-122B-A10B	Alibaba	GPQA Diamond	86.6%	—	—	source ↗
06	Qwen3.5-27B	Alibaba	GPQA Diamond	85.5%	—	—	source ↗
07	Qwen3.5-122B-A10B	Alibaba	RealWorldQA	85.1%	—	—	source ↗
08	Qwen3.5-397B-A17B	Alibaba	MMMU	85.0%	—	—	source ↗
09	Qwen3.5-35B-A3B	Alibaba	GPQA Diamond	84.2%	—	—	source ↗
10	Qwen3.5-35B-A3B	Alibaba	RealWorldQA	84.1%	—	—	source ↗
11	Qwen3.5-122B-A10B	Alibaba	MMMU	83.9%	—	—	source ↗
12	Qwen3.5-397B-A17B	Alibaba	RealWorldQA	83.9%	—	—	source ↗
13	Qwen3.5-397B-A17B	Alibaba	MMStar	83.8%	—	—	source ↗
14	Qwen3.5-27B	Alibaba	RealWorldQA	83.7%	—	—	source ↗
15	Qwen3.5-122B-A10B	Alibaba	MMStar	82.9%	—	—	source ↗
16	Qwen3.5-27B	Alibaba	MMMU	82.3%	—	—	source ↗
17	Qwen3.5-35B-A3B	Alibaba	MMStar	81.9%	—	—	source ↗
18	Qwen3.5-35B-A3B	Alibaba	MMMU	81.4%	—	—	source ↗
19	Qwen3.5-35B-A3B	Alibaba	Tau2-Bench	81.2%	—	—	source ↗
20	Qwen3.5-27B	Alibaba	MMStar	81.0%	—	—	source ↗
21	Qwen3.5-122B-A10B	Alibaba	Tau2-Bench	79.5%	—	—	source ↗
22	Qwen3.5-397B-A17B	Alibaba	MMMU-Pro	79.0%	—	—	source ↗
23	Qwen3.5-27B	Alibaba	Tau2-Bench	79.0%	—	—	source ↗
24	Qwen3.5-397B-A17B	Alibaba	MVBench	77.6%	—	—	source ↗
25	Qwen3.5-122B-A10B	Alibaba	MMMU-Pro	76.9%	—	—	source ↗
26	Qwen3.5-122B-A10B	Alibaba	MVBench	76.6%	—	—	source ↗
27	Qwen3.5-397B-A17B	Alibaba	SWE-Bench Verified	76.4%	—	—	source ↗
28	Qwen3.5-35B-A3B	Alibaba	MMMU-Pro	75.1%	—	—	source ↗
29	Qwen3.5-27B	Alibaba	MMMU-Pro	75.0%	—	—	source ↗
30	Qwen3.5-35B-A3B	Alibaba	MVBench	74.8%	—	—	source ↗
31	Qwen3.5-27B	Alibaba	MVBench	74.6%	—	—	source ↗
32	Qwen3.5-27B	Alibaba	SWE-Bench Verified	72.4%	—	—	source ↗
33	Qwen3.5-122B-A10B	Alibaba	SWE-Bench Verified	72.0%	—	—	source ↗
34	Qwen3.5-35B-A3B	Alibaba	SWE-Bench Verified	69.2%	—	—	source ↗
35	Qwen3.5-397B-A17B	Alibaba	BrowseComp	69.0%	—	—	source ↗
36	Qwen3.5-122B-A10B	Alibaba	BrowseComp	63.8%	—	—	source ↗
37	Qwen3.5-27B	Alibaba	BrowseComp	61.0%	—	—	source ↗
38	Qwen3.5-35B-A3B	Alibaba	BrowseComp	61.0%	—	—	source ↗
39	Qwen3.5-397B-A17B	Alibaba	HLE	28.7%	—	—	source ↗

CodeSOTA extraction

Benchmark evidence

edit

Link this paper to benchmark rows, datasets, model cards, and reproduced results as evidence is extracted.

Qwen3.5: Towards Native Multimodal Agents

40 results reproduced from this paper.

Benchmark evidence

4 models from this paper.

Three places to go from here.