Recent Papers / arXiv:pwc-83277

Qwen3.6

arXiv:pwc-83277Submitted Apr 21, 202620 benchmark results

Authors pending

Tasks

Results

20 results reproduced from this paper.

MetricSort byDirectionSorted instantly in-page

Results

18

SOTA rows

1

Models

2

Datasets

0

#	Model	Vendor	Benchmark	Value	SOTA	Date	Source
01	Qwen3.6-27B	Alibaba	GPQA Diamond	87.8%	—	—	source ↗
02	Qwen3.6-27B	Alibaba	Video-MME	87.7%	—	—	source ↗
03	Qwen3.6-35B-A3B	Alibaba	Video-MME	86.6%	—	—	source ↗
04	Qwen3.6-35B-A3B	Alibaba	GPQA Diamond	86.0%	—	—	source ↗
05	Qwen3.6-35B-A3B	Alibaba	RealWorldQA	85.3%	#1	—	source ↗
06	Qwen3.6-27B	Alibaba	RealWorldQA	84.1%	—	—	source ↗
07	Qwen3.6-27B	Alibaba	MMMU	82.9%	—	—	source ↗
08	Qwen3.6-35B-A3B	Alibaba	MMMU	81.7%	—	—	source ↗
09	Qwen3.6-27B	Alibaba	MMStar	81.4%	—	—	source ↗
10	Qwen3.6-35B-A3B	Alibaba	MMStar	80.7%	—	—	source ↗
11	Qwen3.6-27B	Alibaba	SWE-Bench Verified	77.2%	—	—	source ↗
12	Qwen3.6-27B	Alibaba	MMMU-Pro	75.8%	—	—	source ↗
13	Qwen3.6-27B	Alibaba	MVBench	75.5%	—	—	source ↗
14	Qwen3.6-35B-A3B	Alibaba	MMMU-Pro	75.3%	—	—	source ↗
15	Qwen3.6-35B-A3B	Alibaba	MVBench	74.6%	—	—	source ↗
16	Qwen3.6-35B-A3B	Alibaba	SWE-Bench Verified	73.4%	—	—	source ↗
17	Qwen3.6-27B	Alibaba	HLE	24.0%	—	—	source ↗
18	Qwen3.6-35B-A3B	Alibaba	HLE	21.4%	—	—	source ↗

CodeSOTA extraction

Benchmark evidence

Link this paper to benchmark rows, datasets, model cards, and reproduced results as evidence is extracted.

§ 02 · Models

2 models from this paper.

Qwen3.6-35B-A3B

Add or update benchmark results

Logged-in editor · benchmark trail

Read next

Three places to go from here.

All tracked papers in the registry, with benchmark result, model, and leaderboard linkage where available.

Papers with Code is dead — alternatives

What replaced PWC for each use case: LLMs, OCR, speech, vision, robotics.

Every frontier LLM benchmark, scored.