Recent Papers / arXiv:pwc-82956

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

arXiv:pwc-82956Submitted Apr 24, 202610 benchmark results

Authors pending

Tasks

Results

10 results reproduced from this paper.

MetricSort byDirectionSorted instantly in-page

Results

8

SOTA rows

2

Models

2

Datasets

0

#	Model	Vendor	Benchmark	Value	SOTA	Date	Source
01	DeepSeek-V4-Pro Max	DeepSeek	GPQA Diamond	90.1%	—	—	source ↗
02	DeepSeek-V4-Flash Max	DeepSeek	GPQA Diamond	88.1%	—	—	source ↗
03	DeepSeek-V4-Pro Max	DeepSeek	BrowseComp	83.4%	#1	—	source ↗
04	DeepSeek-V4-Pro Max	DeepSeek	SWE-Bench Verified	80.6%	#1	—	source ↗
05	DeepSeek-V4-Flash Max	DeepSeek	SWE-Bench Verified	79.0%	—	—	source ↗
06	DeepSeek-V4-Flash Max	DeepSeek	BrowseComp	73.2%	—	—	source ↗
07	DeepSeek-V4-Pro Max	DeepSeek	HLE	37.7%	—	—	source ↗
08	DeepSeek-V4-Flash Max	DeepSeek	HLE	34.8%	—	—	source ↗

CodeSOTA extraction

Benchmark evidence

Link this paper to benchmark rows, datasets, model cards, and reproduced results as evidence is extracted.

§ 02 · Models

2 models from this paper.

DeepSeek-V4-Pro Max

DeepSeek-V4-Flash Max

Add or update benchmark results

Logged-in editor · benchmark trail

Read next

Three places to go from here.

All tracked papers in the registry, with benchmark result, model, and leaderboard linkage where available.

Papers with Code is dead — alternatives

What replaced PWC for each use case: LLMs, OCR, speech, vision, robotics.

Every frontier LLM benchmark, scored.