Who leads the HellaSwag benchmark?

gpt-4o currently leads HellaSwag with a score of 95.3 on accuracy.

What is the state-of-the-art score on HellaSwag?

The state-of-the-art result on HellaSwag is 95.3 (accuracy), achieved by gpt-4o as of 2026.

How many models are tracked on HellaSwag?

Codesota tracks 20 models on HellaSwag.

When was the HellaSwag leaderboard last updated?

The HellaSwag leaderboard on Codesota includes results through 2026, with the earliest tracked result from 2023.

Codesota · Benchmark · HellaSwagHome/Leaderboards/HellaSwag

Unknown

HellaSwag.

Name: HellaSwag Benchmark Results
Creator: Unknown
Published: 2023-01-01
License: https://creativecommons.org/licenses/by/4.0/

70K sentence completion problems testing commonsense natural language inference.

Paper ↗Leaderboard ↓

§ 01 · SOTA history

Year over year.

§ 02 · Leaderboard

Results by metric.

Found a wrong score or missing run?

Use row edits to send a sourced correction into moderation.

Add / edit result ↗Report issue ↗

accuracy

Accuracy is the reported evaluation metric for HellaSwag. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for accuracyverifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	gpt-4o Commonsense NLI. Models now exceed human performance (95.6%).	paper	95.3	2025	Source ↗	Looks wrong?
02	Gemini 1.5 Pro	unverified	92.5	2025	Source ↗	Looks wrong?
03	gemini-15-pro	paper	92.5	2025	Source ↗	Looks wrong?
04	Step-3.5-Flash Base	unverified	90.2	2026	Paper ↗Code ↗	Looks wrong?
05	Trinity Large Base (5-shot)	unverified	90.11	2026	Paper ↗Code ↗	Looks wrong?
06	Llama 3.1 405B Llama 3.1 405B Instruct. Official Meta model card evaluation.	verified	89	2026	Source ↗	Looks wrong?
07	claude-35-sonnet	paper	89	2025	Source ↗	Looks wrong?
08	Claude 3.5 Sonnet	unverified	89	2025	Source ↗	Looks wrong?
09	Llama 3 70B	unverified	88	2025	Source ↗	Looks wrong?
10	llama-3-70b	paper	88	2025	Source ↗	Looks wrong?
11	LLaMA-65B	unverified	84.2	2023	Paper ↗Code ↗	Looks wrong?
12	Chameleon 34B	unverified	82.7	2024	Paper ↗Code ↗	Looks wrong?
13	BLT-Entropy 8B	unverified	80.6	2024	Paper ↗Code ↗	Looks wrong?
14	Apertus-70B-Instruct	unverified	78.1	2025	Paper ↗Code ↗	Looks wrong?
15	Helium	unverified	76.3	2024	Paper ↗Code ↗	Looks wrong?
16	SmoLM2 (1.7B)	unverified	68.7	2025	Paper ↗Code ↗	Looks wrong?
17	BitNet b1.58 2B4T	unverified	68.44	2025	Paper ↗Code ↗	Looks wrong?
18	Apertus-70B	unverified	64	2025	Paper ↗Code ↗	Looks wrong?
19	HRM-Text-1B	unverified	63.4	2026	Paper ↗Code ↗	Looks wrong?
20	OLMo-2-7B-1124 (olmOCR-peS2o)	unverified	62.6	2025	Paper ↗Code ↗	Looks wrong?

§ 04 · Submit a result

Add to the leaderboard.

← Back to Leaderboards