Who leads the Collider-Bench benchmark?

Codex CLI (GPT-5.5) currently leads Collider-Bench with a score of 30 on Acc Tau 0 33.

What is the state-of-the-art score on Collider-Bench?

The state-of-the-art result on Collider-Bench is 30 (Acc Tau 0 33), achieved by Codex CLI (GPT-5.5) as of 2026.

How many models are tracked on Collider-Bench?

Codesota tracks 6 models on Collider-Bench.

When was the Collider-Bench leaderboard last updated?

The Collider-Bench leaderboard on Codesota includes results through 2026.

Codesota · Benchmark · Collider-BenchHome/Leaderboards/Collider-Bench

Unknown

Collider-Bench.

Name: Collider-Bench Benchmark Results
Creator: Unknown
Published: 2026-01-01
License: https://creativecommons.org/licenses/by/4.0/

Benchmark for autonomous coding/scientific agents reproducing Large Hadron Collider analyses. Public CodeSOTA score is Acc_tau at tau=0.33: the percent of simulation tasks whose relative-L2 error is below 0.33, derived from Table 2 and Eq. 4 of arXiv:2605.13950.

Paper ↗Leaderboard ↓

§ 01 · Leaderboard

Results by metric.

Found a wrong score or missing run?

Use row edits to send a sourced correction into moderation.

Add / edit result ↗Report issue ↗

Acc Tau 0 33

Acc Tau 0 33 is the reported evaluation metric for Collider-Bench. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Acc Tau 0 33verifiedpapervendorcommunityunverified

Rank	Model	Trust	Score	Year	Links	Edit
01	Codex CLI (GPT-5.5) Derived from Table 2: 3 of 10 simulation tasks have relative-L2 < 0.33; value stored as percent.	verified	30	2026	Paper ↗	Edit result
02	Claude Code (Opus 4.7) Derived from Table 2: 2 of 10 simulation tasks have relative-L2 < 0.33; value stored as percent.	verified	20	2026	Paper ↗	Edit result
03	Claude Code (Sonnet 4.6) Derived from Table 2: 1 of 10 simulation tasks have relative-L2 < 0.33; value stored as percent.	verified	10	2026	Paper ↗	Edit result
04	Claude Code (Haiku 4.5) Derived from Table 2: 0 of 10 simulation tasks have relative-L2 < 0.33; value stored as percent.	verified	0.00	2026	Paper ↗	Edit result
05	Codex CLI (GPT-5.4-mini) Derived from Table 2: 0 of 10 simulation tasks have relative-L2 < 0.33; value stored as percent.	verified	0.00	2026	Paper ↗	Edit result
06	ForgeCode (DeepSeek-V4) Derived from Table 2: 0 of 10 simulation tasks have relative-L2 < 0.33; value stored as percent.	verified	0.00	2026	Paper ↗	Edit result

§ 04 · Submit a result

Add to the leaderboard.

← Back to Leaderboards