Collider-Bench: Benchmarking AI Agents with Particle Physics Analysis Reproduction

Darius A. Faroughy, Sofia Palacios Schweitzer, Ian Pang, Siddharth Mishra-Sharma, David Shih

Collider-Bench is a benchmark for evaluating autonomous LLM agents on long-horizon, real-world scientific tasks involving the reproduction of Large Hadron Collider (LHC) experimental analyses.
Agents must turn published papers into executable simulation-and-selection pipelines to predict collision event yields, evaluated against quantitative targets.

§ 01 · Benchmark results

6 results reproduced from this paper.

View:

MetricSort byDirectionSorted instantly in-page

Results

SOTA rows

Models

Datasets

#	Model	Vendor	Benchmark	Value	SOTA	Date	Source
01	Codex CLI (GPT-5.5)	OpenAI	Collider-Bench	30.00	#1	—	source ↗
02	Claude Code (Opus 4.7)	Anthropic	Collider-Bench	20.00	—	—	source ↗
03	Claude Code (Sonnet 4.6)	Anthropic	Collider-Bench	10.00	—	—	source ↗
04	Claude Code (Haiku 4.5)	Anthropic	Collider-Bench	0.00	—	—	source ↗
05	Codex CLI (GPT-5.4-mini)	OpenAI	Collider-Bench	0.00	—	—	source ↗
06	ForgeCode (DeepSeek-V4)	DeepSeek	Collider-Bench	0.00	—	—	source ↗