Who leads the CodeSearchNet benchmark?

GPT-4o currently leads CodeSearchNet with a score of 25.3 on Bleu 4.

What is the state-of-the-art score on CodeSearchNet?

The state-of-the-art result on CodeSearchNet is 25.3 (Bleu 4), achieved by GPT-4o as of 2026.

How many models are tracked on CodeSearchNet?

Codesota tracks 14 models on CodeSearchNet across 2 metrics.

When was the CodeSearchNet leaderboard last updated?

The CodeSearchNet leaderboard on Codesota includes results through 2026, with the earliest tracked result from 2020.

Codesota · Benchmark · CodeSearchNetHome/Leaderboards/Vision & Documents/Document OCR/CodeSearchNet

Unknown

CodeSearchNet.

Name: CodeSearchNet Benchmark Results
Creator: Unknown
Published: 2020-01-01
License: https://creativecommons.org/licenses/by/4.0/

Benchmark for code summarization (docstring generation) across 6 programming languages: Python, Java, JavaScript, PHP, Ruby, Go. Over 2M (code, docstring) pairs. Primary metric is BLEU-4.

Paper ↗Leaderboard ↓

§ 01 · SOTA history

Year over year.

§ 02 · Leaderboard

Results by metric.

Found a wrong score or missing run?

Use row edits to send a sourced correction into moderation.

Add / edit result ↗Report issue ↗

Bleu 4

Bleu 4 is the reported evaluation metric for CodeSearchNet. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Bleu 4verifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	GPT-4o Python split BLEU-4. LLM code summarization evaluation study (arxiv:2407.01511).	verified	25.3	2026	Source ↗	Looks wrong?
02	Qwen2.5-Coder 32B Python split BLEU-4. Qwen2.5-Coder paper.	verified	23.4	2024	Paper ↗Code ↗	Looks wrong?
03	DeepSeek-Coder-V2-Instruct Python split BLEU-4. DeepSeek-Coder-V2 paper.	verified	22.8	2024	Paper ↗Code ↗	Looks wrong?
04	CodeT5+ 2B Python split BLEU-4. CodeT5+ 2B model. CodeT5+ paper Table 4.	verified	21.36	2023	Paper ↗Code ↗	Looks wrong?
05	CodeT5+ Python split BLEU-4. CodeT5+ paper (220M encoder-decoder variant).	verified	20.01	2023	Paper ↗Code ↗	Looks wrong?
06	UniXcoder Python split BLEU-4. UniXcoder paper Table 2.	verified	19.06	2022	Paper ↗Code ↗	Looks wrong?
07	CodeBERT Python split BLEU-4. CodeBERT paper Table 3.	verified	17.65	2020	Paper ↗Code ↗	Looks wrong?

Smoothed Bleu 4

Smoothed Bleu 4 is the reported evaluation metric for CodeSearchNet. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Smoothed Bleu 4verifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	CodeBERT (MLM+RTD) From paper: CodeBERT: A Pre-Trained Model for Programming and Natural Languages	verified	15.99	2020	Paper ↗Code ↗	Looks wrong?
02	CodeBERT (MLM) From paper: CodeBERT: A Pre-Trained Model for Programming and Natural Languages	verified	15.55	2020	Paper ↗Code ↗	Looks wrong?
03	pre-train w/ code only From paper: CodeBERT: A Pre-Trained Model for Programming and Natural Languages	verified	15.15	2020	Paper ↗Code ↗	Looks wrong?
04	CodeBERT (RTD) From paper: CodeBERT: A Pre-Trained Model for Programming and Natural Languages	verified	15.03	2020	Paper ↗Code ↗	Looks wrong?
05	RoBERTa From paper: CodeBERT: A Pre-Trained Model for Programming and Natural Languages	verified	14.52	2020	Paper ↗Code ↗	Looks wrong?
06	Transformer From paper: CodeBERT: A Pre-Trained Model for Programming and Natural Languages	verified	14.31	2020	Paper ↗Code ↗	Looks wrong?
07	seq2seq From paper: CodeBERT: A Pre-Trained Model for Programming and Natural Languages	verified	13.36	2020	Paper ↗Code ↗	Looks wrong?

§ 04 · Submit a result

Add to the leaderboard.

← Back to Document OCR