Codesota · Benchmark · e2eHome/Leaderboards/Vision & Documents/Document OCR/e2e

Unknown

e2e.

e2e is a state-of-the-art machine learning benchmark indexed on Codesota. This page tracks published model results, top scores per metric, and the SOTA timeline for e2e.

Paper ↗Leaderboard ↓

§ 01 · SOTA history

Year over year.

§ 02 · Leaderboard

Results by metric.

Found a wrong score or missing run?

Use row edits to send a sourced correction into moderation.

Add / edit result ↗Report issue ↗

Rouge L

Rouge L is the reported evaluation metric for e2e. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Rouge Lverifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	GPT-2-Large (prefix-tuning) GPT-2 Large prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	71.7	2021	Paper ↗	Looks wrong?
02	GPT-2-Medium (prefix-tuning) GPT-2 Medium prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	71.4	2021	Paper ↗	Looks wrong?
03	HTLM (prefix-tuning) HTLM prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	71.2	2021	Paper ↗	Looks wrong?
04	GPT-2-Medium (fine-tuning) GPT-2 Medium fine-tuning on E2E NLG. From Table 3 in HTLM paper.	verified	71	2021	Paper ↗	Looks wrong?
05	HTLM (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	70.8	2021	Paper ↗	Looks wrong?
06	GPT-2-Large (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	69.9	2021	Paper ↗	Looks wrong?
07	T5-base (STSM) T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	68.97	2024	Paper ↗	Looks wrong?
08	BART-base (STSM) BART-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	68.76	2024	Paper ↗	Looks wrong?
09	FLAN-T5-base (STSM) FLAN-T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	67.85	2024	Paper ↗	Looks wrong?

Bleu

Bleu is the reported evaluation metric for e2e. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Bleuverifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	GPT-2-Large (prefix-tuning) GPT-2 Large prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	70.3	2021	Paper ↗	Looks wrong?
02	HTLM (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	70.3	2021	Paper ↗	Looks wrong?
03	HTLM (prefix-tuning) HTLM prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	70.1	2021	Paper ↗	Looks wrong?
04	GPT-2-Medium (prefix-tuning) GPT-2 Medium prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	69.7	2021	Paper ↗	Looks wrong?
05	GPT-2-Large (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	68.5	2021	Paper ↗	Looks wrong?
06	GPT-2-Medium (fine-tuning) GPT-2 Medium fine-tuning on E2E NLG. From Table 3 in HTLM paper.	verified	68.2	2021	Paper ↗	Looks wrong?
07	T5-base (STSM) T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	66.95	2024	Paper ↗	Looks wrong?
08	BART-base (STSM) BART-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	65.74	2024	Paper ↗	Looks wrong?
09	FLAN-T5-base (STSM) FLAN-T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	65.65	2024	Paper ↗	Looks wrong?

Meteor

Meteor is the reported evaluation metric for e2e. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Meteorverifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	HTLM (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	46.3	2021	Paper ↗	Looks wrong?
02	GPT-2-Large (prefix-tuning) GPT-2 Large prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	46.2	2021	Paper ↗	Looks wrong?
03	GPT-2-Medium (fine-tuning) GPT-2 Medium fine-tuning on E2E NLG. From Table 3 in HTLM paper.	verified	46.2	2021	Paper ↗	Looks wrong?
04	HTLM (prefix-tuning) HTLM prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	46.1	2021	Paper ↗	Looks wrong?
05	GPT-2-Medium (prefix-tuning) GPT-2 Medium prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	46.1	2021	Paper ↗	Looks wrong?
06	GPT-2-Large (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	46	2021	Paper ↗	Looks wrong?
07	T5-base (STSM) T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	45.7	2024	Paper ↗	Looks wrong?
08	BART-base (STSM) BART-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	45.6	2024	Paper ↗	Looks wrong?
09	FLAN-T5-base (STSM) FLAN-T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	45.54	2024	Paper ↗	Looks wrong?

Nist

Nist is the reported evaluation metric for e2e. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Nistverifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	HTLM (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	8.90	2021	Paper ↗	Looks wrong?
02	HTLM (prefix-tuning) HTLM prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	8.85	2021	Paper ↗	Looks wrong?
03	GPT-2-Large (prefix-tuning) GPT-2 Large prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	8.85	2021	Paper ↗	Looks wrong?
04	GPT-2-Medium (prefix-tuning) GPT-2 Medium prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	8.81	2021	Paper ↗	Looks wrong?
05	GPT-2-Large (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	8.78	2021	Paper ↗	Looks wrong?
06	GPT-2-Medium (fine-tuning) GPT-2 Medium fine-tuning on E2E NLG. From Table 3 in HTLM paper.	verified	8.62	2021	Paper ↗	Looks wrong?
07	T5-base (STSM) T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	8.59	2024	Paper ↗	Looks wrong?
08	FLAN-T5-base (STSM) FLAN-T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	8.49	2024	Paper ↗	Looks wrong?
09	BART-base (STSM) BART-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	8.46	2024	Paper ↗	Looks wrong?

Cider

Cider is the reported evaluation metric for e2e. Codesota tracks published model scores on this metric so readers can compare state-of-the-art results across sources and model families.

Higher is better

Trust tiers for Ciderverifiedpapervendorcommunityunverified

Muted rows were not state of the art when published — an earlier or same-year result already scored better.

Rank	Model	Trust	Score	Year	Links	Fix
01	GPT-2-Medium (prefix-tuning) GPT-2 Medium prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	2.49	2021	Paper ↗	Looks wrong?
02	HTLM (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	2.47	2021	Paper ↗	Looks wrong?
03	GPT-2-Medium (fine-tuning) GPT-2 Medium fine-tuning on E2E NLG. From Table 3 in HTLM paper.	verified	2.47	2021	Paper ↗	Looks wrong?
04	GPT-2-Large (prefix-tuning) GPT-2 Large prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	2.47	2021	Paper ↗	Looks wrong?
05	GPT-2-Large (fine-tuning) From paper: HTLM: Hyper-Text Pre-Training and Prompting of Language Models	verified	2.45	2021	Paper ↗	Looks wrong?
06	HTLM (prefix-tuning) HTLM prefix-tuning (0.1% params) on E2E NLG. From Table 3 in HTLM paper.	verified	2.45	2021	Paper ↗	Looks wrong?
07	T5-base (STSM) T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	2.27	2024	Paper ↗	Looks wrong?
08	BART-base (STSM) BART-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	2.20	2024	Paper ↗	Looks wrong?
09	FLAN-T5-base (STSM) FLAN-T5-base authors run (Table 4). From: Self-training from Self-memory in Data-to-text Generation (STSM), Jan 2024.	verified	2.12	2024	Paper ↗	Looks wrong?

§ 04 · Submit a result

Add to the leaderboard.

← Back to Document OCR