Optical Character Recognition2020en

icdar2013

Dataset from Papers With Code

Metrics:accuracy, cer, wer, f1

Legacy BenchmarkLast significant update: Jan 2019

Legacy benchmark from 2013. For current OCR evaluation, use OCRBench v2, ICDAR 2015, or newer benchmarks.

Recommended alternatives:

OCRBench v2 icdar2015 olmOCR-Bench

Current State of the Art

DTrOCR 105M

Unknown

99.4

accuracy

accuracy Progress Over Time

Showing 14 breakthroughs from Jun 2014 to Aug 2023

Key Milestones

Jun 2014

CHAR

From paper: Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition

79.5

Source

Jul 2015

CRNN

From paper: An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

86.7

+9.1%

Source

Mar 2016

RARE

From paper: Robust Scene Text Recognition with Automatic Rectification

88.6

+2.2%

Source

Sep 2016

STAR-Net

From paper: Star-net: A spatial attention residue network for scene text recognition.

89.1

+0.6%

Source

Jun 2018

ASTER

From paper: ASTER: An Attentional Scene Text Recognizer with Flexible Rectification

91.8

+3.0%

Source

Apr 2019

Baek et al.

From paper: What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis

92.3

+0.5%

Source

Oct 2019

SATRN

From paper: On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

94.1

+2.0%

Source

Mar 2020

SRN

From paper: Towards Accurate Scene Text Recognition with Semantic Reasoning Networks

95.5

+1.5%

Source

Jul 2021

Yet Another Text Recognizer

From paper: Why You Should Try the Real Data for the Scene Text Recognition

96.8

+1.4%

Source

Aug 2021

DPAN

From paper: Look Back Again: Dual Parallel Attention Network for Accurate and Robust Scene Text Recognition

97.7

+0.9%

Source

Nov 2021

MATRN

From paper: Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

97.9

+0.2%

Source

Sep 2022

MGP-STR

From paper: Multi-Granularity Prediction for Scene Text Recognition

98.5

+0.6%

Source

May 2023

CLIP4STR-L (DataComp-1B)

From paper: CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

99.0

+0.5%

Source

Aug 2023

DTrOCR 105MCurrent SOTA

From paper: DTrOCR: Decoder-only Transformer for Optical Character Recognition

99.4

+0.4%

Source

Total Improvement

25.0%

Time Span

9y 4m

Breakthroughs

Current SOTA

99.4

Top Models Performance Comparison

Top 10 models ranked by accuracy

Best Score

99.4

Top Model

DTrOCR 105M

Models Compared

Score Range

1.6

accuracyPrimary

#	Model	Score	Paper / Code	Date
1	DTrOCR 105M	99.4	DTrOCR: Decoder-only Transformer for Optical Character Recognition Code	Aug 2023
2	CLIP4STR-L (DataComp-1B)	99	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code	May 2023
3	MGP-STR	98.5	Multi-Granularity Prediction for Scene Text Recognition Code	Sep 2022
4	CLIP4STR-L	98.5	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code	May 2023
5	CLIP4STR-B*	98.3	CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Code	May 2023
6	CCD-ViT-Base(ARD_2.8M)	98.3	Self-supervised Character-to-Character Distillation for Text Recognition Code	Nov 2022
7	CCD-ViT-Small(ARD_2.8M)	98.3	Self-supervised Character-to-Character Distillation for Text Recognition Code	Nov 2022
8	MATRN	97.9	Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features Code	Nov 2021
9	S-GTR	97.8	Visual Semantics Allow for Textual Reasoning Better in Scene Text Recognition Code	Dec 2021
10	SIGA_T	97.8	Self-supervised Implicit Glyph Attention for Text Recognition Code	Mar 2022
11	DPAN	97.7	Look Back Again: Dual Parallel Attention Network for Accurate and Robust Scene Text RecognitionCode	Aug 2021
12	CDistNet (Ours)	97.67	CDistNet: Perceiving Multi-Domain Character Distance for Robust Text Recognition Code	Nov 2021
13	CCD-ViT-Tiny(ARD_2.8M)	97.5	Self-supervised Character-to-Character Distillation for Text Recognition Code	Nov 2022
14	SVTR-L (Large)	97.2	SVTR: Scene Text Recognition with a Single Visual Model Code	Apr 2022
15	SVTR-B (Base)	97.1	SVTR: Scene Text Recognition with a Single Visual Model Code	Apr 2022
16	DiffusionSTR	97.1	DiffusionSTR: Diffusion Model for Scene Text Recognition	Jun 2023
17	Yet Another Text Recognizer	96.8	Why You Should Try the Real Data for the Scene Text Recognition Code	Jul 2021
18	SVTR-T (Tiny)	96.3	SVTR: Scene Text Recognition with a Single Visual Model Code	Apr 2022
19	SVTR-S (Small)	95.7	SVTR: Scene Text Recognition with a Single Visual Model Code	Apr 2022
20	SRN	95.5	Towards Accurate Scene Text Recognition with Semantic Reasoning Networks Code	Mar 2020
21	RCEED	94.7	Representation and Correlation Enhanced Encoder-Decoder Framework for Scene Text Recognition Code	Jun 2021
22	SATRN	94.1	On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention Code	Oct 2019
23	DAN	93.9	Decoupled Attention Network for Text Recognition Code	Dec 2019
24	CSTR	93.2	Revisiting Classification Perspective on Scene Text Recognition Code	Feb 2021
25	TextScanner	92.9	TextScanner: Reading Characters in Order for Robust Scene Text Recognition	Dec 2019
26	SAFL	92.8	SAFL: A Self-Attention Scene Text Recognizer with Focal Loss Code	Jan 2022
27	SEED	92.8	SEED: Semantics Enhanced Encoder-Decoder Framework for Scene Text Recognition Code	May 2020
28	ViTSTR	92.4	Vision Transformer for Fast and Efficient Scene Text Recognition Code	May 2021
29	Baek et al.	92.3	What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis Code	Apr 2019
30	ASTER	91.8	ASTER: An Attentional Scene Text Recognizer with Flexible RectificationCode	Jun 2018
31	CA-FCN	91.5	Scene Text Recognition from Two-Dimensional Perspective	Sep 2018
32	SAR	91	Show, Attend and Read: A Simple and Strong Baseline for Irregular Text Recognition Code	Nov 2018
33	STAR-Net	89.1	Star-net: A spatial attention residue network for scene text recognition.Code	Sep 2016
34	RARE	88.6	Robust Scene Text Recognition with Automatic Rectification Code	Mar 2016
35	CRNN	86.7	An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition Code	Jul 2015
36	CHAR	79.5	Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition Code	Jun 2014

avg-f1

#	Model	Score	Paper / Code	Date
1	CDeCNet	1	CDeC-Net: Composite Deformable Cascade Network for Table Detection in Document Images Code	Aug 2020
2	cascadetabnet	1	CascadeTabNet: An approach for end to end table detection and structure recognition from image-based documents Code	Apr 2020
3	TableNet	0.966	TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images Code	Jan 2020