CLIP4STR-B.

ResearchunknownUnknown paramsUnknown

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model. Base variant. Exploits CLIP pre-training for robust scene text features. Strong on Union14M benchmark. arXiv 2305.14014.

§ 02 · Benchmarks

Every benchmark CLIP4STR-B has a recorded score for.

#	Benchmark	Area · Task	Metric	Value	Rank	Date	Source
01	Union14M	Computer Vision · Scene Text Detection	accuracy	70.8%	#1/8	—	source ↗
02	host	Computer Vision · Scene Text Recognition	1-1-accuracy	79.8%	#2/3	2023-05-23	source ↗
03	coco-text	Computer Vision · Scene Text Detection	1-1-accuracy	81.1%	#3/3	2023-05-23	source ↗
04	ic19-art	Computer Vision · Scene Text Detection	accuracy	85.8%	#3/4	2023-05-23	source ↗
05	uber-text	Computer Vision · Scene Text Recognition	accuracy	86.8%	#3/3	2023-05-23	source ↗
06	cute80	Computer Vision · Scene Text Recognition	accuracy	99.3%	#4/20	2023-05-23	source ↗
07	wost	Computer Vision · Scene Text Recognition	1-1-accuracy	87.0%	#4/5	2023-05-23	source ↗
08	icdar2013	Computer Vision · Optical Character Recognition	accuracy	98.3%	#5/36	2023-05-23	source ↗
09	svtp	Computer Vision · Scene Text Recognition	accuracy	97.2%	#5/19	2023-05-23	source ↗
10	iiit5k	Computer Vision · Scene Text Recognition	accuracy	99.2%	#6/21	2023-05-23	source ↗
11	svt	Computer Vision · Scene Text Recognition	accuracy	98.3%	#7/40	2023-05-23	source ↗
12	icdar2015	Computer Vision · Optical Character Recognition	accuracy	90.6%	#8/29	2023-05-23	source ↗

Rank column shows this model’s position vs all other models scored on the same benchmark + metric (competitors after the slash). #1 in red means current SOTA. Sorted by rank, then newest result.

§ 03 · Strengths by area