Every model, measured.

Start with a research area, drill into a vendor, or page through the full index. Only models with at least one benchmark score appear — a model without a recorded score can’t be ranked.

Vendor:Areas overview speakleash · 253 OpenAI · 85 Google · 71 Qwen · 52 Alibaba · 47 Anthropic · 44 Microsoft · 35 Meta · 30 Mistral · 30 DeepSeek · 28 google · 19 meta-llama · 19 mistralai · 19 Meta AI · 15 CYFRAGOVPL · 14 Zhipu AI · 13 NVIDIA · 10 SpeakLeash · 10 internlm · 10 xAI · 10 ByteDance · 9 Baidu · 8 PLLuM · 8 ibm-granite · 8 microsoft · 8 Amazon · 7 Google DeepMind · 7 MiniMax · 7 Mistral AI · 7 Remek · 7 Shanghai AI Lab · 7 allenai · 7 utter-project · 7 CohereForAI · 6 Microsoft Research · 6 Salesforce · 6 01-ai · 5 Alibaba Cloud · 5 Cohere · 5 Moonshot AI · 5 NousResearch · 5 THUML · 5 deepseek-ai · 5 DeepMind · 4 Facebook AI · 4 IBM · 4 Meituan · 4 Stanford · 4 THUDM · 4 UC San Diego · 4 VikParuchuri · 4 gguf-iq · 4 nvidia · 4 openchat · 4 tiiuae · 4 Allen AI · 3 BAAI · 3 Du et al. · 3 ForgeCode · 3 Fudan University · 3 IDEA Research · 3 Liao et al. · 3 Moonshot.AI · 3 Nam Tuan Ly / NII · 3 OPI-PG · 3 OpenDataLab · 3 ViCoS Lab Ljubljana · 3 Xiaomi · 3 Zhao et al. · 3 gguf · 3 gguf11bv30 · 3 gguf7bv30 · 3 upstage · 3+ 247 smaller vendors (291 models)

§ 01 · Computer Vision models

896 models in Computer Vision · page 11 of 18.

#	Model	Vendor	Parameters	Architecture	SOTA	Benchmarks	Results
501	OrigamiNet-24	Unknown	Unknown	Unknown	—	1	2
502	PyLaia (all transcriptions + agreement-based split)	Unknown	Unknown	Unknown	—	1	2
503	PyLaia (human transcriptions + agreement-based split)	Unknown	Unknown	Unknown	—	1	2
504	PyLaia (rover consensus + agreement-based split)	Unknown	Unknown	Unknown	—	1	2
505	Qwen2.5-VL 32B	Alibaba	—	Vision-Language Model	—	2	2
506	Qwen3-VL-4B	Alibaba Qwen	4B	Vision-Language Model (4B params)	—	2	2
507	ReasTAP-Large	Unknown	Unknown	Unknown	—	1	2
508	SANA	—	—	—	—	1	2
509	SIGA_S	Unknown	Unknown	Unknown	—	2	2
510	SLANet	Unknown	Unknown	Unknown	—	1	2
511	SSD300 (VGG-16)	Google / UNC	~24M	Single-shot multibox detector with VGG-16 backbone, 300x300 input	—	1	2
512	Salience-aware TAPAS	Unknown	Unknown	Unknown	—	1	2
513	SwinTextSpotter v2	Academic	—	Swin Transformer, improved detection-recognition synergy	—	1	2
514	T5-3b(UnifiedSKG)	Unknown	Unknown	Unknown	—	1	2
515	TABLET	Anonymous (arXiv 2025)	Unknown	Dual Transformer encoders; encoder-only architecture; row/column splitting as sequence labeling	—	1	2
516	TAPAS-Large classifier with Counterfactual + Synthetic pre-training	Unknown	Unknown	Unknown	—	1	2
517	TAPEX-Large	Unknown	Unknown	Unknown	—	1	2
518	TPSNet	Unknown	Unknown	Unknown	—	1	2
519	TRUST	Unknown	Unknown	Unknown	—	1	2
520	TabStruct-Net	Unknown	Unknown	Unknown	—	1	2
521	Table NLM	Unknown	Unknown	Unknown	—	1	2
522	Table-BERT-Horizontal-T+F-Template	Unknown	Unknown	Unknown	—	1	2
523	UniTable Large	Georgia Tech (Peng et al.)	Unknown	ViT encoder + autoregressive decoder; self-supervised pretraining on unannotated tabular images	—	1	2
524	VAI-OCR	Unknown	Unknown	Unknown	—	1	2
525	ViT-B/16	Google	86M	Vision Transformer	—	2	2
526	ViTDet-H (MAE)	Meta AI	Unknown	Plain ViT-H backbone with simple feature pyramid, Cascade Mask RCNN head	—	1	2
527	VideoPrism-g	—	—	—	—	2	2
528	biCVM+	Unknown	Unknown	Unknown	—	2	2
529	claude-3.5-sonnet	Unknown	Unknown	Unknown	—	1	2
530	dots.mocr	—	—	—	—	2	2
531	gpt-4o-2024	Unknown	Unknown	Unknown	—	1	2
532	minicpm-v-4.5-8b	Unknown	Unknown	Unknown	—	1	2
533	mistral-ocr-2512	Unknown	Unknown	Unknown	—	2	2
534	olmOCR v0.3.0	Allen AI	—	OCR Pipeline	—	1	2
535	sail-vl2-8b	Unknown	Unknown	Unknown	—	1	2
536	Self-Attention + CTC + language model	Unknown	Unknown	Unknown	—	1	1
537	3DGP	Unknown	Unknown	Unknown	—	1	1
538	ABCNet v2	TPAMI 2021	—	—	—	1	1
539	AIMv2-3B	Apple	2.7B	Vision Transformer (Autoregressive Pre-trained)	—	1	1
540	AIN 7B	Research	—	Vision-Language Model	—	1	1
541	ARTEMIS-DA	Unknown	Unknown	Unknown	—	1	1
542	AWS Textract	Amazon Web Services	Unknown	Managed OCR + layout + table extraction service	—	1	1
543	Abdallah	Unknown	Unknown	Unknown	—	1	1
544	AlexNet	U. Toronto	—	—	—	1	1
545	AlexNet + spatial pyramidal pooling + image resizing	Unknown	Unknown	Unknown	—	1	1
546	Anthropic Haiku 4.5	Anthropic	Unknown	Vision-language model (thinking enabled)	—	1	1
547	ArabicNougat	community	—	—	—	1	1
548	ArtDet-v2	Sogou OCR team	Unknown	Scene text detector	—	1	1
549	AttentionOCR_Inception-resnet-v2_Location	Unknown	Unknown	Unknown	—	1	1
550	Azure Document Intelligence	Microsoft	Unknown	Managed layout + OCR extraction service	—	1	1