Benchmark Ontology

Complete hierarchy of ML benchmarks. Navigate from research areas to specific datasets and compare model performance.

17

Areas

84

Tasks

227

Datasets

613

Models

1777

Results

302

Papers

Hierarchy Structure

Area(research domain)

Task(specific problem)

Dataset(benchmark)

Computer Vision

16 tasks169 datasets1643 results

Building systems that understand images and video? Find benchmarks for recognition, detection, segmentation, and document analysis tasks.

Optical Character Recognition

110 datasets680 results

cnn-/-daily-mail(80)

scut-ctw1500(73)

inverse-text(18)

videodb's-ocr-benchmark-public-collection(15)+100 more

Scene Text Detection

10 datasets465 results

ICDAR 2015(180)

Total-Text(108)

icdar-2017-mlt(42)

Document Layout Analysis

5 datasets126 results

publaynet-val(85)

document-layout-recognition-challenge-test(18)

document-layout-recognition-challenge-mini-dev(12)

Scene Text Recognition

11 datasets109 results

svt-p(1)+1 more

Document Image Classification

7 datasets54 results

tobacco-3482(14)

noisy-bangla-characters(2)

noisy-bangla-numeral(2)

Document Parsing

2 datasets51 results

olmOCR-Bench(28)

OmniDocBench(23)

General OCR Capabilities

4 datasets50 results

OCRBench v2(32)

MME-VideoOCR(6)

Table Recognition

5 datasets38 results

table-recognition-challenge-mini-test(12)

table-recognition-challenge-test(6)

icdar2013-table-structure-recognition(1)

Handwriting Recognition

6 datasets38 results

banglalekha-isolated-dataset(3)

an-extensive-dataset-of-handwritten-central-kurdis(1)

Polish EMNIST Extension

Image Classification

4 datasets25 results

ImageNet-1K(16)

Object Detection

2 datasets5 results

Pascal VOC 2012

Semantic Segmentation

2 datasets2 results

0 datasets0 results

0 datasets0 results

Document Understanding

1 datasets0 results

Key Information Extraction

0 datasets0 results

5 tasks15 datasets51 results

Testing if your model can think logically? Benchmark math problem solving, commonsense understanding, and multi-step reasoning capabilities.

Commonsense Reasoning

5 datasets20 results

ARC-Challenge(4)

CommonsenseQA(3)

Mathematical Reasoning

3 datasets13 results

Multi-step Reasoning

3 datasets8 results

Arithmetic Reasoning

2 datasets6 results

Logical Reasoning

2 datasets4 results

4 tasks9 datasets44 results

Building healthcare AI? Find benchmarks for medical imaging, disease diagnosis, clinical text processing, and drug discovery.

Disease Classification

9 datasets44 results

NIH ChestX-ray14(4)

RSNA Pneumonia Detection(2)

COVID-19 Image Data Collection(2)

Medical Image Segmentation

0 datasets0 results

0 datasets0 results

0 datasets0 results

Industrial Inspection

4 tasks7 datasets14 results

Building quality control systems? Benchmark anomaly detection, defect classification, and automated visual inspection for manufacturing.

Anomaly Detection

7 datasets14 results

Severstal Steel Defect(1)

Weld Defect X-Ray(1)

Steel Defect Detection

0 datasets0 results

Surface Defect Detection

0 datasets0 results

Weld Inspection

0 datasets0 results

6 tasks8 datasets10 results

Developing AI coding assistants? Test code generation, completion, translation, bug detection, and repair capabilities.

Code Generation

8 datasets10 results

SWE-Bench Verified(3)

0 datasets0 results

0 datasets0 results

Code Completion

0 datasets0 results

Code Summarization

0 datasets0 results

Code Translation

0 datasets0 results

Reinforcement Learning

3 tasks2 datasets9 results

Training agents to make decisions? Benchmark your policies on game playing, continuous control, and offline learning tasks.

1 datasets9 results

0 datasets0 results

Continuous Control

1 datasets0 results

4 tasks2 datasets6 results

Working with network data? Test graph learning models on node classification, link prediction, and molecular property tasks.

Node Classification

2 datasets6 results

Open Graph Benchmark

Link Prediction

0 datasets0 results

Molecular Property Prediction

0 datasets0 results

Graph Classification

0 datasets0 results

3 tasks0 datasets0 results

Building robotic systems? Find benchmarks for manipulation, navigation, and simulation-to-reality transfer.

Robot Manipulation

0 datasets0 results

Robot Navigation

0 datasets0 results

Sim-to-Real Transfer

0 datasets0 results

5 tasks4 datasets0 results

Working with voice and audio? Evaluate speech-to-text accuracy, voice synthesis quality, and speaker identification performance.

Speaker Verification

0 datasets0 results

Speech Recognition

2 datasets0 results

Speech Translation

0 datasets0 results

2 datasets0 results

0 datasets0 results

2 tasks0 datasets0 results

Need to test model robustness? Benchmark resilience against adversarial attacks and evaluate defense mechanisms.

Adversarial Attacks

0 datasets0 results

Adversarial Robustness

0 datasets0 results

2 tasks1 datasets0 results

Predicting future trends or detecting anomalies? Benchmark forecasting accuracy and pattern recognition in sequential data.

Time Series Classification

0 datasets0 results

Time Series Forecasting

1 datasets0 results

5 tasks0 datasets0 results

Measuring autonomous AI capabilities? METR benchmarks track time horizon, multi-step reasoning, and sustained task performance - key metrics for AGI progress.

0 datasets0 results

0 datasets0 results

0 datasets0 results

Autonomous Coding

0 datasets0 results

0 datasets0 results

4 tasks2 datasets0 results

Processing general audio signals? Test your models on sound classification, event detection, music analysis, and source separation.

Music Generation

0 datasets0 results

Sound Event Detection

0 datasets0 results

Audio Captioning

0 datasets0 results

Audio Classification

2 datasets0 results

3 tasks0 datasets0 results

Building knowledge systems? Evaluate graph completion, relation extraction, and entity linking performance.

Relation Extraction

0 datasets0 results

0 datasets0 results

Knowledge Graph Completion

0 datasets0 results

4 tasks0 datasets0 results

Improving learning efficiency? Test self-supervised, few-shot, transfer, and continual learning approaches.

Self-Supervised Learning

0 datasets0 results

Transfer Learning

0 datasets0 results

Continual Learning

0 datasets0 results

Few-Shot Learning

0 datasets0 results

5 tasks2 datasets0 results

Combining vision and language? Evaluate image captioning, visual QA, text-to-image generation, and cross-modal retrieval models.

Text-to-Image Generation

0 datasets0 results

Video Understanding

0 datasets0 results

Visual Question Answering

1 datasets0 results

Cross-Modal Retrieval

0 datasets0 results

Image Captioning

1 datasets0 results

Natural Language Processing

9 tasks6 datasets0 results

Processing and understanding text? Evaluate your models on language understanding, generation, translation, and information extraction benchmarks.

Language Modeling

0 datasets0 results

Machine Translation

0 datasets0 results

Named Entity Recognition

1 datasets0 results

Natural Language Inference

1 datasets0 results

Question Answering

1 datasets0 results

Reading Comprehension

0 datasets0 results

Semantic Textual Similarity

0 datasets0 results

Text Classification

2 datasets0 results

Text Summarization

1 datasets0 results

How to Navigate

1. Choose an Area

Start with a research domain like Computer Vision or NLP that matches your problem space.

2. Select a Task

Find the specific problem you are solving, like OCR, Text Classification, or Object Detection.

3. Pick a Dataset

Choose a benchmark dataset to evaluate your model and compare against state-of-the-art results.