Every model, measured.

Start with a research area, drill into a vendor, or page through the full index. Only models with at least one benchmark score appear — a model without a recorded score can’t be ranked.

Vendor:Areas overview speakleash · 253 OpenAI · 85 Google · 71 Qwen · 52 Alibaba · 47 Anthropic · 44 Microsoft · 35 Meta · 30 Mistral · 30 DeepSeek · 28 google · 19 meta-llama · 19 mistralai · 19 Meta AI · 15 CYFRAGOVPL · 14 Zhipu AI · 13 NVIDIA · 10 SpeakLeash · 10 internlm · 10 xAI · 10 ByteDance · 9 Baidu · 8 PLLuM · 8 ibm-granite · 8 microsoft · 8 Amazon · 7 Google DeepMind · 7 MiniMax · 7 Mistral AI · 7 Remek · 7 Shanghai AI Lab · 7 allenai · 7 utter-project · 7 CohereForAI · 6 Microsoft Research · 6 Salesforce · 6 01-ai · 5 Alibaba Cloud · 5 Cohere · 5 Moonshot AI · 5 NousResearch · 5 THUML · 5 deepseek-ai · 5 DeepMind · 4 Facebook AI · 4 IBM · 4 Meituan · 4 Stanford · 4 THUDM · 4 UC San Diego · 4 VikParuchuri · 4 gguf-iq · 4 nvidia · 4 openchat · 4 tiiuae · 4 Allen AI · 3 BAAI · 3 Du et al. · 3 ForgeCode · 3 Fudan University · 3 IDEA Research · 3 Liao et al. · 3 Moonshot.AI · 3 Nam Tuan Ly / NII · 3 OPI-PG · 3 OpenDataLab · 3 ViCoS Lab Ljubljana · 3 Xiaomi · 3 Zhao et al. · 3 gguf · 3 gguf11bv30 · 3 gguf7bv30 · 3 upstage · 3+ 247 smaller vendors (291 models)

§ 01 · Speech models

104 models in Speech · page 2 of 3.

#	Model	Vendor	Parameters	Architecture	SOTA	Benchmarks	Results
051	Whisper-tiny.en	—	—	—	—	8	9
052	Niagara-38m-batch.en	—	—	—	—	8	8
053	Qwen3-ASR-1.7B	Alibaba	1.7B	Transformer (Qwen3 backbone)	—	7	8
054	Cohere Transcribe (Mar 2026)	Cohere	2B	Transformer ASR	—	6	7
055	LongCat-Flash-Omni	—	—	—	—	7	7
056	Canary-Qwen-2.5B	NVIDIA	2.5B	FastConformer encoder + Qwen2 LM decoder	—	6	6
057	Owsm_ctc_v3.1_1B	—	—	—	—	5	6
058	Parakeet-tdt-0.6b-v2	—	—	—	—	5	6
059	Moonshine-streaming-small	—	—	—	—	4	5
060	Niagara-19m-batch.en	—	—	—	—	5	5
061	Granite Speech 3.3 8B	IBM	8B	Transformer	—	4	4
062	Canary-1B	NVIDIA	1B	FastConformer encoder + Transformer decoder	—	1	3
063	Moonshine Streaming Medium	Useful Sensors	245M	Causal encoder-decoder	—	2	3
064	Canary-1B-Flash	NVIDIA	1B	FastConformer + TDT decoder	—	2	2
065	Distil-large-v3.5	—	—	—	—	2	2
066	Google USM	Google	2B	Conformer encoder + RNN-T/CTC	—	1	2
067	Granite 4.0 1B Speech	IBM	1B	Transformer	—	2	2
068	HuBERT Large (LS-960)	Meta AI	317M	CNN + Transformer (BERT-style)	—	1	2
069	Lite-whisper-large-v3-acc	—	—	—	—	2	2
070	Llama 3 Speech (70B)	—	—	—	—	2	2
071	Parakeet-CTC-1.1B	NVIDIA / Suno	1.1B	FastConformer-CTC	—	1	2
072	Parakeet-tdt-0.6b-v3	—	—	—	—	2	2
073	Pulse STT	Smallest AI	—	Proprietary streaming STT	—	1	2
074	Qwen3-ASR-0.6B	Alibaba	0.6B	Transformer (Qwen3 backbone)	—	2	2
075	Voxtral-Mini-3B-2507	—	—	—	—	2	2
076	Voxtral-Small-24B-2507	Mistral AI	24B	Large multimodal LM with audio encoder	—	2	2
077	Canary-180M-Flash	NVIDIA	180M	FastConformer-Small + TDT	—	1	1
078	Canary-1b-v2	—	—	—	—	1	1
079	Conformer-CTC Large	NVIDIA / NeMo	118M	Conformer (Conv + Attention) + CTC	—	1	1
080	CrisperWhisper	nyrahealth	1.5B	Whisper fine-tune with alignment	—	1	1
081	Distil-Whisper Large v2	—	—	—	—	1	1
082	Distil-Whisper Large v3	—	—	—	—	1	1
083	Distil-Whisper Large v3.5	—	—	—	—	1	1
084	Distil-Whisper Medium (English)	—	—	—	—	1	1
085	Distil-Whisper Small (English)	—	—	—	—	1	1
086	ECAPA-TDNN	Ghent University	~14.7M	ECAPA-TDNN (SE-Res2Net + attentive stats pooling)	—	1	1
087	Fairseq S2T (MuST-C)	Meta AI	~150M	Conformer encoder + transformer decoder	—	1	1
088	GLM-ASR-Nano-2512	Zhipu AI	2B	GLM4 + audio encoder	—	1	1
089	Lite-whisper-large-v3	—	—	—	—	1	1
090	Moshi ASR	—	—	—	—	1	1
091	Owsm_ctc_v4_1B	—	—	—	—	1	1
092	Parakeet-TDT-1.1B	NVIDIA	1.1B	FastConformer (TDT)	—	1	1
093	Parakeet-ctc-1.1b	—	—	—	—	1	1
094	Parakeet-rnnt-1.1b	—	—	—	—	1	1
095	ResNet-34 (AM-Softmax, VoxCeleb2)	Community	~6M	ResNet-34 with AM-Softmax loss	—	1	1
096	SYMPHONY	—	—	—	—	1	1
097	Stt-2.6b-en	—	—	—	—	1	1
098	Wav2Vec 2.0 Base	—	—	—	—	1	1
099	Wav2Vec 2.0 Large (LS-960)	—	—	—	—	1	1
100	Whisper Medium (English)	—	—	—	—	1	1