Every model, measured.

Start with a research area, drill into a vendor, or page through the full index. Only models with at least one benchmark score appear — a model without a recorded score can’t be ranked.

Vendor:Areas overview speakleash · 253 OpenAI · 85 Google · 71 Qwen · 52 Alibaba · 47 Anthropic · 44 Microsoft · 35 Meta · 30 Mistral · 30 DeepSeek · 28 google · 19 meta-llama · 19 mistralai · 19 Meta AI · 15 CYFRAGOVPL · 14 Zhipu AI · 13 NVIDIA · 10 SpeakLeash · 10 internlm · 10 xAI · 10 ByteDance · 9 Baidu · 8 PLLuM · 8 ibm-granite · 8 microsoft · 8 Amazon · 7 Google DeepMind · 7 MiniMax · 7 Mistral AI · 7 Remek · 7 Shanghai AI Lab · 7 allenai · 7 utter-project · 7 CohereForAI · 6 Microsoft Research · 6 Salesforce · 6 01-ai · 5 Alibaba Cloud · 5 Cohere · 5 Moonshot AI · 5 NousResearch · 5 THUML · 5 deepseek-ai · 5 DeepMind · 4 Facebook AI · 4 IBM · 4 Meituan · 4 Stanford · 4 THUDM · 4 UC San Diego · 4 VikParuchuri · 4 gguf-iq · 4 nvidia · 4 openchat · 4 tiiuae · 4 Allen AI · 3 BAAI · 3 Du et al. · 3 ForgeCode · 3 Fudan University · 3 IDEA Research · 3 Liao et al. · 3 Moonshot.AI · 3 Nam Tuan Ly / NII · 3 OPI-PG · 3 OpenDataLab · 3 ViCoS Lab Ljubljana · 3 Xiaomi · 3 Zhao et al. · 3 gguf · 3 gguf11bv30 · 3 gguf7bv30 · 3 upstage · 3+ 247 smaller vendors (291 models)

§ 01 · Multimodal models

88 models in Multimodal · page 1 of 2.

#	Model	Vendor	Parameters	Architecture	SOTA	Benchmarks	Results
001	GPT-4o	OpenAI	Undisclosed	Multimodal LLM	15	45	57
002	Gemini-3.1-Pro	Google	—	—	4	3	11
003	Gemini 1.5 Pro	Google	—	Multimodal LLM	3	17	21
004	Qianfan-OCR	Baidu Qianfan	4B	End-to-end VLM (4B params)	3	4	16
005	Qwen3.5-Omni-Plus	—	—	—	3	9	9
006	Claude 3.5 Sonnet	Anthropic	Undisclosed	Multimodal LLM	2	27	32
007	Qwen3.5-397B-A17B	Alibaba	—	—	2	14	20
008	Qwen2-VL 72B	Alibaba	—	Vision-Language Model	2	12	18
009	Ovis2.5-9B	—	—	—	2	8	9
010	SenseNova-U1-A3B-MoT	SenseTime	—	—	2	6	6
011	BLIP ViT-L	—	—	—	2	2	2
012	Gemini 3 Pro	Google	Undisclosed	—	1	11	13
013	Qwen3-VL-235B-A22B-Instruct	Qwen	—	—	1	12	12
014	Qwen3.6-27B	—	—	—	1	10	10
015	Qwen3.6-35B-A3B	—	—	—	1	10	10
016	Gemini 2.5 Pro	—	—	—	1	9	9
017	Audio Flamingo 3	—	—	—	1	7	7
018	Intern-S1-Pro	Shanghai AI Lab	—	—	1	5	6
019	Kimi K2.6	—	—	—	1	6	6
020	Infinity-Parser2-Pro	—	—	—	1	5	5
021	AIMv2 ViT-3B/14 + Llama 3.0 8B	—	—	—	1	4	4
022	BLIP-2	Salesforce	Unknown	Frozen image encoder + Q-Former + frozen LLM	1	3	3
023	Qwen3.6 Plus	Alibaba	—	—	1	3	3
024	Gemini 2.0 Flash	Google	—	Multimodal LLM	1	2	2
025	BLIP3o-NEXT-GRPO-GenEval (3B)	—	—	—	1	1	1
026	Chameleon-SFT	—	—	—	1	1	1
027	Lumina-DiMOO w/ Self-GRPO	—	—	—	1	1	1
028	Kimi-K2.5	Moonshot.AI	—	—	—	10	16
029	Qwen3.5-122B-A10B	Alibaba	—	—	—	10	16
030	Qwen3.5-27B	Alibaba	—	—	—	10	16
031	Qwen3.5-35B-A3B	Alibaba	—	—	—	10	16
032	Claude 3 Opus	Anthropic	—	—	—	8	14
033	Qwen2.5-VL-72B	—	—	—	—	14	14
034	Qwen3-VL-235B-A22B-Thinking	Qwen	—	—	—	12	12
035	Qwen3-VL-8B-Instruct	Qwen	—	—	—	12	12
036	MiniCPM-o 4.5-Instruct	—	—	—	—	11	11
037	Qwen2-VL 7B	Alibaba	7B	—	—	11	11
038	Qwen2-VL-2B	—	—	—	—	10	10
039	Gemini 2.5 Flash	—	—	—	—	9	9
040	InternVL2-76B	Shanghai AI Lab	76B	Vision-Language Model	—	5	8
041	Aria	—	—	—	—	7	7
042	LongCat-Flash-Omni	—	—	—	—	7	7
043	VideoLLaMA3 7B	—	—	—	—	7	7
044	BLIP3-o (8B)	—	—	—	—	6	6
045	InternVL3-78B	Shanghai AI Lab	78B	Vision-Language Model	—	5	6
046	VideoLLaMA3 2B	—	—	—	—	6	6
047	Gemma 3 (27B, IT)	—	—	—	—	5	5
048	Kimi-VL-A3B-Instruct	—	—	—	—	5	5
049	Kimi-VL-A3B-Thinking-2506	—	—	—	—	5	5
050	MiniCPM-Llama3-V 2.5	—	—	—	—	5	5