Every model, measured.

Start with a research area, drill into a vendor, or page through the full index. Only models with at least one benchmark score appear — a model without a recorded score can’t be ranked.

Vendor:Areas overview speakleash · 253 OpenAI · 85 Google · 71 Qwen · 52 Alibaba · 47 Anthropic · 44 Microsoft · 35 Meta · 30 Mistral · 30 DeepSeek · 28 google · 19 meta-llama · 19 mistralai · 19 Meta AI · 15 CYFRAGOVPL · 14 Zhipu AI · 13 NVIDIA · 10 SpeakLeash · 10 internlm · 10 xAI · 10 ByteDance · 9 Baidu · 8 PLLuM · 8 ibm-granite · 8 microsoft · 8 Amazon · 7 Google DeepMind · 7 MiniMax · 7 Mistral AI · 7 Remek · 7 Shanghai AI Lab · 7 allenai · 7 utter-project · 7 CohereForAI · 6 Microsoft Research · 6 Salesforce · 6 01-ai · 5 Alibaba Cloud · 5 Cohere · 5 Moonshot AI · 5 NousResearch · 5 THUML · 5 deepseek-ai · 5 DeepMind · 4 Facebook AI · 4 IBM · 4 Meituan · 4 Stanford · 4 THUDM · 4 UC San Diego · 4 VikParuchuri · 4 gguf-iq · 4 nvidia · 4 openchat · 4 tiiuae · 4 Allen AI · 3 BAAI · 3 Du et al. · 3 ForgeCode · 3 Fudan University · 3 IDEA Research · 3 Liao et al. · 3 Moonshot.AI · 3 Nam Tuan Ly / NII · 3 OPI-PG · 3 OpenDataLab · 3 ViCoS Lab Ljubljana · 3 Xiaomi · 3 Zhao et al. · 3 gguf · 3 gguf11bv30 · 3 gguf7bv30 · 3 upstage · 3+ 247 smaller vendors (291 models)

§ 01 · Agentic AI models

164 models in Agentic AI · page 2 of 4.

#	Model	Vendor	Parameters	Architecture	SOTA	Benchmarks	Results
051	NVIDIA-Nemotron-3-Super-120B-A12B-BF16	—	—	—	—	6	6
052	Step-3.5-Flash	—	—	—	—	6	6
053	GPT-4 Turbo (2024)	OpenAI	Unknown	GPT-4 Turbo (gpt-4-turbo-2024-04-09)	—	5	5
054	GPT-4.1 mini	OpenAI	—	transformer	—	5	5
055	Gemini 2.5 Pro	Google	—	—	—	4	5
056	Kimi K2.5	Moonshot AI	Undisclosed	—	—	4	5
057	Kimi-VL-A3B-Instruct	—	—	—	—	5	5
058	MiniMax M2.5	MiniMax	229B	—	—	3	5
059	Qwen3.5-397B-A17B†	Anthropic/OpenAI	—	—	—	1	5
060	Claude Opus 4.6	Anthropic	Undisclosed	—	—	3	4
061	Claude Sonnet 4.5	Anthropic	—	—	—	4	4
062	GPT-4.5	OpenAI	Undisclosed	—	—	3	4
063	GPT-5.1	OpenAI	—	—	—	4	4
064	GPT-5.2	OpenAI	—	—	—	4	4
065	GPT-5.2	OpenAI	Undisclosed	—	—	2	3
066	Claude 3.5 Haiku	Anthropic	—	—	—	2	2
067	Claude 3.7 Sonnet	Anthropic	—	—	—	2	2
068	Claude Computer Use	Anthropic	Unknown	Claude 3.5 Sonnet with computer use tool	—	1	2
069	Claude Haiku 4.5	Anthropic	—	—	—	2	2
070	Claude Opus 4.1	Anthropic	—	—	—	2	2
071	Claude Sonnet 4.6	Anthropic	—	—	—	2	2
072	DeepSeek-V2.5	DeepSeek	—	LLM	—	2	2
073	DeepSeek-V3.1	DeepSeek	—	—	—	2	2
074	GLM-4.5	Zhipu AI	—	—	—	2	2
075	GLM-4.5-Air	Zhipu AI	—	—	—	2	2
076	GPT-5 Codex	OpenAI	—	—	—	2	2
077	GPT-5.1	OpenAI	—	—	—	2	2
078	GPT-5.1 Instant	OpenAI	—	—	—	2	2
079	GPT-5.1 Thinking	OpenAI	—	—	—	2	2
080	Gemini 2.5 Flash	Google	—	Multimodal LLM	—	2	2
081	Holo2-30B-A3B	—	—	—	—	2	2
082	Holo2-4B	—	—	—	—	2	2
083	Holo2-8B	—	—	—	—	2	2
084	Ling-2.6-1T	—	—	—	—	2	2
085	MiniMax M2	MiniMax	—	—	—	2	2
086	MiniMax M2.1	MiniMax	—	—	—	2	2
087	Muse Spark	Meta	—	—	—	2	2
088	Qwen3-Coder 480B A35B	Alibaba Cloud	—	—	—	2	2
089	Qwen3.5-122B-A10B	Alibaba Cloud	—	—	—	2	2
090	Qwen3.5-27B	Alibaba Cloud	—	—	—	2	2
091	Qwen3.5-397B-A17B	Alibaba	—	—	—	2	2
092	Step-3.5-Flash	StepFun	Unknown	—	—	2	2
093	Agent Q (GPT-4o)	MultiOn	Unknown	MCTS + DPO self-play web agent on GPT-4o	—	1	1
094	Agent S w/ Claude-3.5	—	—	—	—	1	1
095	Agent S w/ GPT-4o	—	—	—	—	1	1
096	Agent S2 (Claude 3.7)	Simular AI	—	—	—	1	1
097	Agent S2 (Gemini 2.5)	Simular AI	—	—	—	1	1
098	Agent S2 w/ Claude-3.5-Sonnet	—	—	—	—	1	1
099	Agent S2 w/ Claude-3.7-Sonnet	—	—	—	—	1	1
100	Ante / Gemini 3 Pro	Ante	—	—	—	1	1