Codesota · OCR · Benchmarks · swe-bench-verifiedHome/OCR/Benchmarks/swe-bench-verified

Unknown

swe-bench-verified.

OCR benchmark

§ 01 · resolve-rate

resolve-rate.

Higher is better

#	Model	Score	Source
★	Claude Opus 4.7 Claude Code harness · Anthropic primary announcement	87.6	vendor
2	Claude Opus 4.5 Non-API entry from src	80.9	src
3	Claude Opus 4.6 Non-API entry from src	80.8	src
4	Gemini 3.1 Pro Non-API entry from src	80.6	src
5	MiniMax M2.5 Non-API entry from src	80.2	src
6	GPT-5.2 Thinking Non-API entry from src	80	src
7	Claude Sonnet 4.6 Non-API entry from src	79.6	src
8	Gemini 3 Flash Non-API entry from src	78	src
9	Claude Sonnet 4.5 Non-API entry from src	77.2	src
10	Kimi K2.5 Non-API entry from src	76.8	src
11	GPT-5.1 Non-API entry from src	76.3	src
12	Gemini 3 Pro Non-API entry from src	76.2	src
13	GPT-5 Non-API entry from src	74.9	src
14	MiniMax M2.1 Non-API entry from src	74	src
15	Claude Haiku 4.5 Non-API entry from src	73.3	src
16	Claude Sonnet 4 Non-API entry from src	72.7	src
17	Claude Opus 4 Non-API entry from src	72.5	src
18	Devstral 2 Non-API entry from src	72.2	src
19	Qwen3-Coder-480B Non-API entry from src	69.6	src
20	MiniMax M2 Non-API entry from src	69.4	src
21	o3 Non-API entry from src	69.1	src
22	o4-mini Non-API entry from src	68.1	src
23	DeepSeek V3.1 Non-API entry from src	66	src
24	Kimi K2 Non-API entry from src	65.8	src
25	Grok 3 Non-API entry from src	63.8	src
26	Gemini 2.5 Pro Non-API entry from src	63.8	src
27	Claude 3.7 Sonnet Non-API entry from src	63.7	src
28	Gemini 2.5 Flash Non-API entry from src	60.4	src
29	DeepSeek R1-0528 Non-API entry from src	57.6	src
30	o3-mini Non-API entry from src	55.8	src
31	GPT-4.1 Non-API entry from src	54.6	src
32	Claude 3.5 Sonnet Non-API entry from src	50.8	src
33	DeepSeek-R1 Non-API entry from src	49.2	src
34	o1 Non-API entry from src	48.9	src
35	Devstral Small 2505 Non-API entry from src	46.8	src
36	DeepSeek V3 Non-API entry from src	42	src
37	GPT-4o Non-API entry from src	41.2	src
38	Claude 3.5 Haiku Non-API entry from src	40.6	src
39	DeepSeek V2.5 Non-API entry from src	37	src

§ Related · Explore

swe-bench-verified.

resolve-rate.

More OCR content.