audiocaps.

OCR benchmark

§ 01 · fad

fad.

Higher is better

#	Model	Score	Source
★	AudioLDM Fetched from CodeSOTA API on 2026-04-20	4.48	codesota-api
2	AudioLDM 2-Full-Large Fetched from CodeSOTA API on 2026-04-20	1.86	codesota-api
3	AudioLDM 2-Full Fetched from CodeSOTA API on 2026-04-20	1.78	codesota-api
4	TANGO Fetched from CodeSOTA API on 2026-04-20	1.73	codesota-api
5	AudioLDM 2-AC-Large Fetched from CodeSOTA API on 2026-04-20	1.42	codesota-api

§ Related · Explore