Every score we've added, in order.

The append-only public ledger of every benchmark result on Codesota. When a row was written, when the result itself is dated, who the model was, what value was claimed, and where the citation lives. New-SOTA rows are marked in colour; unverified rows still show, but labelled.

This is the audit trail. If a score is wrong, this is where the error will be visible; if a source is missing, this is where you'll see the gap.

Filters:New-SOTA only Verified only clear all

2026-05-26 · 39 rows

18:43GPT-4oHLE2.7%-51.28source ↗· verified
18:43Nova LiteHLE3.6%-50.36source ↗· verified
18:43Claude 3.5 SonnetHLE4.1%-49.92source ↗· verified
18:43Nova ProHLE4.4%-49.60source ↗· verified
18:43Mistral-Medium-3HLE4.5%-49.48source ↗· verified
18:43Gemini 1.5 ProHLE4.6%-49.40source ↗· verified
18:43GPT-4.5 PreviewHLE5.4%-48.56source ↗· verified
18:43Gemini 2.0 Flash ThinkingHLE6.6%-47.44source ↗· verified
18:43o1HLE8.0%-46.04source ↗· verified
18:43Claude 3.7 SonnetHLE8.0%-45.96source ↗· verified
18:43o1 ProHLE8.1%-45.88source ↗· verified
18:43Muse SparkHLE40.6%-13.44source ↗· verified
13:40GPT-4.1HLE5.4%-48.60source ↗· verified
13:40Llama 4 MaverickHLE5.7%-48.32source ↗· verified
13:40Claude Sonnet 4HLE7.8%-46.24source ↗· verified
13:40GLM-4.5-AirHLE8.1%-45.88source ↗· verified
13:40GLM-4.5HLE8.3%-45.68source ↗· verified
13:40Gemini 3.1 Flash-LiteHLE8.6%-45.36source ↗· verified
13:40Claude Opus 4HLE10.7%-43.28source ↗· verified
13:40Claude Opus 4.1HLE11.5%-42.48source ↗· verified
13:40Gemini 2.5 FlashHLE12.1%-41.92source ↗· verified
13:40Claude Sonnet 4.5HLE13.7%-40.28source ↗· verified
13:40o4-miniHLE18.1%-35.92source ↗· verified
13:40GPT-5 miniHLE19.4%-34.56source ↗· verified
13:40o3HLE20.3%-33.68source ↗· verified
13:40Gemini 2.5 ProHLE21.6%-32.36source ↗· verified
13:40GPT-5.1HLE23.7%-30.32source ↗· verified
13:40Kimi K2.5HLE24.4%-29.63source ↗· verified
13:40Claude Opus 4.5HLE25.2%-28.80source ↗· verified
13:40GPT-5HLE25.3%-28.68source ↗· verified
13:40GPT-5.2HLE27.8%-26.20source ↗· verified
13:40GPT-5 ProHLE31.6%-22.36source ↗· verified
13:40Claude Opus 4.6HLE34.4%-19.56source ↗· verified
13:40Claude Opus 4.7HLE36.2%-17.80source ↗· verified
13:40GPT-5.4HLE36.2%-17.76source ↗· verified
13:40Gemini 3 Pro PreviewHLE37.5%-16.48source ↗· verified
13:40GPT-5.4 ProHLE44.3%-9.68source ↗· verified
13:40Gemini 3.1 ProHLE46.4%-7.56source ↗· verified
13:27Gemini 3.1 ProLiveCodeBench Pro2887.00NEW SOTA+448.00source ↗· verified

2026-05-20 · 161 rows

09:38Qwen2.5-0.5BOpen PL LLM Leaderboard31.8%-60264.48source ↗· verified
09:38Qwen2.5-0.5BOpen PL LLM Leaderboard25.2%-60271.13source ↗· verified
09:38Qwen2.5-0.5BOpen PL LLM Leaderboard20.2%-60276.09source ↗· verified
09:38Qra-1bOpen PL LLM Leaderboard398.96-59897.34source ↗· verified
09:38Qra-1bOpen PL LLM Leaderboard19.2%-60277.06source ↗· verified
09:38Qra-1bOpen PL LLM Leaderboard27.0%-60269.28source ↗· verified
09:38Qra-1bOpen PL LLM Leaderboard23.9%-60272.44source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v3/10kOpen PL LLM Leaderboard43.2%-60253.08source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v3/10kOpen PL LLM Leaderboard24.1%-60272.20source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v3/10kOpen PL LLM Leaderboard20.5%-60275.79source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_2500Open PL LLM Leaderboard18.2%-60278.07source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_2500Open PL LLM Leaderboard22.6%-60273.66source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_2500Open PL LLM Leaderboard21.9%-60274.43source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_ext2l/base_it_2500Open PL LLM Leaderboard26.1%-60270.21source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_ext2l/base_it_2500Open PL LLM Leaderboard20.6%-60275.75source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_ext2l/base_it_2500Open PL LLM Leaderboard18.9%-60277.35source ↗· verified
09:38gemma-7bOpen PL LLM Leaderboard1783.20-58513.10source ↗· verified
09:38gemma-7bOpen PL LLM Leaderboard61.5%-60234.76source ↗· verified
09:38gemma-7bOpen PL LLM Leaderboard6.3%-60289.98source ↗· verified
09:38gemma-7bOpen PL LLM Leaderboard18.7%-60277.64source ↗· verified
09:38gemma-3-1b-itOpen PL LLM Leaderboard29.5%-60266.84source ↗· verified
09:38gemma-3-1b-itOpen PL LLM Leaderboard27.2%-60269.09source ↗· verified
09:38gemma-3-1b-itOpen PL LLM Leaderboard22.7%-60273.56source ↗· verified
09:38🚧RYS-Phi-3-medium-4k-instructOpen PL LLM Leaderboard45.0%-60251.26source ↗· verified
09:38🚧RYS-Phi-3-medium-4k-instructOpen PL LLM Leaderboard40.9%-60255.44source ↗· verified
09:38gemma-3-1b-ptOpen PL LLM Leaderboard35.8%-60260.54source ↗· verified
09:38gemma-3-1b-ptOpen PL LLM Leaderboard26.1%-60270.16source ↗· verified
09:38gemma-3-1b-ptOpen PL LLM Leaderboard18.5%-60277.79source ↗· verified
09:38chatglm3-6bOpen PL LLM Leaderboard32.6%-60263.65source ↗· verified
09:38chatglm3-6bOpen PL LLM Leaderboard15.2%-60281.09source ↗· verified
09:38granite-3.1-1b-a400m-instructOpen PL LLM Leaderboard24.9%-60271.37source ↗· verified
09:38granite-3.1-1b-a400m-instructOpen PL LLM Leaderboard25.5%-60270.79source ↗· verified
09:38granite-3.1-1b-a400m-instructOpen PL LLM Leaderboard28.8%-60267.53source ↗· verified
09:38HuggingFaceTB/SmolLM2-1.7B-InstructOpen PL LLM Leaderboard27.4%-60268.91source ↗· verified
09:38HuggingFaceTB/SmolLM2-1.7B-InstructOpen PL LLM Leaderboard29.8%-60266.47source ↗· verified
09:38HuggingFaceTB/SmolLM2-1.7B-InstructOpen PL LLM Leaderboard26.0%-60270.30source ↗· verified
09:38internlm2-1_8bOpen PL LLM Leaderboard60296.30NEW SOTA+44154.53source ↗· verified
09:38internlm2-1_8bOpen PL LLM Leaderboard16.4%-16125.36source ↗· verified
09:38internlm2-1_8bOpen PL LLM Leaderboard20.3%-16121.46source ↗· verified
09:38internlm2-1_8bOpen PL LLM Leaderboard22.0%-16119.76source ↗· verified
09:38gemma-7b-itOpen PL LLM Leaderboard53.0%-16088.75source ↗· verified
09:38gemma-7b-itOpen PL LLM Leaderboard14.0%-16127.73source ↗· verified
09:38gemma-7b-itOpen PL LLM Leaderboard21.0%-16120.78source ↗· verified
09:38internlm2-chat-1_8bOpen PL LLM Leaderboard21.3%-16120.43source ↗· verified
09:38internlm2-chat-1_8bOpen PL LLM Leaderboard22.6%-16119.18source ↗· verified
09:38internlm2-chat-1_8bOpen PL LLM Leaderboard21.9%-16119.90source ↗· verified
09:38plgchriso/models/smollm2_1.5B_apt4/base_it_3600Open PL LLM Leaderboard40.2%-16101.61source ↗· verified
09:38plgchriso/models/smollm2_1.5B_apt4/base_it_3600Open PL LLM Leaderboard21.6%-16120.20source ↗· verified
09:38plgchriso/models/smollm2_1.5B_apt4/base_it_3600Open PL LLM Leaderboard21.9%-16119.90source ↗· verified
09:38granite-3.1-3b-a800m-baseOpen PL LLM Leaderboard35.6%-16106.20source ↗· verified
09:38granite-3.1-3b-a800m-baseOpen PL LLM Leaderboard36.1%-16105.62source ↗· verified
09:38granite-3.1-3b-a800m-baseOpen PL LLM Leaderboard33.0%-16108.78source ↗· verified
09:38TildeOpen-30bOpen PL LLM Leaderboard7.5%-16134.24source ↗· verified
09:38TildeOpen-30bOpen PL LLM Leaderboard36.7%-16105.04source ↗· verified
09:38TildeOpen-30bOpen PL LLM Leaderboard7.0%-16134.82source ↗· verified
09:38EuroMoE-2.6B-A0.6B-Instruct-PreviewOpen PL LLM Leaderboard40.8%-16100.97source ↗· verified
09:38EuroMoE-2.6B-A0.6B-Instruct-PreviewOpen PL LLM Leaderboard32.2%-16109.55source ↗· verified
09:38EuroMoE-2.6B-A0.6B-Instruct-PreviewOpen PL LLM Leaderboard22.6%-16119.22source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_wechsel/base_it_5000Open PL LLM Leaderboard50.0%-16091.80source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_wechsel/base_it_5000Open PL LLM Leaderboard26.1%-16115.63source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_wechsel/base_it_5000Open PL LLM Leaderboard20.5%-16121.26source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/base_it_36000Open PL LLM Leaderboard51.2%-16090.57source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/base_it_36000Open PL LLM Leaderboard23.4%-16118.40source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/base_it_36000Open PL LLM Leaderboard22.1%-16119.71source ↗· verified
09:38plgchriso/models/llama3.2_1.5B/base_it_2600Open PL LLM Leaderboard42.8%-16098.94source ↗· verified
09:38plgchriso/models/llama3.2_1.5B/base_it_2600Open PL LLM Leaderboard24.3%-16117.52source ↗· verified
09:38plgchriso/models/llama3.2_1.5B/base_it_2600Open PL LLM Leaderboard22.5%-16119.27source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_1400Open PL LLM Leaderboard47.8%-16094.01source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_1400Open PL LLM Leaderboard27.6%-16114.17source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_1400Open PL LLM Leaderboard15.7%-16126.03source ↗· verified
09:38🚧gpt-3.5-turbo-instructOpen PL LLM Leaderboard65.7%-16076.03source ↗· verified
09:38🚧gpt-3.5-turbo-instructOpen PL LLM Leaderboard50.1%-16091.67source ↗· verified
09:38Llama-3.2-1BOpen PL LLM Leaderboard35.9%-16105.84source ↗· verified
09:38Llama-3.2-1BOpen PL LLM Leaderboard27.0%-16114.75source ↗· verified
09:38Llama-3.2-1BOpen PL LLM Leaderboard25.7%-16116.07source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v1/24kOpen PL LLM Leaderboard51.3%-16090.50source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v1/24kOpen PL LLM Leaderboard27.8%-16113.93source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v1/24kOpen PL LLM Leaderboard19.8%-16121.94source ↗· verified
09:38utter-project/EuroLLM-1.7B-InstructOpen PL LLM Leaderboard42.0%-16099.72source ↗· verified
09:38utter-project/EuroLLM-1.7B-InstructOpen PL LLM Leaderboard16.9%-16124.91source ↗· verified
09:38utter-project/EuroLLM-1.7B-InstructOpen PL LLM Leaderboard25.0%-16116.79source ↗· verified
09:38gemma-3-12b-ptOpen PL LLM Leaderboard56.0%-16085.75source ↗· verified
09:38gemma-3-12b-ptOpen PL LLM Leaderboard22.7%-16119.03source ↗· verified
09:38gemma-3-12b-ptOpen PL LLM Leaderboard20.0%-16121.80source ↗· verified
09:38plgchriso/models/smollm2_1.5B/base_it_2600Open PL LLM Leaderboard43.4%-16098.40source ↗· verified
09:38plgchriso/models/smollm2_1.5B/base_it_2600Open PL LLM Leaderboard29.7%-16112.03source ↗· verified
09:38plgchriso/models/smollm2_1.5B/base_it_2600Open PL LLM Leaderboard31.1%-16110.67source ↗· verified
09:38meta-llama/Llama-3.2-1B-InstructOpen PL LLM Leaderboard36.1%-16105.68source ↗· verified
09:38meta-llama/Llama-3.2-1B-InstructOpen PL LLM Leaderboard33.4%-16108.34source ↗· verified
09:38meta-llama/Llama-3.2-1B-InstructOpen PL LLM Leaderboard24.1%-16117.67source ↗· verified
09:38gemma-3n-E2BOpen PL LLM Leaderboard57.0%-16084.81source ↗· verified
09:38gemma-3n-E2BOpen PL LLM Leaderboard17.5%-16124.28source ↗· verified
09:38gemma-3n-E2BOpen PL LLM Leaderboard20.2%-16121.60source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_ext2l/base_it_3900Open PL LLM Leaderboard47.5%-16094.32source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_ext2l/base_it_3900Open PL LLM Leaderboard27.1%-16114.70source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_ext2l/base_it_3900Open PL LLM Leaderboard24.5%-16117.28source ↗· verified
09:38gemma-1.1-2b-itOpen PL LLM Leaderboard41.1%-16100.69source ↗· verified
09:38gemma-1.1-2b-itOpen PL LLM Leaderboard32.6%-16109.17source ↗· verified
09:38gemma-1.1-2b-itOpen PL LLM Leaderboard28.1%-16113.64source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_lra/base_it_5900Open PL LLM Leaderboard49.2%-16092.55source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_lra/base_it_5900Open PL LLM Leaderboard31.4%-16110.38source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_lra/base_it_5900Open PL LLM Leaderboard22.4%-16119.42source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_lra/base_it_5900_fixedOpen PL LLM Leaderboard49.2%-16092.55source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_lra/base_it_5900_fixedOpen PL LLM Leaderboard31.4%-16110.38source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_lra/base_it_5900_fixedOpen PL LLM Leaderboard22.4%-16119.42source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_5000Open PL LLM Leaderboard51.0%-16090.80source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_5000Open PL LLM Leaderboard26.8%-16115.00source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_5000Open PL LLM Leaderboard21.2%-16120.54source ↗· verified
09:38net/scratch/hscra/plgrid/plgflis/spichlerz/checkpoints/1b3aafd3-531c-47db-95be-f8a25e19007e/0.36000/hfOpen PL LLM Leaderboard51.3%-16090.45source ↗· verified
09:38net/scratch/hscra/plgrid/plgflis/spichlerz/checkpoints/1b3aafd3-531c-47db-95be-f8a25e19007e/0.36000/hfOpen PL LLM Leaderboard28.8%-16112.96source ↗· verified
09:38net/scratch/hscra/plgrid/plgflis/spichlerz/checkpoints/1b3aafd3-531c-47db-95be-f8a25e19007e/0.36000/hfOpen PL LLM Leaderboard21.3%-16120.49source ↗· verified
09:38h2o-danube3-4b-baseOpen PL LLM Leaderboard49.0%-16092.81source ↗· verified
09:38h2o-danube3-4b-baseOpen PL LLM Leaderboard38.2%-16103.58source ↗· verified
09:38h2o-danube3-4b-baseOpen PL LLM Leaderboard31.3%-16110.48source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_2500Open PL LLM Leaderboard50.8%-16090.94source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_2500Open PL LLM Leaderboard28.6%-16113.20source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_2500Open PL LLM Leaderboard21.4%-16120.34source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v2/10kOpen PL LLM Leaderboard49.9%-16091.91source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v2/10kOpen PL LLM Leaderboard28.0%-16113.73source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v2/10kOpen PL LLM Leaderboard21.4%-16120.39source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_wu2/base_it_1100Open PL LLM Leaderboard50.4%-16091.42source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_wu2/base_it_1100Open PL LLM Leaderboard27.6%-16114.17source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_wu2/base_it_1100Open PL LLM Leaderboard20.6%-16121.17source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v2/20kOpen PL LLM Leaderboard51.5%-16090.24source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v2/20kOpen PL LLM Leaderboard25.5%-16116.26source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_b3M/v2/20kOpen PL LLM Leaderboard21.2%-16120.58source ↗· verified
09:38granite-3.1-3b-a800m-instructOpen PL LLM Leaderboard46.7%-16095.10source ↗· verified
09:38granite-3.1-3b-a800m-instructOpen PL LLM Leaderboard32.0%-16109.80source ↗· verified
09:38granite-3.1-3b-a800m-instructOpen PL LLM Leaderboard38.1%-16103.63source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_3300Open PL LLM Leaderboard48.5%-16093.24source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_3300Open PL LLM Leaderboard32.8%-16109.02source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_3300Open PL LLM Leaderboard21.6%-16120.15source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_6000Open PL LLM Leaderboard47.4%-16094.37source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_6000Open PL LLM Leaderboard28.1%-16113.68source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4/base_it_6000Open PL LLM Leaderboard21.9%-16119.86source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_wu/base_it_6252_e0Open PL LLM Leaderboard49.9%-16091.86source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_wu/base_it_6252_e0Open PL LLM Leaderboard27.6%-16114.17source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_wu/base_it_6252_e0Open PL LLM Leaderboard22.3%-16119.52source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_wechsel/base_it_9000Open PL LLM Leaderboard50.2%-16091.53source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_wechsel/base_it_9000Open PL LLM Leaderboard28.5%-16113.30source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_wechsel/base_it_9000Open PL LLM Leaderboard18.8%-16123.01source ↗· verified
09:38gemma-3n-E4BOpen PL LLM Leaderboard61.1%-16080.65source ↗· verified
09:38gemma-3n-E4BOpen PL LLM Leaderboard22.2%-16119.56source ↗· verified
09:38gemma-3n-E4BOpen PL LLM Leaderboard20.5%-16121.31source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_9000Open PL LLM Leaderboard50.1%-16091.67source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_9000Open PL LLM Leaderboard28.8%-16113.00source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk/base_it_9000Open PL LLM Leaderboard21.9%-16119.86source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_9000Open PL LLM Leaderboard48.9%-16092.85source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_9000Open PL LLM Leaderboard27.5%-16114.27source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_9000Open PL LLM Leaderboard22.4%-16119.37source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra_wu/base_it_6252_e0Open PL LLM Leaderboard50.5%-16091.32source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra_wu/base_it_6252_e0Open PL LLM Leaderboard27.0%-16114.80source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra_wu/base_it_6252_e0Open PL LLM Leaderboard22.3%-16119.47source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra/base_it_9000Open PL LLM Leaderboard49.4%-16092.36source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra/base_it_9000Open PL LLM Leaderboard29.4%-16112.37source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra/base_it_9000Open PL LLM Leaderboard22.2%-16119.61source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra/base_it_5000Open PL LLM Leaderboard51.2%-16090.59source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra/base_it_5000Open PL LLM Leaderboard27.2%-16114.61source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l_lra/base_it_5000Open PL LLM Leaderboard21.3%-16120.44source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_5000Open PL LLM Leaderboard50.8%-16091.02source ↗· verified
09:38plgchriso/models/llama3.2_1.5B_apt4_focus-rk_ext2l/base_it_5000Open PL LLM Leaderboard26.7%-16115.09source ↗· verified

Showing the 200 most-recent rows. To inspect a single dataset’s history, append ?dataset=ID (e.g. /log?dataset=mmmu). Delta compares each row to the prior-best value on the same dataset at the moment this row was added. Hidden datasets and hidden models are not shown.