benchmark
Czy model językowy rozumie polskie sprawy urzędowe na tyle, by doradzić właściwy następny krok? Administracja, podatki, ZUS, e‑government, rejestry i pisma — nie quiz ze słówek, lecz realne mikro‑przypadki.
A benchmark for Polish administrative / tax / ZUS / e‑government reasoning in LLMs.
Wynik ważony na pełnym zestawie (waga = trudność × ryzyko domeny). Wyższy = lepiej.
Mocne i słabe strony w każdym obszarze. Komórki kolorowane od koralowego (słabo) do miętowego (mocno).
Osiem rodzin zadań — od klasyfikacji pism po przepisywanie pism obywatela na język urzędowy.
Wszystkie pozycje benchmarku. Kliknij sprawę, aby zobaczyć treść, wzorzec (gold) i odpowiedzi modeli.
Każda pozycja jest punktowana od 0 do 1 metodą deterministyczną — celem jest praktyczna niezawodność, nie uroda prozy. Wynik ważony to średnia ważona wagą pozycji (trudność × ryzyko domeny).
document_classification — rozpoznaj pismo i jego skutek.remedy_selection — wskaż właściwy środek / następny krok.term_disambiguation — rozróżnij mylone pary pojęć.form_symbol_extraction — wyłuskaj symbole formularzy, okresy, terminy.organ_competence — wskaż właściwy organ.abbreviation_expansion — rozwiń skrót i powiedz, czym nie jest.deadline_reasoning — interpretuj terminy bez nadinterpretacji.style_transformation — przepisz pismo obywatela bez zmyślania podstaw prawnych.git clone https://github.com/kwikiel/ZusWaveBench cd ZusWaveBench python3 scripts/validate_dataset.py export OPENAI_API_KEY="…" OPENAI_MODEL="…" python3 scripts/run_openai_compat.py --output results/run.jsonl python3 scripts/evaluate.py --predictions results/run.jsonl --report results/run_report.md