ZusWaveBench

ｂｅｎｃｈｍａｒｋ

Czy model językowy rozumie polskie sprawy urzędowe na tyle, by doradzić właściwy następny krok? Administracja, podatki, ZUS, e‑government, rejestry i pisma — nie quiz ze słówek, lecz realne mikro‑przypadki.

A benchmark for Polish administrative / tax / ZUS / e‑government reasoning in LLMs.

🏆Tablica wyników — ZUSWAVE.exe

_□×

Tablica wyników

Wynik ważony na pełnym zestawie (waga = trudność × ryzyko domeny). Wyższy = lepiej.

🗂️Wyniki wg domeny

_□×

Według domeny

Mocne i słabe strony w każdym obszarze. Komórki kolorowane od koralowego (słabo) do miętowego (mocno).

🧩Wyniki wg typu zadania

_□×

Według typu zadania

Osiem rodzin zadań — od klasyfikacji pism po przepisywanie pism obywatela na język urzędowy.

📂Przeglądarka przypadków — Moje dokumenty

_□×

Przeglądarka przypadków

Wszystkie pozycje benchmarku. Kliknij sprawę, aby zobaczyć treść, wzorzec (gold) i odpowiedzi modeli.

Domena

Zadanie

Sortuj

Szukaj w treści

📐Metodologia i punktacja

_□×

Jak liczymy wynik

Każda pozycja jest punktowana od 0 do 1 metodą deterministyczną — celem jest praktyczna niezawodność, nie uroda prozy. Wynik ważony to średnia ważona wagą pozycji (trudność × ryzyko domeny).

Rodziny zadań

document_classification — rozpoznaj pismo i jego skutek.
remedy_selection — wskaż właściwy środek / następny krok.
term_disambiguation — rozróżnij mylone pary pojęć.
form_symbol_extraction — wyłuskaj symbole formularzy, okresy, terminy.
organ_competence — wskaż właściwy organ.
abbreviation_expansion — rozwiń skrót i powiedz, czym nie jest.
deadline_reasoning — interpretuj terminy bez nadinterpretacji.
style_transformation — przepisz pismo obywatela bez zmyślania podstaw prawnych.

Odtwórz wyniki

git clone https://github.com/kwikiel/ZusWaveBench
cd ZusWaveBench
python3 scripts/validate_dataset.py
export OPENAI_API_KEY="…"  OPENAI_MODEL="…"
python3 scripts/run_openai_compat.py --output results/run.jsonl
python3 scripts/evaluate.py --predictions results/run.jsonl --report results/run_report.md