← Codesota

benchmark

ZUSWAVE ZUSWAVE

Czy model językowy rozumie polskie sprawy urzędowe na tyle, by doradzić właściwy następny krok? Administracja, podatki, ZUS, e‑government, rejestry i pisma — nie quiz ze słówek, lecz realne mikro‑przypadki.

A benchmark for Polish administrative / tax / ZUS / e‑government reasoning in LLMs.

🏆Tablica wyników — ZUSWAVE.exe
_×

Tablica wyników

Wynik ważony na pełnym zestawie (waga = trudność × ryzyko domeny). Wyższy = lepiej.

🗂️Wyniki wg domeny
_×

Według domeny

Mocne i słabe strony w każdym obszarze. Komórki kolorowane od koralowego (słabo) do miętowego (mocno).

🧩Wyniki wg typu zadania
_×

Według typu zadania

Osiem rodzin zadań — od klasyfikacji pism po przepisywanie pism obywatela na język urzędowy.

📂Przeglądarka przypadków — Moje dokumenty
_×

Przeglądarka przypadków

Wszystkie pozycje benchmarku. Kliknij sprawę, aby zobaczyć treść, wzorzec (gold) i odpowiedzi modeli.

📐Metodologia i punktacja
_×

Jak liczymy wynik

Każda pozycja jest punktowana od 0 do 1 metodą deterministyczną — celem jest praktyczna niezawodność, nie uroda prozy. Wynik ważony to średnia ważona wagą pozycji (trudność × ryzyko domeny).

Rodziny zadań

  • document_classification — rozpoznaj pismo i jego skutek.
  • remedy_selection — wskaż właściwy środek / następny krok.
  • term_disambiguation — rozróżnij mylone pary pojęć.
  • form_symbol_extraction — wyłuskaj symbole formularzy, okresy, terminy.
  • organ_competence — wskaż właściwy organ.
  • abbreviation_expansion — rozwiń skrót i powiedz, czym nie jest.
  • deadline_reasoning — interpretuj terminy bez nadinterpretacji.
  • style_transformation — przepisz pismo obywatela bez zmyślania podstaw prawnych.

Odtwórz wyniki

git clone https://github.com/kwikiel/ZusWaveBench
cd ZusWaveBench
python3 scripts/validate_dataset.py
export OPENAI_API_KEY="…"  OPENAI_MODEL="…"
python3 scripts/run_openai_compat.py --output results/run.jsonl
python3 scripts/evaluate.py --predictions results/run.jsonl --report results/run_report.md
🪟ZusWave
--:--