Zum Inhalt springen

Evaluation

Eine Kollektion ist eine Sammlung von Fragen, die du an KI-Modelle senden kannst. Jede Frage kann optional eine Referenzantwort (Ground Truth) enthalten, die als Vergleichsgrundlage für die automatische Bewertung dient.

  1. Klicke auf Neue Kollektion
  2. Vergib einen Namen und optional eine Beschreibung
  3. Füge Fragen hinzu – pro Frage kannst du eine Referenzantwort hinterlegen
  4. Speichere die Kollektion

Öffne eine bestehende Kollektion, um den Namen oder die Beschreibung zu bearbeiten oder diese zu entfernen. Du kannst die Fragen im Nachhinein nicht mehr bearbeiten, damit Durchläufe untereinander vergleichbar bleiben. Wenn du trotzdem Fragen hinzufügen willst, kannst du die Kollektion duplizieren und daraufhin etwaige Fragen hinzufügen oder aus der Kollektion entfernen.


Ein Benchmark sendet alle Fragen einer Kollektion an einen Chatbot und wertet die Antworten aus.

FeldBeschreibung
Ziel-ChatbotDer Chatbot, an den die Fragen gesendet werden
Evaluierungs-ModelleDie KI-Modelle, die für die Auswertung verwendet werden

Für jedes ausgewählte Modell kannst du einen oder beide Modi aktivieren:

  • Standard – Normale Auswertung
  • Deep Research – Nutzt erweiterte logische Fähigkeiten der Modelle (wie O1 oder R1) für eine strengere Auswertung

Deep Research steht nur zur Verfügung, wenn der ausgewählte Chatbot dies unterstützt.


Nach Abschluss eines Benchmarks kannst du die Ergebnisse in zwei Tabs einsehen:

Dieser Tab zeigt Metadaten und Statistiken zum Durchlauf.

Ein Kreisdiagramm, das die Antworten in vier Kategorien einteilt:

KategorieBeschreibung
Exzellent (> 70 %)Antworten mit einem kombinierten Score über 70 %
Teilweise (30 % – 70 %)Antworten mit einem mittleren Score
Schlecht (< 30 %)Antworten mit einem niedrigen Score
FehlgeschlagenAntworten, bei denen ein Fehler aufgetreten ist

Dieser Bereich zeigt drei Kennzahlen:

KennzahlBeschreibung
Ø ÄhnlichkeitDurchschnittliche Ähnlichkeit zwischen Modellantwort und Referenzantwort
NutzerbewertungAnzahl der positiven, negativen und fehlenden Bewertungen
Ø Kombinierter ScoreDurchschnitt aus Ähnlichkeits-Score und Nutzerbewertung (siehe unten)

Zeigt die Gesamtzahl der Fragen, den Anteil mit Referenzantworten und die Gesamtzahl der Antworten.

FeldBeschreibung
StatusAktueller Status des Durchlaufs (Abgeschlossen, Fehlgeschlagen, Läuft, etc.)
Gestartet amZeitpunkt des Benchmark-Starts
Geendet amZeitpunkt des Benchmark-Endes
Getestete ModelleListe der verwendeten Modelle mit Konfiguration

Eine Tabelle mit allen Fragen und den zugehörigen Scores pro Modell. Für jedes Modell werden zwei Spalten angezeigt:

  • Standard – Score der normalen Auswertung
  • Deep Research – Score der erweiterten Auswertung

Klicke auf eine Zeile, um den Fragen-Inspektor zu öffnen.


Im Fragen-Inspektor kannst du die Antworten verschiedener Modelle direkt nebeneinander vergleichen.

Oben siehst du alle verfügbaren Modelle und die Referenzantwort als Badges. Klicke auf ein Badge, um es anzupinnen oder zu entfernen. Angepinnte Modelle werden als Karten nebeneinander angezeigt.

Neben jedem Modell-Namen findest du zwei Buttons:

ButtonBedeutungWert
Daumen hochDie Antwort ist gut / korrekt1
Daumen runterDie Antwort ist schlecht / falsch0
  • Klicke auf einen Button, um deine Bewertung abzugeben
  • Klicke erneut auf den aktiven Button, um die Bewertung zurückzunehmen
  • Bewertungen werden sofort gespeichert

Die Referenzantwort (Ground Truth) kann nicht bewertet werden – nur Modellantworten.


Jede Modellantwort kann bis zu zwei Bewertungen erhalten: einen automatischen Ähnlichkeits-Score und eine manuelle Nutzerbewertung. Daraus wird ein kombinierter Score berechnet.

Wird automatisch berechnet und misst, wie nah die Modellantwort an der Referenzantwort liegt. Der Wert liegt zwischen 0 % (keine Übereinstimmung) und 100 % (perfekte Übereinstimmung).

Für Fragen ohne Referenzantwort kann kein Ähnlichkeits-Score berechnet werden.

Die manuelle Bewertung durch Daumen hoch (= 1) oder Daumen runter (= 0). Ohne Bewertung wird nur der Ähnlichkeits-Score verwendet.

Der kombinierte Score ist der Durchschnitt aus Ähnlichkeits-Score und Nutzerbewertung:

Kombinierter Score = (Ähnlichkeits-Score + Nutzerbewertung) / 2

Beispiele:

SzenarioÄhnlichkeitBewertungKombinierter Score
Gute Antwort, positiv bewertet0.87193 %
Gute Antwort, negativ bewertet0.87044 %
Gute Antwort, ohne Bewertung0.8787 % (nur Ähnlichkeit)
Schlechte Antwort, positiv bewertet0.20160 %

Wenn keine Nutzerbewertung vorliegt, wird nur der Ähnlichkeits-Score als Score angezeigt.

Der kombinierte Score wird überall dort verwendet, wo Scores angezeigt werden:

  • Fragen-Inspektor – Score-Chip pro Modell
  • Ergebnistabelle – Spalten „Standard” und „Deep Research”
  • Allgemeine Informationen – Score-Aufschlüsselung
  • Kollektions-Übersicht und Run-Liste – Durchschnittlicher Score

Scores werden farblich hervorgehoben:

FarbeBereich
Grün> 70 %
Gelb30 % – 70 %
Rot< 30 %

Die Run-Liste zeigt alle bisherigen Benchmark-Durchläufe einer Kollektion. Pro Durchlauf siehst du:

SpalteBeschreibung
KollektionName der zugehörigen Kollektion
StatusAktueller Status (Abgeschlossen, Läuft, Fehlgeschlagen, etc.)
ScoreDurchschnittlicher kombinierter Score aller Antworten
DatumZeitpunkt des Durchlaufs
AktionenLaufende Durchläufe können abgebrochen werden

Klicke auf einen Durchlauf, um die detaillierten Ergebnisse zu öffnen.