Evaluation

Kollektionen

Eine Kollektion ist eine Sammlung von Fragen, die du an KI-Modelle senden kannst. Jede Frage kann optional eine Referenzantwort (Ground Truth) enthalten, die als Vergleichsgrundlage für die automatische Bewertung dient.

Kollektion erstellen

Klicke auf Neue Kollektion
Vergib einen Namen und optional eine Beschreibung
Füge Fragen hinzu – pro Frage kannst du eine Referenzantwort hinterlegen
Speichere die Kollektion

Kollektion bearbeiten

Öffne eine bestehende Kollektion, um den Namen oder die Beschreibung zu bearbeiten oder diese zu entfernen. Du kannst die Fragen im Nachhinein nicht mehr bearbeiten, damit Durchläufe untereinander vergleichbar bleiben. Wenn du trotzdem Fragen hinzufügen willst, kannst du die Kollektion duplizieren und daraufhin etwaige Fragen hinzufügen oder aus der Kollektion entfernen.

Benchmark starten

Ein Benchmark sendet alle Fragen einer Kollektion an einen Chatbot und wertet die Antworten aus.

Konfiguration

Feld	Beschreibung
Ziel-Chatbot	Der Chatbot, an den die Fragen gesendet werden
Evaluierungs-Modelle	Die KI-Modelle, die für die Auswertung verwendet werden

Modi pro Modell

Für jedes ausgewählte Modell kannst du einen oder beide Modi aktivieren:

Standard – Normale Auswertung
Deep Research – Nutzt erweiterte logische Fähigkeiten der Modelle (wie O1 oder R1) für eine strengere Auswertung

Deep Research steht nur zur Verfügung, wenn der ausgewählte Chatbot dies unterstützt.

Benchmark-Ergebnisse

Nach Abschluss eines Benchmarks kannst du die Ergebnisse in zwei Tabs einsehen:

Tab: Allgemeine Informationen

Dieser Tab zeigt Metadaten und Statistiken zum Durchlauf.

Ergebnis-Übersicht (Doughnut-Diagramm)

Ein Kreisdiagramm, das die Antworten in vier Kategorien einteilt:

Kategorie	Beschreibung
Exzellent (> 70 %)	Antworten mit einem kombinierten Score über 70 %
Teilweise (30 % – 70 %)	Antworten mit einem mittleren Score
Schlecht (< 30 %)	Antworten mit einem niedrigen Score
Fehlgeschlagen	Antworten, bei denen ein Fehler aufgetreten ist

Score-Aufschlüsselung

Dieser Bereich zeigt drei Kennzahlen:

Kennzahl	Beschreibung
Ø Ähnlichkeit	Durchschnittliche Ähnlichkeit zwischen Modellantwort und Referenzantwort
Nutzerbewertung	Anzahl der positiven, negativen und fehlenden Bewertungen
Ø Kombinierter Score	Durchschnitt aus Ähnlichkeits-Score und Nutzerbewertung (siehe unten)

Fragen & Antworten

Zeigt die Gesamtzahl der Fragen, den Anteil mit Referenzantworten und die Gesamtzahl der Antworten.

Durchlauf-Metadaten

Feld	Beschreibung
Status	Aktueller Status des Durchlaufs (Abgeschlossen, Fehlgeschlagen, Läuft, etc.)
Gestartet am	Zeitpunkt des Benchmark-Starts
Geendet am	Zeitpunkt des Benchmark-Endes
Getestete Modelle	Liste der verwendeten Modelle mit Konfiguration

Tab: Ergebnisse & Vergleich

Eine Tabelle mit allen Fragen und den zugehörigen Scores pro Modell. Für jedes Modell werden zwei Spalten angezeigt:

Standard – Score der normalen Auswertung
Deep Research – Score der erweiterten Auswertung

Klicke auf eine Zeile, um den Fragen-Inspektor zu öffnen.

Fragen-Inspektor (Vergleichsansicht)

Im Fragen-Inspektor kannst du die Antworten verschiedener Modelle direkt nebeneinander vergleichen.

Modelle anpinnen

Oben siehst du alle verfügbaren Modelle und die Referenzantwort als Badges. Klicke auf ein Badge, um es anzupinnen oder zu entfernen. Angepinnte Modelle werden als Karten nebeneinander angezeigt.

Nutzerbewertung abgeben

Neben jedem Modell-Namen findest du zwei Buttons:

Button	Bedeutung	Wert
Daumen hoch	Die Antwort ist gut / korrekt	1
Daumen runter	Die Antwort ist schlecht / falsch	0

Klicke auf einen Button, um deine Bewertung abzugeben
Klicke erneut auf den aktiven Button, um die Bewertung zurückzunehmen
Bewertungen werden sofort gespeichert

Die Referenzantwort (Ground Truth) kann nicht bewertet werden – nur Modellantworten.

Score-Berechnung

Jede Modellantwort kann bis zu zwei Bewertungen erhalten: einen automatischen Ähnlichkeits-Score und eine manuelle Nutzerbewertung. Daraus wird ein kombinierter Score berechnet.

Ähnlichkeits-Score

Wird automatisch berechnet und misst, wie nah die Modellantwort an der Referenzantwort liegt. Der Wert liegt zwischen 0 % (keine Übereinstimmung) und 100 % (perfekte Übereinstimmung).

Für Fragen ohne Referenzantwort kann kein Ähnlichkeits-Score berechnet werden.

Nutzerbewertung

Die manuelle Bewertung durch Daumen hoch (= 1) oder Daumen runter (= 0). Ohne Bewertung wird nur der Ähnlichkeits-Score verwendet.

Kombinierter Score

Der kombinierte Score ist der Durchschnitt aus Ähnlichkeits-Score und Nutzerbewertung:

Kombinierter Score = (Ähnlichkeits-Score + Nutzerbewertung) / 2

Beispiele:

Szenario	Ähnlichkeit	Bewertung	Kombinierter Score
Gute Antwort, positiv bewertet	0.87	1	93 %
Gute Antwort, negativ bewertet	0.87	0	44 %
Gute Antwort, ohne Bewertung	0.87	–	87 % (nur Ähnlichkeit)
Schlechte Antwort, positiv bewertet	0.20	1	60 %

Wenn keine Nutzerbewertung vorliegt, wird nur der Ähnlichkeits-Score als Score angezeigt.

Der kombinierte Score wird überall dort verwendet, wo Scores angezeigt werden:

Fragen-Inspektor – Score-Chip pro Modell
Ergebnistabelle – Spalten „Standard” und „Deep Research”
Allgemeine Informationen – Score-Aufschlüsselung
Kollektions-Übersicht und Run-Liste – Durchschnittlicher Score

Farbliche Einordnung

Scores werden farblich hervorgehoben:

Farbe	Bereich
Grün	> 70 %
Gelb	30 % – 70 %
Rot	< 30 %

Run-Liste

Die Run-Liste zeigt alle bisherigen Benchmark-Durchläufe einer Kollektion. Pro Durchlauf siehst du:

Spalte	Beschreibung
Kollektion	Name der zugehörigen Kollektion
Status	Aktueller Status (Abgeschlossen, Läuft, Fehlgeschlagen, etc.)
Score	Durchschnittlicher kombinierter Score aller Antworten
Datum	Zeitpunkt des Durchlaufs
Aktionen	Laufende Durchläufe können abgebrochen werden

Klicke auf einen Durchlauf, um die detaillierten Ergebnisse zu öffnen.