Evaluation
Kollektionen
Abschnitt betitelt „Kollektionen“Eine Kollektion ist eine Sammlung von Fragen, die du an KI-Modelle senden kannst. Jede Frage kann optional eine Referenzantwort (Ground Truth) enthalten, die als Vergleichsgrundlage für die automatische Bewertung dient.
Kollektion erstellen
Abschnitt betitelt „Kollektion erstellen“- Klicke auf Neue Kollektion
- Vergib einen Namen und optional eine Beschreibung
- Füge Fragen hinzu – pro Frage kannst du eine Referenzantwort hinterlegen
- Speichere die Kollektion
Kollektion bearbeiten
Abschnitt betitelt „Kollektion bearbeiten“Öffne eine bestehende Kollektion, um den Namen oder die Beschreibung zu bearbeiten oder diese zu entfernen. Du kannst die Fragen im Nachhinein nicht mehr bearbeiten, damit Durchläufe untereinander vergleichbar bleiben. Wenn du trotzdem Fragen hinzufügen willst, kannst du die Kollektion duplizieren und daraufhin etwaige Fragen hinzufügen oder aus der Kollektion entfernen.
Benchmark starten
Abschnitt betitelt „Benchmark starten“Ein Benchmark sendet alle Fragen einer Kollektion an einen Chatbot und wertet die Antworten aus.
Konfiguration
Abschnitt betitelt „Konfiguration“| Feld | Beschreibung |
|---|---|
| Ziel-Chatbot | Der Chatbot, an den die Fragen gesendet werden |
| Evaluierungs-Modelle | Die KI-Modelle, die für die Auswertung verwendet werden |
Modi pro Modell
Abschnitt betitelt „Modi pro Modell“Für jedes ausgewählte Modell kannst du einen oder beide Modi aktivieren:
- Standard – Normale Auswertung
- Deep Research – Nutzt erweiterte logische Fähigkeiten der Modelle (wie O1 oder R1) für eine strengere Auswertung
Deep Research steht nur zur Verfügung, wenn der ausgewählte Chatbot dies unterstützt.
Benchmark-Ergebnisse
Abschnitt betitelt „Benchmark-Ergebnisse“Nach Abschluss eines Benchmarks kannst du die Ergebnisse in zwei Tabs einsehen:
Tab: Allgemeine Informationen
Abschnitt betitelt „Tab: Allgemeine Informationen“Dieser Tab zeigt Metadaten und Statistiken zum Durchlauf.
Ergebnis-Übersicht (Doughnut-Diagramm)
Abschnitt betitelt „Ergebnis-Übersicht (Doughnut-Diagramm)“Ein Kreisdiagramm, das die Antworten in vier Kategorien einteilt:
| Kategorie | Beschreibung |
|---|---|
| Exzellent (> 70 %) | Antworten mit einem kombinierten Score über 70 % |
| Teilweise (30 % – 70 %) | Antworten mit einem mittleren Score |
| Schlecht (< 30 %) | Antworten mit einem niedrigen Score |
| Fehlgeschlagen | Antworten, bei denen ein Fehler aufgetreten ist |
Score-Aufschlüsselung
Abschnitt betitelt „Score-Aufschlüsselung“Dieser Bereich zeigt drei Kennzahlen:
| Kennzahl | Beschreibung |
|---|---|
| Ø Ähnlichkeit | Durchschnittliche Ähnlichkeit zwischen Modellantwort und Referenzantwort |
| Nutzerbewertung | Anzahl der positiven, negativen und fehlenden Bewertungen |
| Ø Kombinierter Score | Durchschnitt aus Ähnlichkeits-Score und Nutzerbewertung (siehe unten) |
Fragen & Antworten
Abschnitt betitelt „Fragen & Antworten“Zeigt die Gesamtzahl der Fragen, den Anteil mit Referenzantworten und die Gesamtzahl der Antworten.
Durchlauf-Metadaten
Abschnitt betitelt „Durchlauf-Metadaten“| Feld | Beschreibung |
|---|---|
| Status | Aktueller Status des Durchlaufs (Abgeschlossen, Fehlgeschlagen, Läuft, etc.) |
| Gestartet am | Zeitpunkt des Benchmark-Starts |
| Geendet am | Zeitpunkt des Benchmark-Endes |
| Getestete Modelle | Liste der verwendeten Modelle mit Konfiguration |
Tab: Ergebnisse & Vergleich
Abschnitt betitelt „Tab: Ergebnisse & Vergleich“Eine Tabelle mit allen Fragen und den zugehörigen Scores pro Modell. Für jedes Modell werden zwei Spalten angezeigt:
- Standard – Score der normalen Auswertung
- Deep Research – Score der erweiterten Auswertung
Klicke auf eine Zeile, um den Fragen-Inspektor zu öffnen.
Fragen-Inspektor (Vergleichsansicht)
Abschnitt betitelt „Fragen-Inspektor (Vergleichsansicht)“Im Fragen-Inspektor kannst du die Antworten verschiedener Modelle direkt nebeneinander vergleichen.
Modelle anpinnen
Abschnitt betitelt „Modelle anpinnen“Oben siehst du alle verfügbaren Modelle und die Referenzantwort als Badges. Klicke auf ein Badge, um es anzupinnen oder zu entfernen. Angepinnte Modelle werden als Karten nebeneinander angezeigt.
Nutzerbewertung abgeben
Abschnitt betitelt „Nutzerbewertung abgeben“Neben jedem Modell-Namen findest du zwei Buttons:
| Button | Bedeutung | Wert |
|---|---|---|
| Daumen hoch | Die Antwort ist gut / korrekt | 1 |
| Daumen runter | Die Antwort ist schlecht / falsch | 0 |
- Klicke auf einen Button, um deine Bewertung abzugeben
- Klicke erneut auf den aktiven Button, um die Bewertung zurückzunehmen
- Bewertungen werden sofort gespeichert
Die Referenzantwort (Ground Truth) kann nicht bewertet werden – nur Modellantworten.
Score-Berechnung
Abschnitt betitelt „Score-Berechnung“Jede Modellantwort kann bis zu zwei Bewertungen erhalten: einen automatischen Ähnlichkeits-Score und eine manuelle Nutzerbewertung. Daraus wird ein kombinierter Score berechnet.
Ähnlichkeits-Score
Abschnitt betitelt „Ähnlichkeits-Score“Wird automatisch berechnet und misst, wie nah die Modellantwort an der Referenzantwort liegt. Der Wert liegt zwischen 0 % (keine Übereinstimmung) und 100 % (perfekte Übereinstimmung).
Für Fragen ohne Referenzantwort kann kein Ähnlichkeits-Score berechnet werden.
Nutzerbewertung
Abschnitt betitelt „Nutzerbewertung“Die manuelle Bewertung durch Daumen hoch (= 1) oder Daumen runter (= 0). Ohne Bewertung wird nur der Ähnlichkeits-Score verwendet.
Kombinierter Score
Abschnitt betitelt „Kombinierter Score“Der kombinierte Score ist der Durchschnitt aus Ähnlichkeits-Score und Nutzerbewertung:
Kombinierter Score = (Ähnlichkeits-Score + Nutzerbewertung) / 2Beispiele:
| Szenario | Ähnlichkeit | Bewertung | Kombinierter Score |
|---|---|---|---|
| Gute Antwort, positiv bewertet | 0.87 | 1 | 93 % |
| Gute Antwort, negativ bewertet | 0.87 | 0 | 44 % |
| Gute Antwort, ohne Bewertung | 0.87 | – | 87 % (nur Ähnlichkeit) |
| Schlechte Antwort, positiv bewertet | 0.20 | 1 | 60 % |
Wenn keine Nutzerbewertung vorliegt, wird nur der Ähnlichkeits-Score als Score angezeigt.
Der kombinierte Score wird überall dort verwendet, wo Scores angezeigt werden:
- Fragen-Inspektor – Score-Chip pro Modell
- Ergebnistabelle – Spalten „Standard” und „Deep Research”
- Allgemeine Informationen – Score-Aufschlüsselung
- Kollektions-Übersicht und Run-Liste – Durchschnittlicher Score
Farbliche Einordnung
Abschnitt betitelt „Farbliche Einordnung“Scores werden farblich hervorgehoben:
| Farbe | Bereich |
|---|---|
| Grün | > 70 % |
| Gelb | 30 % – 70 % |
| Rot | < 30 % |
Run-Liste
Abschnitt betitelt „Run-Liste“Die Run-Liste zeigt alle bisherigen Benchmark-Durchläufe einer Kollektion. Pro Durchlauf siehst du:
| Spalte | Beschreibung |
|---|---|
| Kollektion | Name der zugehörigen Kollektion |
| Status | Aktueller Status (Abgeschlossen, Läuft, Fehlgeschlagen, etc.) |
| Score | Durchschnittlicher kombinierter Score aller Antworten |
| Datum | Zeitpunkt des Durchlaufs |
| Aktionen | Laufende Durchläufe können abgebrochen werden |
Klicke auf einen Durchlauf, um die detaillierten Ergebnisse zu öffnen.