Warum Sprachmodelle halluzinieren – und wie wir sie ehrlicher machen können

The Statistical Roots of LLM Hallucinations. Eine Untersuchung von OpenAI
Warum KI »halluziniert«: Ein Blick hinter die Kulissen von Sprachmodellen
1. Die KI als übereifriger Studierender in einer Prüfung
Stellen Sie sich einen Studierenden in einer wichtigen Prüfung vor. Bei einer schwierigen Frage, deren Antwort er nicht kennt, steht er vor einer Wahl: Gibt er zu, dass er es nicht weiß, oder rät er eine Antwort, die plausibel klingt, in der Hoffnung, ein paar Punkte zu ergattern? Sprachmodelle wie ChatGPT verhalten sich oft wie dieser übereifrige Studierende – sie ziehen es vor, eine überzeugend klingende, aber falsche Antwort zu erfinden, anstatt ihre Wissenslücke einzugestehen.
Dieses Phänomen wird als »Halluzination« bezeichnet: Die KI erfindet Informationen, die plausibel klingen, aber faktisch falsch sind.
Betrachten Sie dieses Rätsel als Einstieg: Als ein modernes Sprachmodell dreimal nach dem Geburtstag des Wissenschaftlers »Adam Tauman Kalai« gefragt wurde, gab es drei verschiedene, aber jedes Mal falsche Antworten:
• »03-07«
• »15-06«
• »01-01«
Warum passiert das? Dieses Verhalten ist kein mysteriöser Fehler, sondern eine direkte Folge davon, wie diese Modelle gebaut und bewertet werden. Die Ursachen lassen sich auf zwei Hauptgründe zurückführen: die Art des Trainings und die Art der Bewertung.
2. Ursache 1
Wie Training das Raten fördert
Der erste Grund für Halluzinationen liegt in der grundlegenden Trainingsphase, dem sogenannten Pretraining. In dieser Phase lernt das Modell die Muster der menschlichen Sprache, indem es riesige Mengen an Texten aus dem Internet analysiert. Die zentrale Herausforderung dabei lässt sich auf ein einfacheres Problem reduzieren, das Forscher als »Is-It-Valid« (IIV)-Klassifikationsproblem bezeichnen. Im Kern muss das Modell für jede mögliche Aussage eine binäre Entscheidung treffen: Ist diese Aussage »gültig« oder ein »Fehler«?
Die Fähigkeit eines Modells, korrekte Sätze zu generieren, hängt direkt davon ab, wie gut es diese implizite Klassifizierungsaufgabe löst. Zwei Faktoren machen dies besonders schwierig und fördern das Raten:
A. Willkürliche Fakten ohne Muster
Fakten wie Geburtsdaten oder spezifische Titel von weniger bekannten Personen kommen oft nur ein einziges Mal in den Trainingsdaten vor. Solche einzigartigen Informationen werden als »Singletons« bezeichnet.
◦ Das Problem aus IIV-Sicht
Wenn ein Fakt nur einmal auftaucht, hat das Modell eine unzureichende Datengrundlage, um eine klare Regel für seinen internen IIV-Klassifikator zu lernen. Jede Aussage über die Gültigkeit dieses Fakts wird zu einem Münzwurf mit geringer Sicherheit.
◦ Folge
Bei Fragen zu solchen Fakten ist das Modell gezwungen zu raten. Die Verbindung ist so direkt, dass die Forschung eine klare Untergrenze formuliert: Die Halluzinationsrate nach dem Training sollte mindestens dem Anteil der Fakten entsprechen, die nur einmal in den Trainingsdaten vorkommen.
B. Unpassende »Denkwerkzeuge«
Manchmal fehlt dem Modell die richtige interne Struktur, um eine Frage logisch zu beantworten, selbst wenn die Informationen vorhanden sind. Das liegt daran, dass Sprachmodelle nicht in Buchstaben, sondern in Wortteilen, sogenannten »Tokens«, denken.
◦ Das Problem aus IIV-Sicht
Für bestimmte Klassifizierungsaufgaben ist die tokenbasierte Architektur ein »schlechtes Modell« – so, als würde man Studierenden nur ein Einmaleins geben, um eine Infinitesimalrechnung zu lösen.
◦ Beispiel
Auf die einfache Frage »Wie viele Ds sind in DEEPSEEK?« scheitern selbst modernste Modelle. Das Modell DeepSeek-V3 antwortete »2« oder »3«, während andere führende Modelle wie Meta AI und Claude 3.7 Sonnet sogar Antworten wie »6« oder »7« lieferten. Sie können die Buchstaben nicht zählen, weil sie das Wort in Tokens wie D / EEP / SEE / K zerlegen, was für die Aufgabe, einzelne Buchstaben zu zählen, das falsche Werkzeug ist.
Diese angeborene Tendenz zum Raten, die aus dem Training resultiert, wird durch die Art und Weise, wie die Modelle anschließend bewertet werden, noch weiter verstärkt.
3. Ursache 2
Warum sich Raten für die KI lohnt
Zurück zur Analogie der Studierenden in der Prüfung: Sprachmodelle werden, genau wie Studierende, für Tests (sogenannte Benchmarks) »optimiert«, die ihre Leistung messen sollen. Das Kernproblem liegt darin, wie diese Tests bewertet werden.
Die meisten KI-Bewertungen verwenden ein binäres Bewertungsschema:
• 1 Punkt für eine richtige Antwort.
• 0 Punkte für eine falsche Antwort.
• 0 Punkte für eine ehrliche Antwort wie »Ich weiß es nicht« (IDK).
Diese Anreizstruktur macht das Raten zur statistisch besten Strategie, um die Gesamtpunktzahl zu maximieren. Die folgende Tabelle verdeutlicht die Logik aus Sicht des Modells:
Das System bestraft also Unsicherheit und belohnt das Raten. Forscher bezeichnen dies als eine »Epidemie der Bestrafung von Unsicherheit«. Solange die Modelle darauf trainiert werden, in diesen Tests gut abzuschneiden, werden sie weiterhin halluzinieren, weil es sich für sie lohnt.
4. Fazit: Ein hausgemachtes Problem und wie wir es lösen können
KI-Halluzinationen sind kein unvermeidliches Schicksal, sondern ein größtenteils hausgemachtes Problem. Die Ursachen sind klar:
A. Die statistische Natur des Trainings macht Modelle anfällig für Fehler, insbesondere bei seltenen oder musterlosen Fakten.
B. Die gängigen Bewertungsmethoden belohnen das Raten und bestrafen ehrliche Eingeständnisse von Unsicherheit.
Die Lösung liegt darin, die »Spielregeln« der KI-Tests zu ändern. Ein vielversprechender Ansatz ist die Einführung von Minuspunkten für falsche Antworten, ähnlich wie bei einigen standardisierten Tests für Menschen. Der entscheidende Punkt dabei ist jedoch, die Modelle über diese Regeln zu informieren. Indem man dem Modell in den Anweisungen den Schwellenwert für das Vertrauen explizit mitteilt (z. B. »Antworte nur, wenn du zu über 75 % sicher bist, da falsche Antworten bestraft werden«), kann es eine strategisch kluge Entscheidung treffen, wann es sich lohnt zu raten und wann ein ehrliches »Ich weiß es nicht« die bessere Option ist.
Indem wir unsere Erwartungen und Bewertungsmethoden anpassen, können wir die Anreize für KI-Systeme verändern. Dies ebnet den Weg für Modelle, die nicht nur leistungsfähig, sondern auch ehrlicher und vertrauenswürdiger sind.
Sie wollen noch näher am KI Universum sein?
Dann ist unser hey-i Newsletter genau das Richtige für Sie!
Wir geben kuratierten Input, teilen unser Insiderwissen und zeigen die neuesten Anwendungen und die wirklich relevanten Prompts & Tools.