BlogNews

Warum Sprachmodelle halluzinieren – und wie wir sie ehrlicher machen können

Von Münzwurf bis Prüfungsangst: Was wirklich hinter KI-Halluzinationen steckt

The Statistical Roots of LLM Hallucinations. Eine Untersuchung von OpenAI

Warum KI »halluziniert«: Ein Blick hinter die Kulissen von Sprach­modellen

1. Die KI als übereifriger Studierender in einer Prüfung

Stellen Sie sich einen Studierenden in einer wichtigen Prüfung vor. Bei einer schwierigen Frage, deren Antwort er nicht kennt, steht er vor einer Wahl: Gibt er zu, dass er es nicht weiß, oder rät er eine Antwort, die plausibel klingt, in der Hoffnung, ein paar Punkte zu ergattern? Sprachmodelle wie ChatGPT verhalten sich oft wie dieser übereifrige Studierende – sie ziehen es vor, eine über­zeu­gend klingende, aber falsche Antwort zu erfinden, an­statt ihre Wissenslücke ein­zu­gestehen.

Dieses Phänomen wird als »Halluzination« be­zeich­net: Die KI erfindet Informationen, die plausibel klingen, aber faktisch falsch sind.
Betrachten Sie dieses Rätsel als Einstieg: Als ein modernes Sprachmodell dreimal nach dem Ge­burts­tag des Wissenschaftlers »Adam Tauman Kalai« gefragt wurde, gab es drei verschiedene, aber jedes Mal falsche Ant­worten:

• »03-07«
• »15-06«
• »01-01«

Warum passiert das? Dieses Verhalten ist kein mys­te­riöser Fehler, sondern eine di­rekte Folge davon, wie diese Mo­delle gebaut und bewertet werden. Die Ursachen lassen sich auf zwei Haupt­gründe zurückführen: die Art des Trainings und die Art der Bewertung.

2. Ursache 1

Wie Training das Raten fördert
Der erste Grund für Halluzinationen liegt in der grundlegenden Trainingsphase, dem so­ge­nann­ten Pretraining. In dieser Phase lernt das Modell die Muster der menschlichen Sprache, indem es riesige Mengen an Texten aus dem Internet analysiert. Die zentrale Heraus­for­de­rung dabei lässt sich auf ein einfacheres Problem reduzieren, das Forscher als »Is-It-Valid« (IIV)-Klassifikationsproblem bezeichnen. Im Kern muss das Modell für jede mögliche Aus­sage eine binäre Entscheidung treffen: Ist diese Aussage »gültig« oder ein »Fehler«?

Die Fähigkeit eines Modells, korrekte Sätze zu generieren, hängt direkt davon ab, wie gut es diese implizite Klassifizierungsaufgabe löst. Zwei Fak­toren machen dies besonders schwie­rig und fördern das Raten:

A. Willkürliche Fakten ohne Muster
Fakten wie Geburtsdaten oder spezifische Titel von weniger bekannten Personen kommen oft nur ein einziges Mal in den Trainingsdaten vor. Solche einzigartigen Informationen werden als »Single­tons« bezeichnet.

◦ Das Problem aus IIV-Sicht
Wenn ein Fakt nur einmal auftaucht, hat das Modell eine unzureichende Datengrundlage, um eine klare Regel für seinen internen IIV-Klassifikator zu lernen. Jede Aussage über die Gültigkeit dieses Fakts wird zu einem Münz­wurf mit geringer Sicherheit.
◦ Folge
Bei Fragen zu solchen Fakten ist das Modell gezwungen zu raten. Die Verbindung ist so direkt, dass die Forschung eine klare Un­ter­grenze for­mu­liert: Die Halluzinationsrate nach dem Training sollte min­des­tens dem Anteil der Fakten ent­sprechen, die nur einmal in den Trainings­daten vor­kommen.

B. Unpassende »Denkwerkzeuge«
Manchmal fehlt dem Modell die richtige interne Struktur, um eine Frage logisch zu beantworten, selbst wenn die Informationen vorhanden sind. Das liegt daran, dass Sprach­modelle nicht in Buch­staben, sondern in Wortteilen, sogenannten »Tokens«, denken.

◦ Das Problem aus IIV-Sicht
Für bestimmte Klassifizierungsaufgaben ist die tokenbasierte Architektur ein »schlechtes Modell« – so, als würde man Studierenden nur ein Einmaleins geben, um eine In­fini­tesi­mal­rechnung zu lösen.
◦ Beispiel
Auf die einfache Frage »Wie viele Ds sind in DEEPSEEK?« scheitern selbst modernste Mo­delle. Das Modell DeepSeek-V3 antwortete »2« oder »3«, während andere führende Modelle wie Meta AI und Claude 3.7 Sonnet sogar Antworten wie »6« oder »7« lieferten. Sie können die Buchstaben nicht zählen, weil sie das Wort in Tokens wie D / EEP / SEE / K zerlegen, was für die Aufgabe, einzelne Buch­staben zu zählen, das falsche Werkzeug ist.
Diese angeborene Tendenz zum Raten, die aus dem Training resultiert, wird durch die Art und Weise, wie die Modelle anschließend bewertet werden, noch weiter verstärkt.

3. Ursache 2

Warum sich Raten für die KI lohnt
Zurück zur Analogie der Studierenden in der Prü­fung: Sprachmodelle werden, genau wie Stu­die­rende, für Tests (soge­nannte Bench­marks) »opti­miert«, die ihre Leis­tung messen sollen. Das Kern­problem liegt darin, wie diese Tests bewertet werden.
Die meisten KI-Be­wer­tungen verwenden ein bi­nä­res Bewertungsschema:

• 1 Punkt für eine richtige Antwort.
• 0 Punkte für eine falsche Antwort.
• 0 Punkte für eine ehrliche Antwort wie »Ich weiß es nicht« (IDK).

Diese Anreizstruktur macht das Raten zur sta­tis­tisch besten Strategie, um die Gesamt­punkt­zahl zu maximieren. Die folgende Tabelle ver­deut­licht die Logik aus Sicht des Modells:



Das System bestraft also Un­si­cher­heit und belohnt das Raten. Forscher bezeichnen dies als eine »Epidemie der Bestrafung von Un­sicher­heit«. Solange die Modelle darauf trainiert werden, in diesen Tests gut ab­zu­schnei­den, werden sie wei­ter­hin hallu­zi­nieren, weil es sich für sie lohnt.

4. Fazit: Ein hausgemachtes Problem und wie wir es lösen können

KI-Halluzinationen sind kein unvermeidliches Schicksal, sondern ein größtenteils haus­ge­machtes Problem. Die Ursachen sind klar:

A. Die statistische Natur des Trainings macht Modelle anfällig für Fehler, insbesondere bei seltenen oder musterlosen Fakten.
B. Die gängigen Bewertungsmethoden be­loh­nen das Raten und bestrafen ehrliche Ein­ge­ständ­nisse von Unsicherheit.

Die Lösung liegt darin, die »Spielregeln« der KI-Tests zu ändern. Ein vielversprechender Ansatz ist die Einführung von Minuspunkten für falsche Antworten, ähnlich wie bei einigen stan­dar­di­sierten Tests für Menschen. Der ent­schei­dende Punkt dabei ist jedoch, die Modelle über diese Regeln zu informieren. Indem man dem Modell in den Anweisungen den Schwellenwert für das Vertrauen explizit mitteilt (z. B. »Antworte nur, wenn du zu über 75 % sicher bist, da falsche Antworten bestraft werden«), kann es eine stra­te­gisch kluge Entscheidung treffen, wann es sich lohnt zu raten und wann ein ehrliches »Ich weiß es nicht« die bessere Option ist.

Indem wir unsere Erwartungen und Be­wer­tungs­me­thoden anpassen, können wir die Anreize für KI-Systeme verändern. Dies ebnet den Weg für Mo­delle, die nicht nur leis­tungs­fähig, sondern auch ehrlicher und ver­trauens­würdiger sind.

Zurück

Sie wollen noch näher am KI Universum sein?
Dann ist unser hey-i Newsletter genau das Richtige für Sie!

Wir geben kuratierten Input, teilen unser Insiderwissen und zeigen die neuesten Anwendungen und die wirklich relevanten Prompts & Tools.

Kostenlos. Inspirierend. Alle 2 Wochen neu.