o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger

Andreas Frischholz
85 Kommentare
o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger
Bild: ChatGPT

Eine der kuriosen Entwicklungen bei OpenAIs neuen Modellen o3 und o4-mini ist, dass diese mehr halluzinieren – also Fakten erfinden – als die Vorgänger. Wie TechCrunch analysiert, tappen OpenAI-Forscher bei der Fehleranalyse noch im Dunkeln, ein Verdacht liegt aber bei aktuellen Trainingsverfahren.

Ohnehin zählt es zu den größten Herausforderungen bei der Entwicklung generativer KI-Modelle, dass diese zum Halluzinieren neigen – also die Tendenz haben, Fakten zu erfinden und irreführen Behauptungen aufzustellen. Seit der AI-Hype Ende 2022 startete, machten KI-Dienste zwar weniger Fehler, verschwunden sind die Probleme aber nicht.

o3 produziert mehr richtige und mehr falsche Aussagen

Umso erstaunlicher ist daher, was OpenAI im technischen Report von o3 und o4-mini beschreibt. Sowohl o4-mini als auch o3 halluzinieren mehr als das o1-Modell. Getestet wurde das mit dem PersonQA-Benchmark, der Fragen über öffentliche-verfügbare Informationen von Personen enthält. So lässt sich prüfen, wie akkurat und fehleranfällig Modelle sind.

Die Ergebnisse: o4-mini schneidet zunächst schlechter ab als o3 und o1. Das können OpenAIs Forscher erklären, kleinere Modelle haben weniger Weltwissen und tendieren eher zum Halluzinieren. Erstaunlicher ist indes das Ergebnis, das o3 beim PersonaQ-Test produziert: Es ist akkurater als o1, halluziniert aber auch öfters – es generiert also sowohl mehr korrekte als auch mehr falsche Aussagen.

PersonQ-Ergebnisse
Test o3 o4-mini o1
Genauigkeit
(höher ist besser)
0,59 0,36 0,47
Halluzinationsrate
(niedriger ist besser)
0,33 0,48 0,16

Quelle: Technischer Report von OpenAI zu o3 und o4-mini

Mehr Forschung ist nötig, um diese Resultate zu verstehen“, lautet das Fazit im technischen Bericht. Genauer äußert man sich nicht, eine präzise Antwort scheint also auch OpenAI nicht vorliegen zu haben, heißt im Bericht von TechCrunch.

Reinforcement Learning könnte problematische Tendenzen verstärken

Was laut OpenAIs internen Tests bekannt ist: Reasoning-Modelle wie die der o1-Serie halluzinieren generell öfters als reguläre Sprachmodelle wie GPT-4o. Die Reasoning-Modelle verlagern Teile der Berechnungen auf die Inferenzphase, also nachdem Nutzer die Anfrage gestellt haben. Dann bilden diese eine Chain-of-Thought („Gedankenkette“), bei der eine Aufgabe in einzelne Schritte unterteilt wird.

Dieses Vorgehen trainiert OpenAI mit einem umfangreichen Reinforcement Learning („verstärktes Lernen“). Dabei handelt es sich um ein Trainingsverfahren, bei der ein KI-Modell per „Trial-and-Error“ selbstständig Lösungswege testet. So entwickelt das Modell selbst Strategien, um den „Denkprozess“ zu optimieren und lernt, verschiedene Strategien anzuwenden sowie Fehler zu erkennen. Grundsätzlich also ein Fortschritt, wie auch die Ergebnisse bei Logik-Aufgaben zeigen, die etwa aus Bereichen wie dem Coding oder Mathematik stammen. Die Reasoning-Modelle schneiden deutlich besser ab als herkömmliche Sprachmodelle.

Der Grund für diese Probleme könnten nun die Reinforcement-Learning-Verfahren sein, die OpenAI anwendet, berichtet TechCrunch. Entsprechende Hinweise liefert die Arbeit von Transluce, einem gemeinnützigen KI-Labor, das o3 getestet hat. „Unsere Hypothese ist, dass die Art von Reinforcement Learning, die für o-Modelle verwendet wird, Probleme verstärken kann, die normalerweise durch Standard-Post-Training-Pipelines gemildert (aber nicht vollständig beseitigt) werden“, erklärte der Transluce-Forscher und ehemalige OpenAI-Mitarbeiter Neil Chowdhury gegenüber TechCrunch.

Halluzinationen mindern den praktischen Nutzen

Dass o3 mehr halluziniert – und damit mehr (gravierende) Fehler produziert –, macht das Modell weniger nützlich im praktischen Einsatz, erklärt die Transluce-Mitgründerin Sarah Schwettmann. Konkreter äußert sich Kian Katanforoosh, ein Stanford-Professor und Start-up-CEO. TechCrunch sagte er, sein Team teste das Modell bereits bei den Abläufen im Programmieren. Generell sei es eine Stufe über der Konkurrenz, tendiere aber dazu, kaputte Weblinks zu halluzinieren – diese führen dann ins Leere.

OpenAI selbst sagt auf Anfrage von TechCrunch, die Forschungsarbeit zu dem Thema laufe über alle Modelle hinweg weiter. Man arbeite daran, die Genauigkeit und Zuverlässigkeit zu verbessern.

So bleibt das Halluzinieren der KI-Modelle eine der gravierenden Baustellen, die den Alltagseinsatz erschweren. Ein zentraler Prunkt dabei ist: Die Modelle erkennen oftmals das eigene Scheitern nicht, wie Ernest Davis und Gary Marcus schildern. Statt dem Nutzer zu antworten, dass sich die Aufgabe nicht lösen lässt, können Modelle irreführende bis falsche Aussagen produzieren, die Nutzer komplett in die Irre leiten können. Um solche Fehler zu erkennen, muss man – insbesondere bei komplexen Anfragen – aber selbst tief in der Materie stecken.

So etwas überträgt sich auch auf Tools wie OpenAIs Recherche-Assistent Deep Research. So lautete das Fazit im ComputerBase-Test: Umfangreiche Berichte, die eine gute Übersicht zu einem Themengebiet liefern können, aber so fehlerhaft sind, dass man diese einem Nutzer ohne Kenntnisse im jeweiligen Gebiet nicht empfehlen kann.

📊 Intel, AMD oder Nvidia? Mach' jetzt noch mit bei unserer großen Jahresumfrage!