„Die Illusion des Denkens“: Wie limitiert Reasoning-Modelle wie o3 und Claude 3.7 sind
Welche Vorteile die Reasoning-Modelle gegenüber herkömmlichen Large Language Models (LLM) haben, ist in der KI-Entwicklung umstritten. Eine Studie von Apple-Forschern legt nun nahe: Der vermeintliche „Denkprozess“ in den Reasoning-Modellen ist stark limitiert.
Large Reasoning Models (LRM) wie die o-Reihe von OpenAI, die Thinking-Modelle von Google Gemini und Anthropic Claude sowie die DeepSeek-R1-Reihe verlagern Berechnungen auf die Inferenzphase. Es kommt also mehr Computing-Power zum Einsatz, nachdem der Nutzer eine Anfrage gestellt hat. So dauert es zwar deutlich länger, eine Antwort zu berechnen. Die Modelle sind aber in der Lage, etwa eine Chain-of-Thought zu bilden, um Aufgaben in mehreren Schritten abzuarbeiten. Ebenso ist es möglich, verschiedene Lösungswege zu testen.
Praxis-Test mit Rätselspielen
In Benchmarks sind die Fortschritte dieses Ansatzes deutlich sichtbar. Wie gut es in der Praxis aussieht, haben die Apple-Forscher nun anhand der vier logisch-mathematischen Rätselspiele Türme von Hanoi, Checker Jumping, River Crossing und Blocks World getestet. Pro Spiel erfolgten drei Testläufe mit jeweils steigender Komplexität, als Modelle kamen Claude 3.7 Sonnet (mit und ohne Denkmodus) sowie DeepSeek R1 und V1 zum Einsatz. Die Komplexität bezieht sich auf die schiere Problemgröße, also beispielsweise die Anzahl der Scheiben oder Blöcke.
Das Resultat: Waren die Aufgaben noch einfach, hatten die herkömmlichen Sprachmodelle die Nase vorne. Erst bei den mittelschweren Aufgaben konnten sich die Reasoning-Modelle einen Vorteil verschaffen. Wurden dann die höchste Komplexitätsstufe getestet, versagten alle Modelle.
Eines der interessanten Erkenntnisse: Während die LRMs bei einfachen Aufgaben zum „Overthinking“ neigen und sich mit zu vielen Lösungsansätzen selbst verwirren, findet bei den komplexen Aufgaben ein „Underthinking“ statt. Besonders erstaunlich ist, dass die Reasoning-Modelle sogar den Rechenaufwand reduzieren, wenn die Aufgaben komplex sind.
Wie gut die Modelle arbeiten, unterscheidet sich von Spiel zu Spiel. Bei den Türmen von Hanoi schaffen die Modelle bis zu 100 korrekte Züge, während bei River Crossing bereits nach vier Zügen Schluss ist.
Auch Reasoning-Modelle stoßen schnell an Grenzen
Laut den Apple-Forschern zeige die Studie, wie limitiert die Reasoning-Modelle sind. Vor allem das Versagen bei erhöhter Komplexität deute darauf hin, dass ab einem bestimmten Punkt auch mehr Computing-Power nicht mehr dazu führt, dass die Leistung skaliert. Man zweifelt also, ob sich mit dem LRM-Ansatz grundsätzlich ein Modell entwickeln lässt, das zu verallgemeinerbaren Schlussfolgerungen in der Lage ist.
These insights challenge prevailing assumptions about LRM capabilities and suggest that current approaches may be encountering fundamental barriers to generalizable reasoning.
Apple-Studie
Neu ist diese Kritik nicht. Decoder berichtete zuletzt über eine Studie von Forschenden der Tsinghua University und der Shanghai Jiao Tong University, die zu dem Ergebnis kommt, dass Reasoning-Modelle vor allem in der Lage sind, bekannte Ergebnisse schneller zu reproduzieren. Das Reinforcement Learning, das beim Training dieser Modelle zum Einsatz kommt, hilft demnach vor allem, bekannte Lösungswege zu optimieren. Im Umkehrschluss heißt das: Wenn ein herkömmliches LLM eine Aufgabe nicht lösen kann, gelinge das auch nicht dem Reasoning-Modell.
Von den Problemen bei den Reasoning-Modellen berichten auch die KI-Entwickler. OpenAI teilte etwa im Rahmen der Veröffentlichung der o3- und o4-mini-Modelle mit, dass diese mehr halluzinieren. In einem entsprechenden Test liefern die Modelle zwar mehr korrekte Antworten, produzieren gleichzeitig aber auch mehr Fehler.
- o3 und o4-mini: OpenAIs neue Modelle halluzinieren mehr als die Vorgänger
- Aussetzer bei Claude 4: Modell versucht Erpressung, wenn es abgeschaltet werden soll
Anthropic berichtete hingegen, dass sich bei Claude-4-Modellen häufiger Aussetzer feststellen lassen. So ist es in bestimmten Szenarien etwa leichter möglich, Erpressungsversuche der Modelle zu provozieren.