- Registriert
- Apr. 2011
- Beiträge
- 3.223
Blaexe schrieb:Du musst dir schon die richtigen Benchmarks anschauen. Mythos/Fable kann die Stärken in langen, komplexen Aufgaben ausspielen und da sind die Unterschiede signifikant.
Schau dir beispielsweise FrontierCode an. Oder ExploitBench.
ich kenne die Benchmarks. Jedes neue SOTA-Modell hat irgendwelche Sub-Bereiche wo es nen größeren Schritt macht. Insgesamt ist der Schritt jedoch überschaubar. Vergleichbar mit dem Schritt von GPT 5.4. auf 5.5. (jeweils xhigh). Noch unterwältigender wird es, wenn man die Tokenkosten mit einkalkuliert, wo man pro 1M Tokens doppelt so teuer ist.
