News AMD Notebook-APU mit bis zu 22 Kernen: Neue Details zu Zen 6 „Medusa Point“ durchgestochen

AMD hat bei den LP Cores kräftig intern gestutzt.
Für geringe Belastungen IDLE und spannungslos die anderen Cores sinnvoll.
Ab N3E kann man P-Cores in 3-2 Fin und low power 2-1 FIN bei gleicher IPC und geringerer Baugröße kombinieren. 6 GHz Big und knapp 4 GHz Little so erreichbar, also 6x Little bringen bei Multicore soviel Performance als 4x Big.
Die Big hätten aber dann 50% höheren Takt = 2,3 fach Strombedarf vs. 4 GHz, die 2-1 statt 3-2 Fin bringen bei gleichen Takt -30% Energiebedarf, insgesamt als 3-fach Strombedarf bei nur Big-Core bei Volllast.
Das läuft thermisch somit voll aus dem Ruder für AMD.
Bei ARM haben die little Cores geringere IPC, das drückt deutlich klar deren Vorteil.

Bei Smartphones ist Volllast selten, bei Games regelt man eben runder.
 
  • Gefällt mir
Reaktionen: nyster
bensen schrieb:
Naja, es ist immer die Frage was man schon da hat. Wenn die Stückzahl gering ist, kann man lieber einen schon vorhandene APU nehmen als einen extra neuen IO-Die zu nehmen.
In die APU muss AMD die entsprechenden Infinity Fabric Ports einbauen, sonst kann man sie gar nicht erweitern
bensen schrieb:
Der IO-Die aus dem Desktop wird vielleicht zu fett,
Das will ich doch hoffen. Da sie auf einem ausgereiftem und billigeren Prozess hergestellt werden kann man bei den IO-Funktionen großzügiger sein.
bensen schrieb:
Ich denke es ist inzwischen klar woher die Ineffizienz bei Teillast kommt. AMD kann die IFoP nicht abschalten und auch nicht sonderlich weit herunter takten.
bensen schrieb:
Ich halte das ganze auch für etwas fishy. Man muss einfach abwarten bis es mehr Informationen gibt.
Es fehlen definitiv noch viele Informationen.
Ergänzung ()

RKCPU schrieb:
Bei ARM haben die little Cores geringere IPC, das drückt deutlich klar deren Vorteil.
Das ist doch genau das was die Leute die über die LP Cores reden auch erzählen.

Man hat dieselbe ISA, intern anders umgesetzt was zu weniger IPC führt. Letztendlich kommt dabei nur eine Flächenersparnis heraus. Klar der Energieverbrauch ist niedriger, aber das wird durch eine erheblich schlechtere Performance überkompensiert.

Bringen kann das ganze nur dann etwas wenn man diese Kerne nur für extrem tiefe Lastzustände verwendet.
RKCPU schrieb:
Bei Smartphones ist Volllast selten, bei Games regelt man eben runder.
Smartphones sind immer an. Auch bei notebooks ist Volllast sehr selten. Das zeigt schon der Vergleich von Maximalen verbrauch und Batteriekapazität. Bei Games braucht man diese Kern nicht.
Ergänzung ()

Botcruscher schrieb:
Hä? Wie wird einer monolithischen APU ein CCD zur Seite gestellt?! Dafür muss das ganze Gedöns für die Verbindung im IOD in die APU. Was wollen wir wegen Preis und Verbrauch beim AMD Ansatz auf keinen Fall bei einer APU: Chiplets und die Stromfresser dazwischen.
Die Stromfresser dazwischen sind die PHYs. Und wie es Strix Halo zeigt können die auf Fanout entfallen. Und da PHY nicht mehr skalieren spart man auch ein einiges Fläche (bezogen auf diese Funktion), wie man beim Vergleich der CCDs von Ryzen 9000 und der CCDs von Strix Halo erkennen kann.
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: CDLABSRadonP...
Botcruscher schrieb:
Irgendwie sinnvoll ist es nur wenn AMD die ganze Anbindung des IF massiv überarbeitet.
Machen sie ja. Strix Halo fängt an und der Rest zeigt nach.
 
Ich glaube ich werde mir nach langer Zeit mal wieder ein Laptop mit dann dieser APU zulegen. Damit kann ich dann sowohl meine mobile Sternwarte betreiben, als auch mal hin und wieder eine meiner nicht so anspruchsvollen Spiele spielen. Mal sehen wie der Kram dann mit Linux rennt.

Das alte Lenovo wandert dann in die Hände vom Nachwuchs.

Freu mich schon.

Danke für die Berichterstattung!
 
  • Gefällt mir
Reaktionen: medsommer
bensen schrieb:
Mal davon ab wird AMD nicht die bisher im Desktop genutzte Technik nutzen wo die Daten über das Substrat geroutet werden.
Richtig es heißt in den Gerüchten übereinstimmend dass AMD auf Advanced Packaging wechselt, so wie auch bei Strix Halo.
bensen schrieb:
Es wir entweder InFO(-LSI) und/oder SoIC.
Es gibt auch noch CoWoS-R. Das ist wie InFO ein Fanout-Verfahren.

InFO-LSI oder InFO-L ist ein Fanout mit Siliziumbrücke und mit EMIB von Intel in etwa vergleichbar.

InFO-L ist deutlich aufwändiger, weshalb ich skeptich bin. Vor allem sehe ich bei CPUs den Nutzen nicht.

CoWoS-R ist die Basis für CoWoS-L worauf es bei den AI-Beschleunigern hinausläuft. Deshalb könnte es Probleme bei der Kapazität geben. Allerdings ist Chip Last AFAIU besser für größere Dies odere mehere Dies geeignet als Chip First.

Der Unterschied ist,
  • InFO ist Chip First Fanout. D. h., die Chips werden auf dem Wafer/Panel angeordnet und dann wird das RDL aufgebaut.
  • CoWoS-R ist Chip Last Fanout. D. h., das RDL wird aufgebaut und wenn es fertig ist, werden die Chips darauf plaziert.
Ein großer Nachteil von Fanout ist der Verzug, der sich umso mehr auswirkt je größer die Packages werden.
Deshalb wundert es mich ein wenig, dass TSMC noch nichts offizielles zu Glas Core Substraten gesagt hat.

Botcruscher schrieb:
Es ist trotzdem eine verückte Kombination. Der DIE für den Mainstream hat dann ein nutzloses Interface. Umgekehrt dürfte Nutzern des Highend der Verbrauch Recht egal sein.
Das ist IMO nicht das Problem bei der ganzen Sache.
Das stört mich;
  • AMD hat bei Ryzen und Epic IO Funktionen und Kerne getrennt, weil die IO-Funktionen nicht skalieren und deshalb auf modernen teueren Nodes überproportional viel Fläche kosten.
  • Bei den APUs streicht AMD die PCIe-Lanes immer weiter zusammen. Man hat nicht nur PCIe eine Generation zurück sondern auch nur noch 16 Lanes, also 12 Lanes weniger als bei den Desktop Ryzen.
  • Der Witz am Chiplet Konzept war bisher, dass AMD einen billigen IOD hatte und somit auch bei den kleinen Chips dieselbe IO wie bei den großen Chips hatte.
  • Bei dieser Konfiguration hat man nun dieselbe kleine IO am großen Chip. Das mag im Notebook egal sein schränkt aber den nutzen im Desktop stark ein.
Botcruscher schrieb:
Irgendwie sinnvoll ist es nur wenn AMD die ganze Anbindung des IF massiv überarbeitet.
Genau das ist bei Strix Halo geschehen.

Das Infinity Fabric ist Chip intern AFAIU ein doppelter Ringbus mit 256 bit Breite und moderater Taktfrequenz. Das gilt sowohl für das CCX als auch für das SoC in der APU oder den IOD.

Bisher hat AMD bei den IFoP*) PCIe SERDES vwerwendet. Dabei hat AMD die Power der Treiber soweit reduziert, dass sie noch fürs Package ausreichen. Off Package sind 11 pJ je Bit erforderlich das hat AMD für on package auf 2 pJ je bit reduziert, die Zahlen sind von Zen 2.

Bei Strix Halo geht AMD mit der vollen breite von 256 bit Breite vom IOD zum CCD. Durch die volle Breite kann das Interface mit der niedrigen Taktfrequenz des internen Busses betrieben werden, was den Stromverbrauch je Bit deutlich senkt. Die notwendigen Schaltungen auf dem Chip nehmen erheblich weniger Fläche als die sonst üblichen Schaltungen für IFoP

*) IFoP: Infinity Fabric over Pagage

Ich möchte an dieser Stelle noch Mal darauf hinweisen, dass man Sizium Interposer und Siliziumbrücken verwendet um eine hohe Verbindungsdichte je mm Rand zu erreichen. Diese Signale haben keine hohe Reichweite. Organische Substrate sind in der Beziehung auf die Signalreichweite besser. Weshalb es auch Überlegungen gibt, sehr lange Verbindungen zwischen Funktionseinheiten desselben Dies über das Package zu leiten.
 
  • Gefällt mir
Reaktionen: Botcruscher, nyster und IDontWantAName
mae schrieb:
Mir sind uebrigens keine Tests bekannt, die zeigen, dass bei Intel die LPE-Kerne ineffizient sind. Meteor Lake wurde WIMRE wegen langer Akkulaufzeit gelobt. Andererseits hat Intel bei Lunar Lake WIMRE keine LPE-Kerne eingebaut und weiterhin gute Akkulaufzeiten.


Natürlich hat Lunar Lake LPE Kerne. Die sitzen im compute Tile außerhalb vom Ringbus. Der Ringbus mitsamt den Kernen und LLC Cache kann sich schlafen legen bei niedriger Last. Die LPE sind deutlich stärker und viel sinnvoller als noch bei MTL. Das ist doch mit der größte Vorteil an Lunar Lake, die Akkulaufzeit wurde deutlich gesteigert.
 
  • Gefällt mir
Reaktionen: nyster
mae schrieb:
Mir sind uebrigens keine Tests bekannt, die zeigen, dass bei Intel die LPE-Kerne ineffizient sind. Meteor Lake wurde WIMRE wegen langer Akkulaufzeit gelobt. Andererseits hat Intel bei Lunar Lake WIMRE keine LPE-Kerne eingebaut und weiterhin gute Akkulaufzeiten.
David Huang wollte die Effizienz der LPE Cores messen, ist aber gescheitert. Letzendlich war seine Aussage, dass sobald messbare Last kommt, wird diese sofort auf die anderen Kerne verschoben.

Ich interpretiere das so, dass es vollkommen egal ist wie effizient diese Kerne sind, wenn sie bei einer Power betrieben werden die niedriger ist als die Power die man benötigt um die großen Kerne anzuwerfen. Wenn die Last höher wird und damit die Power der kleinen Kerne zu hoch werden würde, verschiebt man die Last auf die großen Kerne.
 
  • Gefällt mir
Reaktionen: Haldi
ETI1120 schrieb:
InFO-L ist deutlich aufwändiger, weshalb ich skeptich bin. Vor allem sehe ich bei CPUs den Nutzen nicht.
Glaub ich auch nicht. So eine hohe Dichte ist nicht nötig um ein CPU Chiplet anzubinden.
Strix Halo nutzt ja afaik auch InFO-R oder wie auch immer das bei der Konkurrenz heißt. Keine Ahnung wo AMD das Packaging machen lässt.
 
ETI1120 schrieb:
Ich interpretiere das so, dass es vollkommen egal ist wie effizient diese Kerne sind, wenn sie bei einer Power betrieben werden die niedriger ist als die Power die man benötigt um die großen Kerne anzuwerfen. Wenn die Last höher wird und damit die Power der kleinen Kerne zu hoch werden würde, verschiebt man die Last auf die großen Kerne.
Eine ganzes CPU - Chiplet / Intel tiled Design stromlos zu legen spart im Standby kräftig Strom.
Ob Notebook, ob Thin Client, das ist interessant.

Nächster Schritt sind Designs, wie bei AMD. Ab N3E kann man da für die 'c' Cores andere Transistoren nutzen, die ab 10% weniger Strombedarf bei voller Last bedeuten. Bei beschränkter TDP, wie im Notebook oder Thon Client, holt man so noch Performance raus.
 
  • Gefällt mir
Reaktionen: nyster
mkl1 schrieb:
Natürlich hat Lunar Lake LPE Kerne.
Nennt Intel Skymont in Lunar Lake wirklich "LPE"-Kerne? Was ist denn das für ein Blödsinn, das hat mich jetzt kurz einigermaßen verwirrt. [Und macht den Vergleich zu Meteor Lake, um den es hier ging, erst recht schwieriger - vor allem, weil Skymont ja so oder so den größten Leistungssprung hingelegt hat. Da braucht es diese unsinnige Vermischung der Namen doch gar nicht.]

mae schrieb:
Mir sind uebrigens keine Tests bekannt, die zeigen, dass bei Intel die LPE-Kerne ineffizient sind. Meteor Lake wurde WIMRE wegen langer Akkulaufzeit gelobt.
Das Gegenteil ist der Fall: Das dreistufige Design in Meteor Lake hatte viel weniger gedacht, als man sich erhofft hatte. Die Akkulaufzeiten wurden nicht spürbar besser - weshalb man es dann in Lunar Lake wieder aufgegeben hat.
 
ETI1120 schrieb:
David Huang wollte die Effizienz der LPE Cores messen, ist aber gescheitert. Letzendlich war seine Aussage, dass sobald messbare Last kommt, wird diese sofort auf die anderen Kerne verschoben.

Unter Linux sollte man mit "taskset -c $core command" dafuer sorgen koennen, dass die auf einem bestimmten Kern laufen; gibt's sowas unter Windows nicht? Allerdings ist das ja nicht der gedachte Einsatz, sondern vielleicht sowas wie Videos schauen oder Musik hoeren, wo ein core regelmaessig Kommandos an Spezialhardware gibt und sonst wenig zu tun hat. Da waere dann der Vergleich, wieviel das Package verbraucht, wenn man diese Software mit "taskset -c" o.ae. auf einem LPE-core laufen laesst, im Vergleich zu einem E-Core oder P-Core. Und was das Package verbraucht, wenn man es dem System ueberlaesst, auf welchem Core das laeuft.

Mein Ryzen 8700G braucht ca. 2W mehr (ab Steckdose), wenn ich mit xmms Musik im Ogg Vorbis Format abspiele als wenn das System idle ist. Dabei wird ein core mit <2% belastet. Ich gehe davon aus, dass der Grossteil der 2W daher kommt, dass sich irgendwelche Teile nicht schlafen legen oder oefters aufwachen.

P.S.: Beim Abspielen von MP3 <1% Last auf einem core, und immer noch 2W.

Ergänzung ()

uberLemu schrieb:
Nennt Intel Skymont in Lunar Lake wirklich "LPE"-Kerne?

Why Are the Efficient Cores Called Low Power Efficient Cores in Lunar Lake?
 
Zuletzt bearbeitet:
  • Gefällt mir
Reaktionen: nyster
Uff, die zwei Sätze sind aber arg dünn. Und bei Arrow Lake heißt der identische Kern dann wieder "E-Core"?
 
bensen schrieb:
Strix Halo nutzt ja afaik auch InFO-R oder wie auch immer das bei der Konkurrenz heißt.
Es ist auf alle Fälle Fanout ohne irgendwelche silicon bridges. Das zeigen die die Shots und das wurde auch im Interview von Chips & Cheese gesaht.

bensen schrieb:
Keine Ahnung wo AMD das Packaging machen lässt.
Dazu habe ich auch noch nichts konkretes gelesen.

Eigentlich kann es nur TSMC oder ASE sein. Bei ASE lief definitiv CDNA2.

Bei ASE heißt das ganze FOCoS
https://ase.aseglobal.com/focos/

RKCPU schrieb:
Eine ganzes CPU - Chiplet / Intel tiled Design stromlos zu legen spart im Standby kräftig Strom.
Ob Notebook, ob Thin Client, das ist interessant.
Und?

Es spart auch kräftig Strom Teile eines Chips stillzulegen. Es würde noch mehr Strom sparen wenn man zwei Chiplet mit jeweils 6 Kernen anbinden würde, denn man könnte man zuerst das Chiplet mit den ersten 6 Kerne hochfahren, ...

Das ganze Design das sich aus diesen Zahlen ergibt wirkt in meinen Augen unausgewogen. 20 CPU Kerne fürs Notebook und dafür 12 alleine im "Anhänger".

Ich verstehe auch das Design von Strix Halo nicht. Ich hätte eigentlich erwartet, dass IOD und GCD getrennt sind. Aber es gibt offensichtlich Gründe warum AMD einen so teuren Die auflegt ansatt ihn in zwei Dies zu splitten.

RKCPU schrieb:
Nächster Schritt sind Designs, wie bei AMD.
Das warten wir Mal in Ruhe ab. Es kann so kommen, muss es aber nicht.

Der große Vorteil eines Chiplet Designs ist, dass man für die jeweilige Funktion den optimalen Prozess wählen kann. Das macht AMD bei EPYC und den Chiplet Ryzen.

Wenn man Logik und IO auf demselben Chip implementiert, muss man Kompromisse eingehen. Diese Kompromisse haben die AMD APUs einerseits ziemlich teuer gemacht andererseits was die IO anbelangt ziemlich eingeschränkt.

RKCPU schrieb:
Ab N3E kann man da für die 'c' Cores andere Transistoren nutzen, die ab 10% weniger Strombedarf bei voller Last bedeuten.
Wofür willst Du N3E verwenden? 2026 bei Zen 6 wird AMD statt dessen N3P verwenden.

Für das APU/IOD Chiplet, dass die ganzen IO Funktionen aufnehmen muss?
IMO wird da allenfalls N4P drin sein.

N3P erwarte ich im Zen 6 classic CCD.

N3E und auch N3P haben FinFlex. FinFlex ermöglicht das Mischen von verschiedenen Libs in einem Blocks. Üblicherweise muss man sich entscheiden, ob man einen Block mit der HD oder HP Lib ausführt. N3E bietet 3 Optionen:

1747498925330.png

Folie von TSMC beim Technoloy Symposium 2022, über SemiWiki

N5 2-Fin ist AFAIU die HD Lib. Deshalb ist die schlechte Skalierung zu N3E 3-2 Fin das der HP Lib entspricht, keine Überraschung. Man sieht, dass N3E 2-1 Fin, das einer ultra dense Lib entspricht, deutliche Abstriche bei der Performance macht.

Was das dense Zen 6 CCD anbelangt, hat mich N3E mit FinFlex nicht vom Hocker gehauen. Keine sonderlichen Überraschungen bei Die Size, Frequenzen oder Verbrauch. Alles im Rahmen dessen was man erwarten kann.
 
  • Gefällt mir
Reaktionen: nyster
Hört sich für mich nach einem Nachfolger des Dragon Range an.

Neu Architektur, mehr Kernen, neuere und größere Grafikeinheit, NPU und weitere Neuerungen.

Diesmal nimmt man halt nicht das Desktop IOD, sondern die neue mobile APU und kombiniert sie mit dem Standard Chiplet. Das ist für den Stromverbrauch sicherlich besser, als einfach die Desktop CPU auf mobile umzulabeln.
 
uberLemu schrieb:
Nennt Intel Skymont in Lunar Lake wirklich "LPE"-Kerne? Was ist denn das für ein Blödsinn, das hat mich jetzt kurz einigermaßen verwirrt. [Und macht den Vergleich zu Meteor Lake, um den es hier ging, erst recht schwieriger - vor allem, weil Skymont ja so oder so den größten Leistungssprung hingelegt hat. Da braucht es diese unsinnige Vermischung der Namen doch gar nicht.]


Das Gegenteil ist der Fall: Das dreistufige Design in Meteor Lake hatte viel weniger gedacht, als man sich erhofft hatte. Die Akkulaufzeiten wurden nicht spürbar besser - weshalb man es dann in Lunar Lake wieder aufgegeben hat.


Ja nennen sie. Warum Blödsinn? Das sind Skymont außerhalb vom Ringbus ohne L3 Zugriff. Ohne L3 sind die aber auch nicht so stark wie Skymont im Ringbus. Der zweite Teil macht kein Sinn, weil Intel das eben nicht aufgegeben hat. Das ist falsch was du sagst.

In Meteor Lake waren die LPE Kerne viel zu schwach, das konnte nicht viel zur Akkulaufzeit beitragen. Schon für 4k Video playback waren 2x Crestmont LPE nicht gut genug, auch die veraltete Fertigung auf einem anderen tile hat nicht geholfen. Die erste Chiplet Umsetzung war nicht gut von Intel.
 
ETI1120 schrieb:
Es spart auch kräftig Strom Teile eines Chips stillzulegen. Es würde noch mehr Strom sparen wenn man zwei Chiplet mit jeweils 6 Kernen anbinden würde, denn man könnte man zuerst das Chiplet mit den ersten 6 Kerne hochfahren, ...

Das ganze Design das sich aus diesen Zahlen ergibt wirkt in meinen Augen unausgewogen. 20 CPU Kerne fürs Notebook und dafür 12 alleine im "Anhänger".
Die Entwicklungskosten einer APU und auch die Optimierung der Anordnung der Blöcke kostet Millionen.
Wie die Meldung vermuten lässt. allenfalls als Ryzen 9 in Umsatz zu gießen und hier dann 12 statt 8 oder 16 statt 8 Cores wäre ja noch ähnlich zum Desktop heute.

ETI1120 schrieb:
Wofür willst Du N3E verwenden? 2026 bei Zen 6 wird AMD statt dessen N3P verwenden.

Für das APU/IOD Chiplet, dass die ganzen IO Funktionen aufnehmen muss?
IMO wird da allenfalls N4P drin sein.
https://www.anandtech.com/show/1883...n-schedule-n3p-n3x-deliver-five-percent-gains

AMD muss beim Client Zen 6 Chiplet auf Kosten, Kapazität TSMC und Strombedarf - für Mobillnutzung - achten.
Auch in N3E und mittleres 2-2 FIN reicht der Zuwachs vs. Zen 5, zumal ja plus 50% an Cores vorliegen.
AMD könnte sich sogar asymmetrische 6* Zen 6 mit 2-2 FIN und 6* 2-1 FIN erlauben, die Schwächeren wären dann -12% langsamer oder bzgl. 6 GHz dann 'nur' 5,3 GHz max. Takt.

N4C bietet eine Fülle an Optionen, Fortschritt vs. 6nm IMO.
https://www.anandtech.com/show/21371/tsmc-preps-lower-cost-4nm-n4c-process-for-2025
 
mkl1 schrieb:
Das ist falsch was du sagst.
Die Aussage bezog sich auf das dreistufige Design; aber auch das lebt ja in Arrow-Lake-H weiter. [Hier wäre nun die Frage, ob tatsächlich das I/O-Tile von Meteor Lake übernommen wurde, wie oft kolportiert, oder ob dessen LPE-Kerne auch auf Skymont gewechselt sind und entsprechend mehr Aufgaben übernehmen können.]

Aber Danke für deine Ausführungen, habe heute dazugelernt.
 
Das lebt auch in Panther Lake und Nova Lake weiter. ARL-H nutzt weiter das schwache IO von MTL mit den 2x Crestmont. Interessant wird das erst ab Panther Lake-H.
 
  • Gefällt mir
Reaktionen: uberLemu
Krik schrieb:
Das ergibt 8 "reguläre" Kerne und zwei kleinere Kerne. Wie soll der Scheduler damit umgehen? Es gibt ja schon bei den CCDs mit und ohne 3D-Cache Probleme, die Lasten gut zu verteilen.
Das ist überhaupt kein Problem. Beim 3D Cache ist das Problem dass nicht klar ist (für den scheduler) welcher Kern schneller ist (hängt von der Anwendung ab).

Wenn es aber eine klare Abgrenzung gibt wie hier ist das kein Thema, selbst für Windows, ist bei Intel mit den E Cores ja nicht anders.
 
ETI1120 schrieb:
Bei der Vorstellung von AM5 hat AMD bis mindestens 2025 gesagt.
Bei der Vorstellung von Zen 5 hat dies auf mindestens 2027 verlängert.

Zen 6 kommt 2026.

Von DDR6 fehlt immer noch jede Spur und das stellt die Frage ob Zen 7 nicht auch noch auf AM5 kommen muss.

ETI1120 schrieb:
Bei der Vorstellung von AM5 hat AMD bis mindestens 2025 gesagt.
Bei der Vorstellung von Zen 5 hat dies auf mindestens 2027 verlängert.

Zen 6 kommt 2026.

Von DDR6 fehlt immer noch jede Spur und das stellt die Frage ob Zen 7 nicht auch noch auf AM5 kommen muss.
DDR6 soll Q2 2025 final spezifiziert werden. Das heißt es bleiben noch 43 Tage.
 
Zurück
Oben