Qualcomm-Prozessor: Adreno-GPU mit Slices, Raytracing und SRAM

 3/4
Nicolas La Rocco
38 Kommentare

Adreno-X2-90-GPU ist mehr als doppelt so schnell

Neben der CPU ist vor allem auch die GPU ein großer und wichtiger Bestandteil der Snapdragon-X2-Generation. Die größte Adreno X2-90 kommt in beiden 18-Kern-Modellen zum Einsatz, im Flaggschiff aber mit 1,85 GHz statt 1,70 GHz. Bei der Grafikeinheit fallen die Zugewinne noch einmal deutlich größer als bei der CPU aus. Auch hier gleich vorweg zwei Kennzahlen: bis zu 130 Prozent mehr Leistung im 3DMark Steel Nomad Light gegenüber der Adreno X1-85 aus dem Snapdragon X Elite und bei gleicher Leistung des Vorgängers bis zu 125 Prozent effizienter im 3DMark Time Spy.

Slice-Architektur mit identischen Recheneinheiten

Qualcomm übernimmt mit der Adreno X2-90 die 2024 mit dem Snapdragon 8 Elite für Smartphones eingeführte Slice-Architektur und den „Adreno High Performance Memory“ – ein dedizierter Speicher ausschließlich für die GPU, um möglichst viele Daten nah an der GPU zu behalten und DRAM-Zugriffe zu reduzieren. Die GPU-Architektur zieht damit zur 8. Generation für Smartphones gleich. Während im Snapdragon 8 Elite drei Slices vorzufinden sind, kommt der Snapdragon X2 Elite Extreme auf vier Slices.

Die Adreno X2-90 ist eine monolithische GPU ohne Chiplets, sie setzt sich aber aus vier unabhängig voneinander ansteuerbaren oder in den Ruhezustand versetzbaren Bereichen (Slices) zusammen, die vollständig identisch mit den gleichen Recheneinheiten bestückt sind. Die Slices verfügen über jeweils eigene Ressourcen, was eine parallele Verarbeitung und eine effizientere Nutzung der Hardware ermöglicht. Die von Qualcomm gewählte Architektur erlaubt außerdem eine vergleichsweise einfache Vergrößerung oder Verkleinerung der GPU für weitere Ableger des Chips.

Qualcomm steigert Durchsatz deutlich

Die GPU-Architektur umfasst vier Slices mit jeweils zwei Shader Processors (SP) für insgesamt acht SPs und somit ein Drittel mehr als beim Snapdragon X Elite. 2.048 FP32-ALUs (+33 Prozent) verteilen sich zu jeweils 128 Stück auf die 16 Mikro-Shader-Processors (μSP), die zu viert in jedem Slice respektive zu zweit in jedem Shader Processor vorkommen. Die FP32-ALUs können auch FP16-Operationen ausführen, dafür stehen aber auch dedizierte FP16-ALUs zur Verfügung. Deren Anzahl lag bis zuletzt beim Doppelten der FP32-ALUs. Jeder Slice kann bis zu 128 Texel pro Zyklus (+33 Prozent) und dabei 4 Dreiecke pro Zyklus für Setup und Rasterisierung (+100 Prozent) im Render-Front-End verarbeiten.

Ray Tracing Unit für DirectX 12.2 Ultimate

Vier Ray Tracing Units und somit 16 Stück insgesamt sind unter anderem für die Strahl–Box-Schnittberechnungen und die Tree Traversal in Raytracing-Spielen zuständig. Beim Raytracing bedeutet Tree Traversal, dass ein Strahl eine hierarchische Beschleunigungsstruktur wie eine BVH (Bounding Volume Hierarchy) durchläuft, um schnell herauszufinden, welches Objekt der Strahl trifft. Ohne solche Bäume müsste ein Strahl jedes Dreieck einer Szene testen, was langsam und ineffizient wäre.

Snapdragon X Series Architecture Deep Dive – GPU
Snapdragon X Series Architecture Deep Dive – GPU (Bild: Qualcomm)

Die RTU erfüllt mit ihren unterstützten Features dieses Mal die Anforderungen von DirectX 12.2 Ultimate mit Shader Model 6.8, anstatt wie zuvor lediglich DirectX 12.1 und Shader Model 6.7, sodass Raytracing-Unterstützung für alle aktuellen und künftigen Spiele (und Apps) geboten wird, die ebenfalls diesen Standards entsprechen.

21 MB SRAM mit 4 TB/s nur für die GPU

Eine wichtige Rolle für mehr Leistung und Effizienz nimmt bei der Adreno X2-90 der „Adreno High Performance Memory“ ein. Dabei handelt es sich um satte 21 MB dedizierten SRAM, demnach 5,25 MB pro Slice. Der Speicher ist mit 4 TB/s mit den Shader Processors verbunden und kann unter anderem Frames in der Auflösung QHD+ zwischenspeichern. Über den SRAM unterstützt die GPU auch Direct Rendering, Tessellation, das Speichern neuronaler Netzwerkgewichte (Modelldaten), GPU Compute und KI-Beschleunigung. Reduziert werden sollen mit dem eigenen GPU-Speicher die Datenbewegungen, sodass diese nah zur GPU bleiben und weniger Zugriffe auf den DRAM erfolgen. Dadurch verbessert sich die Leistung pro Watt. Große Caches und dedizierte, besonders schnelle Speicher für viele der Funktionsblöcke sind ein Muster, das sich durch das gesamte SoC-Design zieht.

Snapdragon X Series Architecture Deep Dive – GPU
Snapdragon X Series Architecture Deep Dive – GPU (Bild: Qualcomm)
📊 Intel, AMD oder Nvidia? Mach' jetzt noch mit bei unserer großen Jahresumfrage!