Wie AMD mehr Leistung aus CPUs kitzelt

Bei Hochleistungsprozessoren ist mit dem klassischen Chip-Design das Ende der Fahnenstange erreicht. Eine weitere Performance-Steigerung lässt sich nur nach oben – in die dritte Dimension erreichen.

Schneller, höher, weiter. Die permanente Steigerung der Prozessorleistung scheint seit Beginn des Computerzeitalters eine der wenigen Konstanten in der IT zu sein. Dank dieses scheinbar ewigen Trends bietet jede neue CPU-Generation – und damit jede neue Generation von Servern, PCs und Notebooks – ein Performance-Plus, die Leistung pro Dollar wird mit jeder Generation besser. Und das bei gleichzeitig sinkenden Preisen.

Nun aber scheint die Chip-Industrie tatsächlich an eine Grenze gekommen zu sein, die das Mooresche Gesetz aushebelt. Vor allem mit zwei Problemen sind die Chip-Designer konfrontiert: Zum einen verlangsamt sich die Fähigkeit, Transistoren und die aus ihnen bestehenden Logik- und Speicherblöcke zu verkleinern. Zum anderen haben die Chips ihre Größengrenzen erreicht. Fotolithografie-Werkzeuge können nur eine Fläche von etwa 850 Quadratmillimetern strukturieren, was in etwa der Größe eines Nvidia-Grafikprozessors der Spitzenklasse entspricht.

Dank des menschlichen Erfindungsreichtums deutet sich aber auch für diese Herausforderung eine Lösung an – mit dem Weg in die dritte Dimension. Die drohende Grenze der stetigen Verkleinerung der Chip-Strukturen in der zweidimensionalen Ebene überwinden die Entwickler mit dem Gang in die Höhe – indem sie vereinfacht gesagt einen Chip über einen anderen stapeln. Wenn zwei Chips direkt miteinander verbunden werden, lassen sich Tausende von Verbindungen pro Quadratmillimeter herstellen.

In der Elektronik nennt man die Methode, elektronische Komponenten sowohl horizontal als auch vertikal in zwei oder mehr Schichten zu integrieren, 3D-Integration oder 3D-Stacking. Sie wird in der Halbleiterindustrie als erfolgversprechender Weg gehandelt, den Trend kompakterer und leistungsstärkerer digitaler Geräte fortzusetzen („More than Moore“).

3D Chiplets: Der nächste Schritt

Um das 3D-Stacking praktisch umzusetzen, bedarf es allerdings einer Menge Innovationen. So müssen die Entwickler verhindern, dass die Wärme eines Chips im Stapel den anderen zerstört. Sie müssen entscheiden, welche Funktionen wohin gehören und wie sie hergestellt werden sollen. Weiter müssen sie dafür sorgen, dass ein gelegentlicher fehlerhafter Chip nicht zu vielen teuren Blindgängern führt. Und es muss geklärt werden, wie man mit der zusätzlichen Komplexität umgeht, die sich aus der gleichzeitigen Lösung all dieser Fragen ergibt.

AMD zeigt bei der 3D-Integration schon länger großes Engagement und kündigte bereits im März 2020 auf einer Analystenkonferenz an, dass es 3D-Stacking-Technologien mit „X3D“ erforscht. Damals erklärte AMD, es handele sich um eine Mischung aus 2,5D- und 3D-Gehäusetechnologien, die eine 10-fache Bandbreitendichte oder mehr ermöglichen. Das „X“ in „X3D“ sollte für Hybrid stehen, und die Technologie war für „die Zukunft“ vorgesehen.

Inzwischen hat sich die Zukunft „materialisiert“ und AMD hat die erste Stufe seiner 3D-Chiplet-Reise umgesetzt. Die erste Anwendung ist ein gestapelter „3D V-Cache“ auf einem Standard-Prozessorchiplet – was die Cache-Größe exorbitant erhöhtDie Steigerung der Cache-Größe ist für die Leistungsverbesserung ganz wesentlich, bestimmte Anwendungen können vom Zugriff auf einen größeren L3-Prozessor-Cache profitieren. Hierzu zählen speicherabhängige Anwendungen, Software, die häufig Cache-Misses aufweist, und Anwendungen mit größeren Datensätzen.

Die AMD 3D V-Cache Technologie löst die physikalischen Herausforderungen beim 2D-Chip-Design, indem sie den AMD Zen 3-Kern mit dem Cache-Modul verbindet und so den L3-Anteil bei gleichzeitiger Minimierung der Latenz und Erhöhung des Durchsatzes nutzt. Die V-Cache-Technik verwendet Through-Silicon Vias (TSVs) – vertikale Verbindungen durch ein Die hindurch – um oberhalb des regulären 32 MByte Level-3-Caches der Compute-Chiplets weitere zusätzliche Silizium-Cache-Stapel (die mit dem standardmäßigen 32-MB-L3-Cache-Bereich auf einem Chiplet thermisch verbunden sind) anzubringen.

AMD-CPUs mit gestapeltem Cache

Mit dem AMD Ryzen 7 5800X3D ist nun der erste Desktop-Prozessor mit gestapeltem 3D V-Cache verfügbar. Bei diesem Chip wird auf dem Core Complex Die (CCD) per Chip-Bonding ein weiterer Die mit 64 MB L3-Cache untergebracht. Zusammen mit dem L3-Cache auf der CPU-Die kommt der Octacore-Prozessor damit auf insgesamt 96 MB.

Der größere Cache machte sich bei High-End-Spielen bemerkbar. Die Verwendung der Desktop-Ryzen-CPU mit 3D V-Cache beschleunigt Spiele, die mit 1080p gerendert wurden, um durchschnittlich 15 Prozent. Sie soll laut AMD in Spielen auch höher angesiedelte AMD-Ryzen und Intel-Alder-Lake-CPUs schlagen können. Auch bei ernsthafteren Aufgaben konnte die Laufzeit für schwierige Berechnungen um 66 Prozent verkürzt werden.

3D Technik auch für Server

Auch die Server-Prozessoren der AMD EPYC 7003-Serie verfügen über 3D-Stacking – und sind damit die ersten Data-Center-CPUs mit dieser Technologie. Das bietet eine Leistungssteigerung von bis zu 66 Prozent gegenüber vergleichbaren, nicht gestapelten EPYC-Prozessoren.

Die EPYC 7003-Serie basiert auf der Zen 3-Kernarchitektur und bietet damit denselben Sockel, dieselbe Software-Kompatibilität und dieselben Sicherheitsfunktionen wie die EPYC-CPUs der 3. Generation – verfügen laut AMD aber über den branchenweit größten L3-Cache. Diese Leistungsmerkmale ermöglichten es IT-Managern zudem, weniger Server einzusetzen und den Stromverbrauch im Rechenzentrum zu reduzieren. Das wiederum führe auch zu einer Senkung der Gesamtbetriebskosten (TCO).

Die neuesten CPUs: Ryzen 7000 und EPYC 9004

Für beide Prozessoren gibt es aktuell bereits Nachfolger. So sind mit Ryzen AMD 7000 Desktop CPU-Modelle der nächsten Generation mit besonders großem 3D V-Cache verfügbar. Die als Zen 4 für „Gamer und Creator“ beworbene CPU-Serie soll laut Hersteller „AMD Performance auf Gaming und Multimedia PCs bringen“.

AMD gab bei ausgewählten Spielen einen Vorsprung von bis zu 17 Prozent gegenüber einem Intel Core i9-12900K an, im Schnitt sollen es 5 Prozent sein. Bei Nicht-Spiele-Anwendungen profitieren beispielsweise Applikationen wie das Rendering von High-Poly-Szene in 3D, der Export riesiger Videodateien oder die Visualisierung von Entwürfen im Architekturbereich.

Nach den Ryzen-7000-CPUs für den Desktop stehen mit EPYC 9004 auch neue Server-Modelle der Genoa-Generation mit „Zen 4“-Architektur vor der Markteinführung. Diese sollen Anfang nächsten Jahres verfügbar sein. Das Spitzenmodell der beiden EPYC 9004-Prozessoren hat 96 Kerne bei 192 Threads, die sich auf maximal 12 CCDs mit jeweils acht Kernen verteilen.

Obwohl die beiden neuen EPYC-CPUs bis zu 400 Watt verbrauchen, machen sie einen großen Sprung bei der Energieeffizienz: Die Rechenleistung pro Watt Leistungsaufnahme steigt deutlich. Das hat positive Auswirkungen auf die Energiekosten. Durch die hohe Energieeffizienz sollen sich pro Rack mehr als 20.000 US-Dollar im Jahr einsparen lassen.

Inzwischen hat AMD seine AMD EPYC 9004-Serie (Codename Genua) angekündigt, die bis zu 96 auf der „Zen 4“-Mikroarchitektur basierende Kerne hat und auf der 5-nm-Prozesstechnologie basiert. „Zen 4“ ermöglicht eine führende Speicherbandbreite und -kapazität mit 12 DDR5-Kanälen, sowie Next-Gen-I/O mit PCIe 5.0 und Speichererweiterung mit Compute eXpress Link (CXL). Laut der Keynote vom 10. November wird AMD im ersten Halbjahr 2023 eine Genoa-X-CPU-Serie ankündigen, die für technische Berechnungen und Datenbanken optimiert ist, die besonders speicher- und cache-sensitiv sind.

Ausblick

Mit der neuen 3D V-Cache-Prozessortechnologie hat AMD den vertikalen 3D-Cache entwickelt, und schnellere und leistungsstärkere Prozessoren für Gaming und Technik-Anwendungen geschaffen. Doch das ist erst der Beginn der 3D-Technologie. Für die Zukunft sollen DRAM und SRAM per 3D-Integration auf den Die aufgebracht werden – und weitere Innovationen dürften in Bälde folgen.