KI-Datacenter: offene Standards für mehr Effizienz und Leistung
Die Leistungsdichte und der Energiebedarf von KI-Rechenzentren erfordern neue Hardware-Lösungen. Das Open Compute Project treibt mit offenen Standards wie Open Rack Wide die Entwicklung leistungsfähiger Infrastrukturen voran.
Das Open Compute Project (OCP) wurde 2011 mit dem Ziel gegründet, durch Zusammenarbeit und offene Standards die Entwicklung effizienterer Rechenzentren zu beschleunigen. Die Projektmitglieder arbeiten gemeinsam an technischen Normen und Designvorlagen für standardisierte Hardwarekomponenten. Dadurch wird der Forschungs- und Entwicklungsaufwand für Hardwareanbieter reduziert sowie die Kompatibilität und Austauschbarkeit von Komponenten verbessert. Bereits im Jahr 2013 entwickelte beispielsweise AMD auf Basis der OCP-Standards das offene Motherboard-Design Open 3.0 (Codename „Roadrunner“), das eine standardisierte Server-Plattform für unterschiedlichste Anforderungen bietet.
Derzeit beschäftigt sich das OCP vor allem mit den Herausforderungen des KI-Booms. Durch die Entwicklung immer leistungsfähigerer Modelle und die zunehmende Nutzung von künstlicher Intelligenz in Betriebssystemen und Anwendungen steigt die Nachfrage nach KI-fähigen Rechenzentren stark an. Laut Prognosen des Branchenverbands Bitkom und der Unternehmensberatung Deloitte wird sich bis zum Jahr 2030 der Anteil der Rechenzentrumskapazitäten, die in Deutschland für KI genutzt werden, von derzeit 15 auf 40 Prozent erhöhen, die Anschlussleistung soll sich von 1,6 GW auf 4,8 GW verdreifachen. Das würde zu einem zusätzlichen Strombedarf von 15 TWh pro Jahr führen (siehe dazu auch Wie KI den Energieverbrauch explodieren lässt).
Entwicklung von KI-fähiger Hardware – die vier großen Herausforderungen
Um dieser Entwicklung Rechnung zu tragen, muss sich die Art und Weise, wie Rechenzentrums-Hardware entwickelt und produziert wird, grundlegend ändern. Dabei konzentriert sich das OCP auf folgende vier Bereiche:
– Stromversorgung: Bei der Entwicklung und Nutzung von KI-Modellen kommen in der Regel spezialisierte KI-Beschleuniger wie AMD Instinct GPUs zum Einsatz. Sie benötigen deutlich mehr Strom als Serverprozessoren. Während Server-CPUs wie die AMD EPYC 9005-Serie eine elektrische Leistungsaufnahme von 125 W bis 500 W aufweisen, sind es bei GPUs bis zu 1.400 W. Die Anschlussleistung pro Rack im Rechenzentrum steigt dadurch von 10 bis 20 kW auf über 100 kW. Künftig könnte sie sogar bis zu einem MW betragen.
– Kühlung: Aufgrund der erhöhten Leistungsdichte müssen KI-Racks in der Regel flüssigkeitsgekühlt werden. Das OCP-Teilprojekt „Coolant Distribution Unit“ (CDU) befasst sich mit der Integration von Flüssigkeitskühlsystemen in bestehende und neue Rechenzentren. Die Teilnehmer entwickeln Lösungen, Leitfäden und Referenzdesigns, die die Integration von CDUs erleichtern und verbessern sollen.
– Statik und Platzbedarf: Hochleistungsfähige KI-Systeme sind deutlich größer und schwerer als traditionelle Rechen- oder Speicher-Racks. Sie sind daher oft nicht mehr zum herkömmlichen Rechenzentrumsdesign kompatibel. Das OCP will deshalb wichtige Parameter wie Gangbreiten, Rack-Abmessungen und Bodentragfähigkeit standardisieren, um kostspielige Nachrüstungen in neuen Rechenzentren zu vermeiden. Langfristig sollen so vollständig kompatible Racks entstehen, die beliebig austauschbar sind.
– Überwachung und Steuerung: KI-Rechenzentren bestehen aus hochgradig vernetzten Hochleistungskomponenten. Schon kleine Störungen, unbemerkte Sicherheitslücken oder Konfigurationsfehler können zu gravierenden Systemausfällen führen. Die Überwachung und Steuerung der komplexen Infrastrukturen stellt IT-Verantwortliche daher vor große Herausforderungen. Das OCP will deshalb Standardprotokolle für die Übermittlung und Auswertung von Telemetriedaten entwickeln, die das Management von KI-Rechenzentren erleichtern und verbessern. Langfristig sollen autonome Steuerungssysteme zum Einsatz kommen, die eigenständig alle Systeme verwalten, deren Leistung optimieren und Probleme selbständig beheben können.
Open Rack Wide – ein Standard für leistungsfähigere KI-Racks
Auf dem 2025 OCP Global Summit, der im Oktober 2025 in San José stattfand, stellten Meta und Rittal den Standard Open Rack Wide (ORW) vor. ORW basiert auf dem Standard Open Rack V3 und bietet auf doppelter Breite deutlich mehr Platz für große KI- und High-Performance-Computing-Systeme. Mit einer Leistung von 700 kW und mehr ist er auf den hohen Strombedarf aktueller und künftiger KI-Cluster vorbereitet. Ein neues Schienendesign mit einer Tragfähigkeit von bis zu 125 kg erlaubt es, auch sehr schwere Systeme zu befestigen. Insgesamt ist das Open Wide Rack auf eine Last von bis zu 3,5 t ausgelegt, während im Standard Open Rack V3 nur eine Last bis 1,4 t spezifiziert ist.
Einer der größten Unterschiede zum Standard Open Rack V3 liegt im Design der Bodenplatte. Es trägt der enormen Last Rechnung und verzichtet deshalb auf Rollen. Stattdessen lässt sich das Rack von allen Seiten mit einem Gabelstapler unterfahren. Die Höhe und der Abstand der Füße entsprechen dem Industriestandard für Gabelstapler und Fahrerlose Transportsysteme (FTS). Um Transport und Aufbau zu erleichtern, sind ORW-Racks zerlegbar und über Schraubverbindungen einfach zu montieren.
Das AMD-Projekt Helios – offene KI-Infrastruktur im Open-Wide-Rack-Design
Ebenfalls auf dem OCP Global Summit hat AMD die Referenzarchitektur Helios vorgestellt. Sie baut auf der ORW-Spezifikation auf und integriert weitere offene Standards wie das Data Center – Modular Hardware System (DC-MHS), Ultra Accelerator Link (UALink) sowie die vom Ultra Ethernet Consortium (UEC) entwickelte Ultra-Ethernet-Breitbandtechnologie. Helios soll vor allem die Entwicklung sehr großer KI-Modelle mit mehreren Billionen Parametern deutlich beschleunigen und sowohl die Zeit als auch die Kosten für das Training erheblich reduzieren.
Das Herzstück der Referenzarchitektur sind die KI-Beschleuniger der AMD Instinct MI450-Serie, die ab dem zweiten Quartal 2026 verfügbar sein werden. Jede MI450-GPU bietet bis zu 432 GB High-Bandwidth Memory (HBM4) und bis zu 19,6 TB/s Speicherbandbreite. Ein Helios-Rack bietet insgesamt bis zu 31 TB an HBM4-Speicher und bis zu 1,4 PB an Speicherbandbreite. Zwischen den GPUs sorgen UALink-Verbindungen für eine Bandbreite von bis zu 260 TB/s, der Interconnect zwischen Racks erfolgt über Ultra Ethernet mit Spitzengeschwindigkeiten von 43 TB/s. Mit 72 MI450-GPUs ausgestattet erreicht Helios eine Rechenleistung von bis zu 1,4 ExaFLOPS (= 1,4 Trillionen Gleitkommaoperationen pro Sekunde) bei acht Bit Genauigkeit (FP8) und bis zu 2,9 ExaFLOPS bei FP4.
Fazit: Die Zukunft der KI ist offen
Die Referenzdesigns und Spezifikationen des Open Compute Project haben maßgeblich zur Entwicklung effizienter und leistungsfähiger Rechenzentren beigetragen. Standards wie Open Rack Wide führen diese Arbeit in die KI-Ära fort und bilden das Fundament für die KI-Systeme der Zukunft.
Mit dem Projekt Helios baut AMD auf dieser Basis auf und treibt die Entwicklung offener, hochleistungsfähiger und skalierbarer KI-Infrastrukturen voran. Die offene und standardisierte Architektur senkt die Forschungs- und Entwicklungskosten für Hardwareanbieter und ermöglicht es Rechenzentrumsbetreibern, KI-Infrastrukturen schneller aufzubauen und zu skalieren. Die Standardisierung reduziert außerdem den Aufwand für Integration und Wartung und trägt so zu einer Reduzierung der Gesamtbetriebskosten (TCO) bei.