KI im Rechenzentrum: Auswirkung der CPU-Wahl auf Kosten, Leistung und Energieverbrauch

Dieser Artikel zeigt, wie Unternehmen mit der richtigen CPU-Plattform ihre KI-Projekte vorantreiben und gleichzeitig Kosten, Platzbedarf und Energieverbrauch im Rechenzentrum senken können.

Fast 80 Prozent der Unternehmen glauben, dass generative künstliche Intelligenz (KI) ihr Geschäft drastisch verändern wird – oder dies bereits getan hat. Das ergab der „Future Enterprise Resiliency and Spending Survey“, des Marktforschungsinstituts IDC, für den fast 900 Unternehmen befragt wurden. Nach Ansicht der Teilnehmer kann generative KI vor allem dazu beitragen, die Produktivität zu erhöhen, die Wettbewerbsfähigkeit zu verbessern und die Kundenzufriedenheit zu steigern.

Der Einsatz von KI stellt jedoch auch neue und höhere Anforderungen an das Rechenzentrum. IDC schätzt, dass deshalb 45 Prozent der Investitionen in generative KI für die IT-Infrastruktur ausgegeben werden. Die Anforderungen an die Rechenleistung sind dabei sehr unterschiedlich. Das Training großer Sprachmodelle stellt beispielsweise ganz andere Anforderungen an die IT-Infrastruktur als die Anwendung (Inference) der Modelle. IT-Entscheider müssen deshalb sorgfältig abwägen, welche Ziele sie erreichen wollen, und die Hardware-Wahl auf die geplanten Einsatzzwecke abstimmen. Da viele KI-Applikationen auf die Daten traditioneller Systeme angewiesen sind, muss zudem die Kompatibilität mit vorhandenen IT-Umgebungen gewährleistet sein.

Anforderungen von KI-Workloads an die IT-Infrastruktur

Die meisten KI-Workloads stellen spezifische Anforderungen an Leistung, Sicherheit und Datenschutz, die je nach Größe und Komplexität des KI-Modells, des Datenvolumens und der erforderlichen Verarbeitungsgeschwindigkeit, der Anzahl der Nutzer und der insgesamt benötigten Rechenkapazität variieren.

Im Wesentlichen lassen sich folgende Anwendungsfälle unterscheiden:

Das gemeinnützige Forschungsinstitut Ai2 nutzte für das Training des Open-Source-Modells OLMo (Open Language Model) AMD EPYC Prozessoren und AMD Instinct-Beschleuniger. Das Training fand auf der High-Perfomance-Computing-Umgebung (HPC) LUMI (Large Unified Modern Infrastructure) statt, einem Supercomputer, der nicht nur einer der leistungsstärksten, sondern auch einer der energieeffizientesten ist. Auch Llama, das Open-Source-LLM der Facebook-Mutter Meta, wird auf einer AMD-Plattform trainiert. Für die aktuelle Version 3.1 verwendet Meta MI300X-Karten.

Auf dem Weg zum KI-fähigen Rechenzentrum

Die wenigsten Unternehmen können es sich leisten, für jeden speziellen Einzelfall eine eigene IT-Umgebung aufzubauen. Abgesehen von den enormen Kosten wäre das auch aus Platzgründen und aus Sicht der Nachhaltigkeit eine enorme Ressourcenverschwendung. Es gilt vielmehr, die bestehende IT-Infrastruktur so intelligent zu modernisieren und mit Cloud-Ressourcen zu verbinden, dass sie schnell und adaptiv genügend Leistung, sowohl für herkömmliche Workloads als auch für neue KI-Aufgaben bereitstellen kann.

Für den Aufbau einer solchen Infrastruktur ist die Leistungsdichte der Server ein wichtiges Kriterium. Eine höhere Leistung pro Server verringert nicht nur den Raumbedarf, sondern hat auch positive Auswirkungen auf Anschaffungskosten (Capital Expenditure, CAPEX) und Energiebedarf. So benötigt man nach Berechnungen von AMD nur elf Server mit 2P AMD EPYC 9654, um 2.000 virtuelle Maschinen zu betreiben, während bei einem vergleichbaren Produkt eines Mitbewerbers 17 Server notwendig sind. Die Reduktion des Footprints führt zu Energieeinsparungen von 29 Prozent pro Jahr und einer Reduktion der Investitionskosten von 45 Prozent. Wird eine ältere Server-Vorgängerversion des Mitbewerbers durch Server mit AMD EPYC 9334 CPUs ersetzt, kann dieselbe Leistung mit 73 Prozent weniger Servern und 70 Prozent weniger Racks bereitgestellt werden.

AMD EPYC Prozessoren der 4. Generation liefern bei KI-Aufgaben eine hohe Performance, sind aber gleichzeitig kompatibel zu den wichtigsten x86-Anwendungen. Beim TPCx-AI SF30 Benchmark können 2P-Server mit AMD EPYC 9654 Prozessoren mit 96 Kernen bis zu 65 Prozent mehr KI-Testfälle pro Minute bearbeiten als ein Vergleichsprodukt.

Fazit: Kluge Konsolidierung schafft Raum für KI

IT-Verantwortliche müssen die Entwicklung und den Einsatz innovativer Technologien vorantreiben und gleichzeitig die Leistung, Verfügbarkeit und Sicherheit bestehender Workloads garantieren – und das meist auch noch bei stagnierenden oder sogar sinkenden Budgets. Dieser Spagat gelingt nur, wenn bei der Rechenzentrumsmodernisierung konsequent auf Effizienz, hohe Leistungsdichte, geringen Energieverbrauch, optimale Kompatibilität und integrierte Sicherheit geachtet wird. So lassen sich mit weniger Servern mehr Aufgaben stemmen, ohne dass die Kosten explodieren.

Mit den AMD EPYC Prozessoren der 4. Generation bietet AMD dafür die besten Voraussetzungen. Sie liefern nicht nur flexible Antworten auf die Anforderungen von KI-Workloads und mehr Leistung pro System und Watt, sondern sind auch zu den allermeisten traditionellen x86-Workloads kompatibel. Jeder AMD EPYC Prozessor ist darüber hinaus mit AMD Infinity Guard ausgestattet, einer mehrschichtigen Sicherheitsarchitektur, die sensible Daten schützt und Ausfallzeiten aufgrund von Sicherheitslücken vermeidet.