KI im Rechenzentrum: Auswirkung der CPU-Wahl auf Kosten, Leistung und Energieverbrauch

Dieser Artikel zeigt, wie Unternehmen mit der richtigen CPU-Plattform ihre KI-Projekte vorantreiben und gleichzeitig Kosten, Platzbedarf und Energieverbrauch im Rechenzentrum senken können.

Fast 80 Prozent der Unternehmen glauben, dass generative künstliche Intelligenz (KI) ihr Geschäft drastisch verändern wird – oder dies bereits getan hat. Das ergab der „Future Enterprise Resiliency and Spending Survey“, des Marktforschungsinstituts IDC, für den fast 900 Unternehmen befragt wurden. Nach Ansicht der Teilnehmer kann generative KI vor allem dazu beitragen, die Produktivität zu erhöhen, die Wettbewerbsfähigkeit zu verbessern und die Kundenzufriedenheit zu steigern.

Der Einsatz von KI stellt jedoch auch neue und höhere Anforderungen an das Rechenzentrum. IDC schätzt, dass deshalb 45 Prozent der Investitionen in generative KI für die IT-Infrastruktur ausgegeben werden. Die Anforderungen an die Rechenleistung sind dabei sehr unterschiedlich. Das Training großer Sprachmodelle stellt beispielsweise ganz andere Anforderungen an die IT-Infrastruktur als die Anwendung (Inference) der Modelle. IT-Entscheider müssen deshalb sorgfältig abwägen, welche Ziele sie erreichen wollen, und die Hardware-Wahl auf die geplanten Einsatzzwecke abstimmen. Da viele KI-Applikationen auf die Daten traditioneller Systeme angewiesen sind, muss zudem die Kompatibilität mit vorhandenen IT-Umgebungen gewährleistet sein.

Anforderungen von KI-Workloads an die IT-Infrastruktur

Die meisten KI-Workloads stellen spezifische Anforderungen an Leistung, Sicherheit und Datenschutz, die je nach Größe und Komplexität des KI-Modells, des Datenvolumens und der erforderlichen Verarbeitungsgeschwindigkeit, der Anzahl der Nutzer und der insgesamt benötigten Rechenkapazität variieren.

Im Wesentlichen lassen sich folgende Anwendungsfälle unterscheiden:

Training großer Sprachmodelle (Large Language Model, LLM): Große Sprachmodelle sind neuronale Netze, die natürliche Sprache verarbeiten und generieren können. Dazu analysieren sie in der Trainingsphase die statistische Wahrscheinlichkeit, mit der bestimmte Wörter oder Wortbestandteile, so genannte Tokens, aufeinander folgen. Große Modelle werden mit vielen Milliarden Parametern und Petabytes an Daten trainiert, was das Training zu einer der anspruchsvollsten und rechenintensiven KI-Anwendungen macht. So benötigte das Start-up Moreh für das Training seiner MoAI-Plattform mit mehr als 220 Milliarden Parametern ein Cluster von 1.200 AMD Instinct Beschleunigern vom Typ AMD MI250. Der Service Provider KT Cloud nutzt die Plattform, um seinen Kunden das KI-Training als Infrastructure-as-a-Service (SaaS) anbieten zu können.

Das gemeinnützige Forschungsinstitut Ai2 nutzte für das Training des Open-Source-Modells OLMo (Open Language Model) AMD EPYC Prozessoren und AMD Instinct-Beschleuniger. Das Training fand auf der High-Perfomance-Computing-Umgebung (HPC) LUMI (Large Unified Modern Infrastructure) statt, einem Supercomputer, der nicht nur einer der leistungsstärksten, sondern auch einer der energieeffizientesten ist. Auch Llama, das Open-Source-LLM der Facebook-Mutter Meta, wird auf einer AMD-Plattform trainiert. Für die aktuelle Version 3.1 verwendet Meta MI300X-Karten.

Finetuning von Basismodellen (Foundation Model): Für die spezifischen Anforderungen von Unternehmen lassen sich Basismodelle (Foundation Models) wie GPT (Generative Pre-Trained Transformer) von OpenAI, BERT (Bidirectional Encoder Representations from Transformers) von Google oder die Open-Source-Software Stable Diffusion mit internen Daten weiter trainieren und anpassen. Dafür sind deutlich weniger Parameter und Daten notwendig als für das Basistraining. Die Anforderungen an Rechenleistung, Speicherkapazität und Datendurchsatz sind deshalb geringer, erfordern aber in der Regel dennoch dedizierte Hardware. Das Unternehmen Lamini nutzt beispielsweise AMD Instinct-Beschleuniger der MI200-Serie für seine Finetuning-Plattform.
Retrieval-Augmented Generation (RAG): RAG ist eine Alternative zum Finetuning, um Basismodelle für spezifische Fragestellungen nutzen zu können. Dazu wird das Modell mit internen Wissensdatenbanken wie technischen Produktbeschreibungen oder Servicehandbüchern verknüpft. Bei einer Anfrage greift das LLM auf dieses Wissen zurück und integriert es in seine Antwort, was die Zuverlässigkeit und Genauigkeit der Ergebnisse erhöht. Die Anforderungen an die Hardware hängen sehr stark vom Umfang und der Komplexität der zu integrierenden Daten ab. In vielen Fällen reichen bereits leistungsfähige Endgeräte, etwa ein AMD Ryzen KI PC, um RAG-Aufgaben durchzuführen.
Anwendung von KI-Modellen (Inference): Beim „Schlussfolgern“ (Inference) wird ein trainiertes Modell mit neuen, unbekannten Daten konfrontiert, das daraus dann ein Ergebnis, etwa einen Bericht, eine Klassifikation oder eine Empfehlung generiert. Inference ist letztendlich das Ziel jeder KI-Entwicklung. Die Anforderungen variieren sehr stark. Fahrassistenzsysteme wie EyeSight von Subaru erfordern beispielsweise höhere Rechenleistungen als etwa Produktempfehlungen in einem Online-Shop. AMD unterstützt den Einsatz seiner EPYC Prozessoren für Inference-Aufgaben mit einer Reihe von Software-Tools wie die AMD Optimized CPU Libraries (AOCL) oder das Zen Software Studio.

Auf dem Weg zum KI-fähigen Rechenzentrum

Die wenigsten Unternehmen können es sich leisten, für jeden speziellen Einzelfall eine eigene IT-Umgebung aufzubauen. Abgesehen von den enormen Kosten wäre das auch aus Platzgründen und aus Sicht der Nachhaltigkeit eine enorme Ressourcenverschwendung. Es gilt vielmehr, die bestehende IT-Infrastruktur so intelligent zu modernisieren und mit Cloud-Ressourcen zu verbinden, dass sie schnell und adaptiv genügend Leistung, sowohl für herkömmliche Workloads als auch für neue KI-Aufgaben bereitstellen kann.

Für den Aufbau einer solchen Infrastruktur ist die Leistungsdichte der Server ein wichtiges Kriterium. Eine höhere Leistung pro Server verringert nicht nur den Raumbedarf, sondern hat auch positive Auswirkungen auf Anschaffungskosten (Capital Expenditure, CAPEX) und Energiebedarf. So benötigt man nach Berechnungen von AMD nur elf Server mit 2P AMD EPYC 9654, um 2.000 virtuelle Maschinen zu betreiben, während bei einem vergleichbaren Produkt eines Mitbewerbers 17 Server notwendig sind. Die Reduktion des Footprints führt zu Energieeinsparungen von 29 Prozent pro Jahr und einer Reduktion der Investitionskosten von 45 Prozent. Wird eine ältere Server-Vorgängerversion des Mitbewerbers durch Server mit AMD EPYC 9334 CPUs ersetzt, kann dieselbe Leistung mit 73 Prozent weniger Servern und 70 Prozent weniger Racks bereitgestellt werden.

AMD EPYC Prozessoren der 4. Generation liefern bei KI-Aufgaben eine hohe Performance, sind aber gleichzeitig kompatibel zu den wichtigsten x86-Anwendungen. Beim TPCx-AI SF30 Benchmark können 2P-Server mit AMD EPYC 9654 Prozessoren mit 96 Kernen bis zu 65 Prozent mehr KI-Testfälle pro Minute bearbeiten als ein Vergleichsprodukt.

Fazit: Kluge Konsolidierung schafft Raum für KI

IT-Verantwortliche müssen die Entwicklung und den Einsatz innovativer Technologien vorantreiben und gleichzeitig die Leistung, Verfügbarkeit und Sicherheit bestehender Workloads garantieren – und das meist auch noch bei stagnierenden oder sogar sinkenden Budgets. Dieser Spagat gelingt nur, wenn bei der Rechenzentrumsmodernisierung konsequent auf Effizienz, hohe Leistungsdichte, geringen Energieverbrauch, optimale Kompatibilität und integrierte Sicherheit geachtet wird. So lassen sich mit weniger Servern mehr Aufgaben stemmen, ohne dass die Kosten explodieren.

Mit den AMD EPYC Prozessoren der 4. Generation bietet AMD dafür die besten Voraussetzungen. Sie liefern nicht nur flexible Antworten auf die Anforderungen von KI-Workloads und mehr Leistung pro System und Watt, sondern sind auch zu den allermeisten traditionellen x86-Workloads kompatibel. Jeder AMD EPYC Prozessor ist darüber hinaus mit AMD Infinity Guard ausgestattet, einer mehrschichtigen Sicherheitsarchitektur, die sensible Daten schützt und Ausfallzeiten aufgrund von Sicherheitslücken vermeidet.