Von der Cloud zum KI-PC: Wie sich KI-Modelle portieren lassen

KI-Modelle, die in der Cloud trainiert wurden, lassen sich oft nur schwer in lokale IT-Umgebungen integrieren. ONNX und die AMD Ryzen AI Software bieten einen einfachen Weg, diese Hürden zu überwinden und KI plattformübergreifend einzusetzen.

Viele KI-Modelle werden in der Cloud trainiert und bereitgestellt, da ihre Entwicklung einen enormen Ressourceneinsatz erfordert (mehr dazu in diesem Artikel). Die Nutzung von KI in der Cloud kann Unternehmen jedoch vor Herausforderungen stellen. Immer mehr Unternehmen setzen deshalb auf den lokalen Einsatz von KI auf leistungsfähigen Workstations und PCs (siehe auch: „Erneuerung der PC-Flotte: 5 Kriterien für die optimale Beschaffung“). Häufig stoßen sie dabei jedoch auf Schwierigkeiten. Modelle, die mit Frameworks wie PyTorch, TensorFlow und anderen in der Cloud trainiert wurden, lassen sich nicht ohne Weiteres in die eigene IT-Umgebung übertragen. Abhängigkeiten, plattformspezifische Systemanforderungen und unterschiedliche Datenformate erschweren die Migration und Integration. Auch eine plattformübergreifende Aktualisierung und Optimierung von Modellen ist nur mit hohem Aufwand möglich.

ONNX – ein offener Standard für KI-Interoperabilität

Um diese Probleme zu lösen, haben Facebook (heute Meta) und Microsoft vor rund zehn Jahren das Austauschformat ONNX (Open Neural Network Exchange) entwickelt. Seit 2019 wird es von der Linux Foundation betreut. Es bietet einen offenen Standard, der eine Migration zwischen verschiedenen Frameworks erheblich erleichtert.

ONNX definiert ein erweiterbares Graphenmodell, Operatoren und Standarddatentypen. Der Export trainierter Modelle aus PyTorch oder TensorFlow erfolgt über Tools wie torch.onnx oder tf2onnx. Dabei wird das Modell in ein Format überführt, das über die Laufzeitumgebung ONNX Runtime plattformunabhängig ausführbar ist.

ONNX auf dem PC: Optimale Leistung durch richtige Lastverteilung

Das ONNX-Format kann nur dann seine volle Leistung entfalten, wenn es die jeweilige Hardware-Plattform optimal nutzt. Auf KI-PCs mit AMD Ryzen AI Prozessoren wird das über die AMD Ryzen AI Software ermöglicht. Sie enthält Tools und Laufzeitbibliotheken, mit denen Entwickler KI-Modelle im ONNX-Format auf der integrierten Grafikeinheit (iGPU) oder der Neural Processing Unit (NPU) eines Ryzen AI PCs ausführen können. Die NPU ist Teil der AMD XDNA Architektur und wurde speziell für die Verarbeitung von KI-Modellen entwickelt. Sie entlastet den Hauptprozessor (CPU) von typischen KI-Workloads wie Bilderkennung, Inferenz oder Sprachausgabe und ermöglicht so eine hohe KI-Performance bei geringem Stromverbrauch.

Die Ryzen AI Software unterstützt die Ausführung von ONNX-Modellen auf der NPU über den Vitis AI Execution Provider (EP), der in die ONNX Runtime integriert ist. Dieser EP bestimmt automatisch, welche Teile des Modells auf der NPU ausgeführt werden, die dafür designt wurde, zu helfen, die Performance zu maximieren und den Energieverbrauch zu minimieren. Um die Effizienz potenziell weiter zu steigern, kann die Open-Source-Library AMD Quark eingesetzt werden. Sie ermöglicht es, den Rechenaufwand durch eine Modellquantisierung deutlich zu reduzieren. Dabei werden Werte hoher Präzision (zum Beispiel 32-Bit-Fließkommazahlen) komprimiert, ohne dass die Genauigkeit signifikant darunter leidet. Typische Zielwerte sind 16-Bit-Fließkommazahlen oder Ganzzahlen mit acht beziehungsweise vier Bit Tiefe. AMD Quark kann sowohl Modelle im ONNX-Format als auch in PyTorch implementierte LLMs quantisieren. Letztere werden dann in einem zweiten Schritt über den ONNX Runtime Generative AI (OGA) Model Builder in das ONNX-Format exportiert.

Benchmarks zeigen, dass die Ausführung von quantisierten ONNX-Modellen auf der Ryzen AI NPU im Vergleich zur Ausführung auf der CPU eine bis zu 7-fach schnellere Inferenzleistung ermöglicht – wobei gleichzeitig ein geringer Energieverbrauch aufrechterhalten wird. Dank Optimierung und Quantisierung laufen KI-Anwendungen auf AMD Ryzen AI PCs daher schnell und flüssigwobei die Energieeffizienz im Blick bleibt.

In fünf Schritten von der Cloud zum lokalen Einsatz

Um ein KI-Modell mit ONNX und Ryzen AI Software lokal nutzen zu können, sind folgende Schritte notwendig:

1. Modellauswahl und Vorbereitung.

Als Ausgangspunkt dient ein vortrainiertes Modell, etwa ein PyTorch-basiertes LLM oder ein TensorFlow-Modell für die Bildklassifizierung.

2. Export nach ONNX.

Tools wie torch.onnx.export oder tf2onnx konvertieren das Modell für die lokale Ausführung in das ONNX-Format. Dabei wird das Modell in eine ONNX-Datei umgewandelt, die alle notwendigen Informationen, Daten und Parameter enthält.

3. Installation und Konfiguration der Ryzen AI Software.

Die Ryzen AI Software wird auf dem Ziel-PC installiert, der über einen Ryzen AI Prozessor mit NPU verfügt. Die Installation umfasst die ONNX Runtime mit Vitis AI Execution Provider sowie die notwendigen Treiber.

4. Modellausführung mit ONNX Runtime und NPU-Beschleunigung.

Das ONNX-Modell wird mit der ONNX Runtime geladen und auf der NPU ausgeführt. Der Vitis AI Execution Provider optimiert die Ausführung automatisch.

5. Modelloptimierung und Monitoring.

Für eine weitere Leistungssteigerung kann das Modell mit AMD Quark quantisiert werden. Die Ryzen AI Software bietet zudem Tools zur Leistungsüberwachung und zum Profiling, um die Ausführung zu optimieren.

Fazit: Mit ONNX und Ryzen AI Software zum reibungslosen KI-Workflow

ONNX und die AMD Ryzen AI Software sind ein leistungsfähiges Team, mit dem sich KI-Modelle lokal auf Ryzen AI PCs ausführen lassen – unabhängig davon, wo und mit welchem Framework sie entwickelt und trainiert wurden. Entwickler und Anwender können so die Vorteile der lokalen Ausführung wie starker Datenschutz, geringe Latenz, hohe Verfügbarkeit und Kostenkontrolle nutzen. Die Integration in bestehende Entwicklungsprozesse ist dank standardisierter Tools und klarer Workflows unkompliziert. Quantisierungstools und voroptimierte Modelle vereinfachen den Einsatz zusätzlich.

AMD arbeitet beständig daran, die Zahl der unterstützten Modelle zu erweitern, die Bereitstellung zu erleichtern und die Integration mit anderen KI-Entwicklungstools wie der AMD ROCm Software-Plattform zu verbessern. Das birgt das Potenzial, die lokale Ausführung von KI-Modellen auf Ryzen AI PCs zukünftig noch leistungsfähiger und einfacher zu machen.