Von Training bis Inferenz: Hardware-Empfehlungen für KI-Workflows
Die Entwicklung und Nutzung von KI-Modellen lässt sich grundsätzlich in drei Phasen unterteilen: Zunächst wird das Modell trainiert, dann an bestimmte Fragestellungen oder branchenspezifische Anforderungen angepasst und schließlich produktiv eingesetzt. In diesem eBook erfahren Sie, wie sich die Anforderungen in den einzelnen Phasen unterscheiden und welche Auswirkungen dies auf die Wahl der Hardware hat.
Inhalt
Herkömmliche Rechenzentren sind oft nicht in der Lage, KI-Workflows mit der erforderlichen Geschwindigkeit und Effizienz auszuführen. IT-Verantwortliche müssen deshalb ihre IT-Infrastruktur modernisieren – nicht zuletzt auch, um mehr Leistung pro Flächeneinheit bereitstellen zu können. Schließlich ist der Platz im Rechenzentrum begrenzt. Eine bauliche Erweiterung ist oft nicht möglich oder wäre mit zu hohen Investitionen verbunden.
Bei der Modernisierung sollten IT-Verantwortliche genau analysieren, welche KI-Workloads zukünftig bearbeitet werden sollen. Grundsätzlich kann man dabei zwischen drei Arten von Anforderungen unterscheiden: dem Training, der Feinabstimmung und der Anwendung (Inferenz).
Sollen große KI-Modelle mit Milliarden von Parametern und einer hohen Genauigkeit trainiert werden, führt kein Weg an spezialisierten KI-Beschleunigern vorbei. Für die Feinabstimmung lassen sich die Modelle häufig reduzieren, sodass weniger dedizierte KI-Beschleuniger zum Einsatz kommen müssen. Oft genügt sogar die Performance hochleistungsfähiger CPUs. Für Inferenz-Aufgaben sind gängige Server-CPUs meist ausreichend. Auch KI-PCs und Workstations sind in der Lage, Inferenz-Aufgaben mit hoher Geschwindigkeit auszuführen.
Dieses eBook ermöglicht Ihnen einen Überblick über die jeweiligen Anforderungen in den drei Phasen und gibt Empfehlungen für die jeweils passende Hardware.
Originalauszug aus dem Dokument:
FEINABSTIMMUNG
DIE MEISTEN BEGINNEN NICHT BEI NULL
Es gibt bereits viele Modelle, um Unternehmens-KI-Herausforderungen anzugehen. Online stehen Tausende von Modellen zur Verfügung, und einige davon sind bereits vortrainiert. Wenn Sie aus diesen eines auswählen, beginnen Sie Ihren KI-Prozess mit der Feinabstimmung des Modells auf Ihre Anforderungen, und Sie beschleunigen den Abstimmungsprozess mit dem Beschleunigungs-Level, das Sie für Ihren Job benötigen.
KEIN MODELL IST PERFEKT
Neu trainierte Modelle haben meist noch ihre Ecken und Kanten. Während der Feinabstimmung werden die Modelle getestet und es werden Schutzvorrichtungen eingerichtet, um sie auf Kurs zu halten. Abhängig vom Modell und der Datensatzgröße können Sie die Feinabstimmung mithilfe von Servern mit AMD EPYC CPUs durchführen. Gelegentlich benötigen Sie ein moderates Maß an Abstimmung, das mit einer GPU geliefert wird, und für generative Kl müssen Sie Ihre Large Language Models so abstimmen, dass Sie die größtmögliche Performance erhalten.