Artikel

Offene Ökosysteme – ist Open Source die Zukunft von KI?

Proprietäre KI-Modelle sind leistungsfähig, haben jedoch Schwächen bei Nachvollziehbarkeit, Datenschutz und Anpassbarkeit. Offene Ökosysteme könnten für mehr Transparenz, Sicherheit und Flexibilität sorgen.

Der KI-Markt wächst mit jährlichen Steigerungsraten im zweistelligen Bereich. Er könnte in wenigen Jahren die Grenze von einer Billion US-Dollar überschreiten. Das derzeit größte Wachstumspotenzial liegt im Bereich der generativen KI, die vor allem durch die schnelle Entwicklung großer Sprachmodelle (Large Language Models, LLM) enorm an Bedeutung gewonnen hat. Nach Prognosen des Marktforschungsunternehmens Precedence Research verzeichnet dieses Marktsegment ein durchschnittliches jährliches Wachstum von fast 45 Prozent. Der Umsatz mit generativer KI wird sich demnach bis 2030 verzehnfachen.

Aktuell wird die Entwicklung großer Sprachmodelle von wenigen Unternehmen dominiert. Wenn es um KI-Chatbots und intelligente Suchmaschinen geht, teilen sich OpenAI, Google, Perplexity und Anthropic den Markt nahezu vollständig auf. In den USA werden über 60 Prozent aller Anfragen von ChatGPT beantwortet. Auf Platz zwei liegt mit 14,3 Prozent Microsofts KI-Assistent Copilot, der wie ChatGPT auf dem LLM von OpenAI basiert. Auf den weiteren Rängen folgen Google Gemini (13,5 Prozent), Perplexity (6,2 Prozent) und Claude von Anthropic mit 3,2 Prozent.

Nachteile proprietärer KI-Modelle

Proprietäre KI-Modelle sind zwar leistungsfähig und einfach zu bedienen, haben jedoch auch eine ganze Reihe von Nachteilen. Entwickler wie OpenAI, Google oder Anthropic sind wenig auskunftsfreudig, was die Datenbasis ihrer Modelle und deren Training betrifft. Anwender können deshalb nicht sicher sein, dass diese Systeme unvoreingenommen sind und immer faktenbasierte Antworten liefern.

Beim sogenannten Prompting, also der Eingabe von Anfragen an die Sprachmodelle, werden teils sensible Informationen in die Cloud des Anbieters übertragen. Dadurch können personenbezogene Daten und Geschäftsgeheimnisse in falsche Hände geraten, wie mehrere Sicherheitsvorfälle zeigen. So gelang es Forschern, ChatGPT mit einem einfachen Trick zur Preisgabe von Trainingsdaten zu bringen. Bei Microsoft Copilot genügte eine geschickt formulierte E-Mail, um dem KI-Assistenten sensible Informationen zu entlocken.

Zwar erlauben proprietäre Modelle ein gewisses Maß an Feintuning, die Kontrolle über die zugrunde liegende Architektur und die Trainingsdaten liegt aber letztlich beim Anbieter. Nutzer können das Modell daher nur sehr begrenzt an spezifische Bedürfnisse anpassen. Wer seine Anwendungen und Services um ein proprietäres LLM herum aufbaut und dessen Schnittstellen und Funktionen intensiv nutzt, gerät darüber hinaus schnell in eine Abhängigkeit. Das kann zu hohen Kosten führen, etwa wenn der Anbieter seine Preispolitik ändert oder die Nutzung stark zunimmt.

Open Source als Alternative

Quelloffene Sprachmodelle haben in letzter Zeit deutlich an Leistungsfähigkeit und Beliebtheit gewonnen. Zu den bekanntesten Open-Source-Alternativen gehören Llama, das vom Facebook-Konzern Meta entwickelt wurde, Mistral / Mixtral des französischen Anbieters Mistral AI und DeepSeek der chinesischen Firma Hangzhou DeepSeek. Auch die Anbieter großer proprietärer Sprachmodelle haben quelloffene Varianten und Alternativen im Angebot. Hierzu zählen beispielsweise GPT-OSS von OpenAI, Gemma von Google oder Microsoft Phi.

Quellcode und Trainingsdaten von Open-Source-Modellen sind frei zugänglich. Das erlaubt es Entwicklern und Security-Experten, sie gründlich auf potenzielle Verzerrungen und Sicherheitsprobleme zu prüfen. Unternehmen können diese Modelle außerdem modifizieren und an ihre spezifischen Bedürfnisse anpassen. Da sich Open-Source-Modelle lokal im eigenen Rechenzentrum oder sogar auf Workstations und KI-PCs installieren und nutzen lassen, entfallen viele Datenschutz- und Compliance-Bedenken. Das Unternehmen behält die volle Kontrolle darüber, wo seine Daten gespeichert werden, und wer Zugriff darauf erhält. Auch die Kosten lassen sich so wesentlich besser kalkulieren und kontrollieren.

Allerdings haben auch offene Systeme Nachteile. Da sie frei zugänglich sind, können sie relativ einfach manipuliert oder für kriminelle Zwecke missbraucht werden. Der einzige Schutz dagegen liegt in der Developer Community. Ihre Mitglieder tragen gemeinsam die Verantwortung für eine sichere und regelkonforme Entwicklung und Nutzung. Vor allem kleine Open-Source-Projekte mit wenigen Teilnehmern lassen sich leicht kompromittieren, wie das Beispiel XZ Utils zeigt. Einem Angreifer gelang es, sich als Entwickler in das kleine Projektteam zu schleichen und eine Backdoor zu implementieren. Über diese konnten Angreifer Schadcode auf einem Zielsystem installieren und ausführen. Die Hintertür wurde allerdings schnell erkannt und geschlossen.

Nicht zuletzt ist der lokale Einsatz von Open-Source-Modellen auch eine Ressourcenfrage. Viele Anwenderunternehmen werden um eine Modernisierung ihres Rechenzentrums nicht herumkommen, wenn sie LLMs und andere KI-Modelle lokal entwickeln und im großen Maßstab einsetzen wollen. Selbst wenn das Budget für die umfassende Aktualisierung der IT-Infrastruktur vorhanden ist, bleibt immer noch das Problem des Fachkräftemangels. In vielen Organisationen fehlt es nach wie vor an KI-Experten. Die Situation könnte sich allerdings in nächster Zeit entspannen, da derzeit vor allem große Anbieter wie Intel und Microsoft Fachpersonal in erheblichem Umfang freisetzen.

Ökosysteme für Open-Source-KI-Modelle

Rund um die Entwicklung und Nutzung von KI haben sich eine ganze Reihe offener Ökosysteme gebildet. Sie bestehen aus Plattformen, Frameworks, Bibliotheken und Tools, die von einer engagierten Entwicklergemeinschaft gepflegt und weiterentwickelt werden. Durch umfassende Dokumentations- und Trainingsmaterialien erleichtern Ökosysteme den Einstieg in die Entwicklung und Nutzung von Open-Source-KI-Modellen. Bei Problemen oder spezifischen Fragen leisten Experten in Foren Unterstützung.

Zu den wichtigsten Ökosystemen im Open-Source-KI-Bereich gehören die folgenden Umgebungen:

– Hugging Face: Hugging Face bietet eine umfangreiche Bibliothek mit vortrainierten Modellen, Trainingsdatensätzen und anderen Tools, die für Aufgaben wie Textzusammenfassung, Übersetzung, Stimmungsanalyse, Textklassifizierung und Computer-Vision-Aufgaben eingesetzt werden können. Die Plattform ist eine sehr beliebte Anlaufstelle für die Open-Source-KI-Community.

– TensorFlow: Das ursprünglich von Google entworfene Framework TensorFlow hat sich zu einem umfassenden Ökosystem von Tools, Bibliotheken und Community-Ressourcen weiterentwickelt. Es ist zu vielen Programmiersprachen wie Python, C++ und JavaScript kompatibel und ermöglicht über die Integration der Deep-Learning-Bibliothek Keras eine einfache Modellentwicklung und ein schnelles Prototyping.

– PyTorch: PyTorch ist ein beliebtes Open-Source-Machine-Learning-Framework, um das herum sich eine sehr aktive Community gebildet hat. Es wurde von Meta entwickelt und zeichnet sich durch dynamische Berechnungsgraphen aus, die während der Laufzeit definiert und erstellt werden. Das erleichtert das Debugging und beschleunigt die Weiterentwicklung von Modellen. PyTorch wird von einer großen aktiven Community unterstützt und bietet Zugang zu Ressourcen, Tutorials und vortrainierten Modellen.

– ROCm: Die Radeon Open Compute-Plattform (ROCm) von AMD ist ein umfassender Software-Stack, der Entwickler im KI- und HPC-Bereich unterstützt. ROCm bietet verschiedene Programmierschnittstellen für die parallele Programmierung auf GPUs, darunter HIP (Heterogeneous-computing Interface for Portability), OpenMP und OpenCL. Über Schnittstellen zu PyTorch, TensorFlow und anderen Deep-Learning-Frameworks lässt sich Machine-Learning-Code sehr einfach auf die Instinct KI-Beschleuniger von AMD portieren.

Fazit: Open Source braucht offene Ökosysteme

Open-Source-LLMs benötigen Ökosysteme, die ihre Entwicklung, Bereitstellung und Anwendung unterstützen. Damit diese wirklich wettbewerbsfähig sind, müssen sie neben einem umfangreichen Softwareangebot an Frameworks, Entwickler-Tools, Bibliotheken und Programmierschnittstellen sowie einer aktiven Community auch nahtlose Hardware-Unterstützung bereitstellen.

Mit den AMD EPYC Prozessoren der fünften Generation, den AMD Pensando Pollara Netzwerkadaptern und den KI-Beschleunigern der Instinct MI350-Serie bietet AMD eine umfassende, auf Standards basierende KI-Infrastruktur, die optimal mit dem ROCm-Ökosystem zusammenarbeitet. Mit Version 7 von ROCm verbessert der Hersteller die Unterstützung für Standard-Frameworks, erweitert die Hardwarekompatibilität und bietet neue Tools, die die Entwicklung generativer KI-Anwendungen erleichtern. So können Unternehmen KI-Projekte schneller, sicherer und kosteneffizienter umsetzen.