LLMs: Die Alleskönner in der KI-Welt – warum sie sich für so vieles einsetzen lassen

by

in

Als ich vor ein paar Jahren noch mitten im Studium war, hätte ich nicht gedacht, dass ausgerechnet LLMs (von Englisch Large Language Model) in der KI-Welt als erstes den großen Durchbruch schaffen. Ich ging eher davon aus, dass kleinere KI-Modelle, die trainiert sind auf sehr spezifische Aufgaben, wie beispielsweise das Erkennen von fehlerhaften Bauteilen in der Fertigung, zuerst den Einzug in jede Branche erlangen.

Dann erschien 2022 ChatGPT und plötzlich war das Thema KI in aller Munde. Bevor ChatGPT erschien, musste ich (damals Student im Studiengang Künstliche Intelligenz) den meisten Menschen, die gefragt haben, was ich studiere, ausführlich erklären was KI überhaupt ist und wofür es eingesetzt werden kann. Nachdem dann ChatGPT veröffentlicht wurde und die Schlagzeilen eroberte, kannte plötzlich jeder den Begriff KI und selbst Begriffe wie “Künstliches neuronales Netzwerk” sind plötzlich einer breiten Öffentlichkeit bekannt.

Rückwirkend betrachtet wird mir klar, warum ausgerechnet ein Sprachmodell diesen Aufruhr um KI ausgelöst hat. Jeder Mensch spricht eine Sprache und ist damit befähigt, Nutzen aus einem KI-Sprachmodell zu ziehen. Das macht Sprachmodelle der breiten Masse der Menschen zugänglich. Aber es gibt noch weitere Gründe, die Sprachmodelle so potent machen.

Die gewaltige Aussagekraft der menschlichen Sprache

Die mehreren zehntausend Jahre menschlicher Sprachevolution haben Sprache zu dem gemacht was es heute ist – ein Mittel, mit dem sich eine gewaltige Menge an Konzepten, Zusammenhängen und Vorkommnissen beschreiben und erklären lässt. KI-Modelle, die auf Basis einer riesigen Menge Texte trainiert worden sind, erlernen über menschliche Sprache diese Zusammenhänge und Konzepte der Welt. Dieser Umfang an “Grundwissen”, ist einer der Gründe warum KI-Sprachmodelle so anpassbar und umfangreich einsetzbar sind. Ein KI-Sprachmodell, das eine neue Aufgabe übernehmen soll, kann schon auf erlerntes zurückgreifen und muss grundlegende Konzepte und Zusammenhänge nicht für jede Aufgabe neu erlernen.

Sprachmodelle können noch viel mehr als “nur” Sprache

Tatsächlich trifft die Bezeichnung “Sprachmodell” oder “LLM” nicht mehr ganz zu auf die Klasse an KI-Modellen, die damit bezeichnet wird. Denn Sprachmodelle können mittlerweile allerlei Formen an Eingabe verstehen und auch die Ausgabe kann ganz unterschiedliche Formen annehmen. Dies können Bilder, Geschäftsdokumente, Programmiercode oder ähnliches sein. Die Transformer-Technik (das T in GPT), die jedem LLM zugrundeliegt, basiert auf einem Aufmerksamkeitsalgorithmus, der auch auf andere Arten von Eingabe in das KI-Modell angewandt werden kann. Außerdem sind sie fähig, fest strukturierte Inhalte auszugeben, die auf Grund der festen Struktur leicht von klassischer IT-Infrastruktur weiterverarbeitet werden können. Möchte man beispielsweise ein Sprachmodell dazu einsetzen, Informationen aus Geschäftsdokumenten zu extrahieren, benötigt man die Ausgabe des KI-Modells in einem immer gleichen Format, sodass diese Informationen automatisiert verbucht werden können. Auch Klassifizierungsaufgaben sind dadurch möglich. Beispielsweise könnte man ein LLM Produktbewertungen zu einem Produkt in einem Webshop den Kategorien “Positiv”, “Neutral” und “Negativ” zuordnen lassen.

Diese unglaubliche Vielfalt und Anpassbarkeit von KI-Sprachmodellen macht diese in vielen Anwendungsfällen zum Mittel der Wahl. Ein Sprachmodell kann durch geschicktes Prompt-Engineering sofort eine Vielzahl an Aufgaben übernehmen (Mehr dazu in meinem Blogbeitrag Prompt-Engineering vs. Fine-Tuning: Zwei Wege zur Anpassung von KI-Modellen).

Ich halte mich zu den aktuellen Funktionalitäten und Fähigkeiten der öffentlich zugänglichen Sprachmodelle verschiedener Anbieter auf dem laufenden und übernehme die Einbindung eines KI-Sprachmodells in Ihre IT-Infrastruktur gerne für Sie.