Was ist ein Large Language Model (LLM)?

Mark Jackley | Content Strategist | 16. Februar 2024

a

Große Sprachmodelle, kurz LLMs, sind eine zunehmend verbreitete Form der künstlichen Intelligenz, die in erster Linie darauf ausgelegt ist, auf Eingaben per Text, Sprache oder anderen Kanälen mit menschenähnlichen Antworten zu reagieren. Da LLMs auf großen Textmengen trainiert werden, lernen sie, das nächste Wort oder eine Wortfolge basierend auf dem durch den Prompt vorgegebenen Kontext vorherzusagen – sie können sogar den Schreibstil bestimmter Autoren oder ganzer Genres nachahmen.

LLMs gelangten in den frühen 2020er-Jahren aus den Forschungslabors in die breite Öffentlichkeit. Seitdem haben sie sich dank ihrer beeindruckenden Fähigkeit, Anfragen zu interpretieren und relevante Antworten zu generieren, sowohl zu eigenständigen Produkten als auch zu wertsteigernden Funktionen in Unternehmenssoftware entwickelt. Sie unterstützen heute unter anderem Natural Language Processing, maschinelle Übersetzung, Content-Erstellung, Chatbots, Dokumentenzusammenfassungen und vieles mehr.

Diese Technologie entwickelt sich rasant weiter. Sie verarbeitet immer größere Datenmengen und integriert zusätzliche Trainings- und Tuningphasen, um die Leistungsfähigkeit der Modelle zu erhöhen. Umfangreichere und tiefere Trainingsprozesse – ermöglicht durch immer leistungsfähigere Compute-Infrastrukturen – führen zu zunehmend ausgereiften Fähigkeiten im Bereich des Reasonings. Diese lassen sich nutzen, um Pläne zu erstellen, mit denen organisatorische Ziele effizient erreicht werden können. Diese Reasoning-Fähigkeiten bilden zudem die Grundlage für die Funktionsweise von KI-Agenten. Sie setzen fortgeschrittene LLMs ein, um Aufgaben zu erledigen, die ihnen von menschlichen Anwendern vorgegeben werden.

Was versteht man unter großen Sprachmodellen (Large Language Models, LLMs)?

Große Sprachmodelle sind Systeme der künstlichen Intelligenz, die auf umfangreichen Datensätzen trainiert wurden – oft bestehend aus Milliarden von Wörtern aus Büchern, dem Web und anderen Quellen –, um menschenähnliche und kontextrelevante Antworten auf Anfragen zu erzeugen. Da LLMs darauf ausgelegt sind, Fragen – oder „Prompts“ in der LLM-Terminologie – zu verstehen und natürliche Sprachantworten zu generieren, können sie Aufgaben übernehmen wie das Beantworten von Kundenanfragen, das Zusammenfassen von Berichten, das Übersetzen zwischen Sprachen sowie das Verfassen von Gedichten, Computercode oder ersten Entwürfen von E-Mails. LLMs verfügen in der Regel über ein ausgeprägtes Verständnis der Grammatik und Semantik der Sprachen, in denen sie trainiert wurden. Zudem lassen sie sich so konfigurieren, dass sie mit den unternehmenseigenen Daten arbeiten und dadurch Antworten liefern, die speziell auf die Organisation zugeschnitten sind.

Trotz dieser beeindruckenden Fähigkeiten sollten sich Anwender der Grenzen von LLMs bewusst sein. Veraltete Daten oder unpräzise formulierte Prompts können zu Fehlern führen – wie z. B. wenn ein Chatbot eine falsche Antwort zu den Produkten eines Unternehmens gibt. Ein Mangel an ausreichenden Daten kann dazu führen, dass LLMs Antworten erfinden oder „halluzinieren“. Und obwohl LLMs hervorragende Vorhersagen liefern, konnten sie historisch nur unzureichend erklären, wie sie zu einer bestimmten Schlussfolgerung gelangt sind. Genau in diesen Bereichen setzen neuere LLMs an und streben deutliche Verbesserungen an.

Dennoch stellen LLMs einen bedeutenden Fortschritt im Bereich des Natural Language Processing dar. Für Unternehmen ergeben sich vielfältige Einsatzmöglichkeiten – neue Anwendungen entstehen derzeit in rasantem Tempo und werden bereits breit eingesetzt.

Wichtige Erkenntnisse

  • Große Sprachmodelle gehören zum aktuellen Stand der Technik im Bereich des Natural Language Processing und werden zudem eingesetzt, um multimodale KI zu entwickeln, die Audio und Bilder generieren kann.
  • „Large“ ist dabei ein relativer Begriff und bezieht sich auf die Anzahl der Parameter, die ein Modell auswertet, um die Ausgabe für einen bestimmten Prompt zu bestimmen.
  • LLMs rückten 2022 mit der Veröffentlichung von ChatGPT schlagartig in den Mittelpunkt, einer Anwendung, die das GPT-3.5-Modell von OpenAI der breiten Öffentlichkeit zugänglich machte. Weitere verbreitete Modelle sind Llama, Gemini und Cohere Command R.

Große Sprachmodelle einfach erklärt

Die Verarbeitung natürlicher Sprache ist seit den 1960er-Jahren ein aktives Forschungsfeld der künstlichen Intelligenz, und frühe Sprachmodelle reichen mehrere Jahrzehnte zurück. Große Sprachmodelle haben das Gebiet entscheidend vorangebracht, indem sie Deep Learning einsetzen – eine Technik, bei der Machine Learning in Schichten auf neuronale Netze aufsetzt, um deutlich leistungsfähigere Modelle zu entwickeln. Ein weiteres Merkmal von LLMs ist, dass das Training des Foundation Models ohne menschliche Eingriffe in Form von gelabelten Daten erfolgt – ein Verfahren, das als selbstüberwachtes Lernen bezeichnet wird.

Die moderne Vorstellung eines LLM entstand 2017 durch ein wegweisendes Paper von Google, das eine leistungsstarke neue Architektur namens Transformer-Netzwerke beschrieb. Transformer nutzen einen Self-Attention-Mechanismus, der parallele Verarbeitung ermöglicht und sowohl das Training als auch den Einsatz der Modelle erheblich beschleunigt und kostengünstiger macht. OpenAI setzte diese Architektur ein, um GPT-1 zu entwickeln, das von vielen als das erste moderne LLM betrachtet wird.

Unternehmen wurden schnell aufmerksam – sie erkennen zunehmend, dass LLMs eine Vielzahl von Anwendungsfällen unterstützen können und ein enormes Potenzial bieten, ihre Geschäftsprozesse produktiver, effizienter und kundenorientierter zu gestalten.

LLMs im Vergleich zu anderen KI-Modellen: Effizienz und Skalierbarkeit

LLMs sind nur eine von vielen Arten künstlicher Intelligenz, die durch Machine Learning entwickelt werden. Dennoch gibt es einige Merkmale, die diese Modelle klar definieren und von anderen unterscheiden. An erster Stelle steht ihre Größe. Das „Large“ in LLM bezieht sich sowohl auf die Anzahl der Parameter, die die endgültige Ausgabe berechnen, als auch auf die Datenmenge, die beim Training des Modells verwendet wird, um diese Parameter anzupassen.

  • Größe und Leistung: LLMs werden durch ihre Modellgröße definiert, die sich in der Anzahl der Parameter widerspiegelt, die ihre Ausgaben bestimmen. Die führenden Modelle sind innerhalb weniger Jahre exponentiell gewachsen: GPT-1 hatte etwas mehr als 100 Millionen Parameter; sein jüngster Nachfolger, GPT-4, wird auf mehr als 1,75 Billionen geschätzt – auch wenn OpenAI die tatsächliche Größe nicht offengelegt hat.

    In der Regel gilt: Je größer das Modell und je umfangreicher der Trainingsdatensatz, desto besser fällt die Leistung aus – insbesondere bei der Erzeugung einzigartiger und relevanter Antworten, die menschliches Verständnis und Sprachgenerierung überzeugend nachahmen. Die Leistung lässt sich unter anderem über die Perplexity messen – einen Wert, der angibt, wie sicher sich das Modell bei der Vorhersage des nächsten Wortes in einer Ausgabeabfolge ist.

    Größere Modelle liefern in der Regel eine bessere Leistung – aber nicht in jeder Hinsicht. Mögliche Nachteile sind eine höhere Latenz, also die Zeit, die das Modell benötigt, um eine Antwort auf einen Prompt zu generieren, sowie Herausforderungen bei der Skalierung aufgrund der erforderlichen Compute-Infrastruktur. Zudem sind große Modelle schwieriger an spezifische Unternehmensanforderungen anzupassen. Daher gibt es verstärkte Bestrebungen, kleinere LLMs zu entwickeln, die wirtschaftlicher einsetzbar sind und dennoch gute Ergebnisse liefern – zumindest in enger gefassten Domänen und Einsatzszenarien.
  • Skalierbarkeit und Einsatz: LLMs können auf verschiedene Weise bereitgestellt werden. Kommerzielle Anbieter wie OpenAI, Google und Cohere stellen ihre Modelle über gehostete Services bereit – per Browser, App oder API-Aufruf. Viele Unternehmen bevorzugen jedoch, ihre eigenen LLMs zu betreiben, meist Foundation Models, die feinabgestimmt wurden oder mit proprietären Geschäftsdaten angereichert sind – oder beides. Diese Modelle laufen dann auf lokalen Servern oder in der Public Cloud, wo die Inferenzphase ausgeführt wird. Personen und Software greifen über direkte Aufrufe oder API-Endpunkte auf sie zu.

    Unabhängig von der Bereitstellungsmethode müssen LLMs – insbesondere diejenigen, die der breiten Öffentlichkeit oder einer großen Belegschaft zugänglich sind – skalieren können, um die erwartete Nachfrage zu erfüllen, ohne das Unternehmensbudget zu sprengen. Die Wirtschaftlichkeit dieser Skalierung erfordert Abwägungen. Maßnahmen zur Verbesserung der Skalierbarkeit, wie leistungsfähigere Inferenzinfrastrukturen, verteiltes Computing sowie effektives Load-Balancing und Caching, sind mit Kosten verbunden. Gelingt es nicht, ein ausgewogenes Verhältnis zwischen Kosten und Nutzen herzustellen, drohen erhöhte Latenzzeiten, eingeschränkte Echtzeitfähigkeit, inkonsistente Leistung, eine niedrige Akzeptanz durch die Belegschaft sowie unzureichende Datenschutz- und Sicherheitsmaßnahmen.
  • Domänenanpassung: Die leistungsfähigsten Foundation Models können abstrakte, hochwertige Daten verarbeiten und in ihren Ausgaben Kreativität zeigen. Nachdem ein Modell mit der passenden Leistungsfähigkeit und Funktionalität ausgewählt wurde, lässt sich die Performance durch Fine-Tuning für spezialisierte Domänen und Anwendungsfälle weiter steigern. Diese Phase des überwachten Lernens passt das LLM an die gewünschte Domäne an, ohne das zugrunde liegende Foundation Model (Basismodell) vollständig neu zu trainieren.

    Die Angleichung von Merkmalsverteilungen, indem Daten mit gemeinsamen Domänencharakteristika sowohl im ursprünglichen Training als auch im Fine-Tuning stärker gewichtet werden, ist ebenfalls ein wirksamer Ansatz, um die Domänenanpassung zu verbessern.

    Diagramm zu großen Sprachmodellen
    Das Diagramm zeigt, wie große Sprachmodelle lernen und anschließend Vorhersagen treffen. In der Trainingsphase erlernt das Modell Muster. Danach folgt die Inferenzphase, in der neue Daten verarbeitet werden, um Erkenntnisse oder Vorhersagen zu generieren.
    LLMs sind eine Form der sprachgenerierenden KI, die umfassend trainierte neuronale Netze nutzt, um Prompts auszuwerten und darauf zu antworten. „Large“ hat dabei keine feste Grenze – die Schwelle steigt kontinuierlich, da Modelle immer komplexer werden und die verfügbare Rechenleistung, insbesondere der Zugang zu GPU-Clustern, zunimmt.

    Bevor das Training beginnt, wird Sprache in Token umgewandelt – numerische Repräsentationen von Wörtern oder Wortteilen, die von Computern verarbeitet werden können.

    Anschließend werden ein Algorithmus – einschließlich eines umfangreichen neuronalen Netzes – und ein Datensatz für das selbstüberwachte Lernen ausgewählt. Während der Trainingsphase passt der Algorithmus seine Milliarden oder sogar Billionen von Parametern so lange an, bis er das nächste Token in einer Sequenz korrekt vorhersagen kann und das Modell angemessen auf Prompts reagiert. Die Parameter des Modells enthalten somit das während der Trainingsphase erworbene Wissen.
  • Kernarchitektur der Transformer: Transformer stellten den entscheidenden konzeptionellen Durchbruch dar, der die aktuelle Welle der Begeisterung rund um LLMs und generative KI ausgelöst hat. In einem bahnbrechenden Bericht von Google-Forschern aus dem Jahr 2017 beschrieben, löste sich diese Architektur von früheren Ansätzen zur Erstellung von Sprachmodellen. Anstatt sich strikt auf sogenannte Rekurrenz zu stützen – also auf eine sequenzielle Verarbeitung von Eingaben und Ausgaben –, nutzen Transformer einen Mechanismus namens „Self-Attention“. Dieser berücksichtigt gleichzeitig die Beziehungen zwischen mehreren Wörtern, selbst wenn diese weit voneinander entfernt im Text stehen. Dabei entstehen drei verschiedene Vektoren: ein Vektor für das betrachtete Wort, ein weiterer für die umliegenden Wörter zur Bestimmung ihrer Bedeutung für das Verständnis des Wortes, und ein dritter Vektor, der die enthaltene Information repräsentiert. Dieser dritte Vektor nimmt je nach Kontext des Wortes unterschiedliche Werte an. Beispielsweise kann „blue“ die Farbe meinen, eine Stimmung beschreiben oder – wie in „the thought came to her out of the blue“ – eine überraschende Eingebung ausdrücken.

    Ein Beispiel für eine Textpassage:
    „How are you feeling?“, fragte sie.

    „I’m not sure“, antwortete er. „I can’t really get into work today, and it’s been this way for a while. I’m just so blue.“

    Vor Einführung des Self-Attention-Mechanismus konnten Algorithmen die Beziehung zwischen „feeling“ und „blue“ nicht zuverlässig herstellen, sodass Fehlinterpretationen wahrscheinlich waren. Self-Attention schafft die Möglichkeit, die Relevanz dieser Verbindung zu erkennen – selbst wenn die Wörter im Satz weit auseinanderliegen.

    Darüber hinaus ermöglicht Self-Attention, Modelle parallel auf großen Datenmengen zu trainieren. Transformer verarbeiten dabei ganze Sätze gleichzeitig, anstatt Wort für Wort vorzugehen. Damit werden die Fähigkeiten von GPUs noch besser ausgeschöpft. Zudem können Transformer die Token eines Prompts gleichzeitig analysieren, wodurch Antworten schneller generiert werden und sprachliche Mehrdeutigkeiten präziser aufgelöst werden können.
  • Training und Fine-Tuning: Foundation Models (Basismodelle) – die aktuellen Arbeitspferde unter den LLMs – werden auf umfangreichen Textkorpora trainiert, die häufig aus dem Internet und anderen Repositorys schriftlicher Informationen stammen. Erfolgreiche Modelle aus dieser Phase des selbstüberwachten Lernens, in der Milliarden von Parametern iterativ angepasst werden, liefern in der Regel sehr gute allgemeine Ergebnisse: Sie erzeugen Texte in unterschiedlichen Kontexten, verstehen Bedeutungen in verschiedenen Sprachstilen und können komplexe oder sogar abstrakte Ideen darstellen.

    Ein Foundation Model kann anschließend feinabgestimmt werden, um seine Genauigkeit zu erhöhen und die Leistung in einer bestimmten Domäne – wie z. B. Gesundheitswesen oder Finanzwesen – oder für einen speziellen Anwendungsfall wie Übersetzung oder Zusammenfassung zu optimieren. Das Fine-Tuning baut auf dem Foundation Model auf und trainiert das endgültige LLM mit kleineren, präzise annotierten Datensätzen weiter, um seine Fähigkeit zu schärfen, spezifische Aufgaben in einem Geschäftsbereich oder einer Anwendung zuverlässig zu erfüllen.
  • Wichtigkeit von Modell und Skalierbarkeit: Entwickler von LLMs legen fest, wie viele Parameter ihr Algorithmus trainieren soll und wie viele Daten dafür erforderlich sind. Je größer diese Zahl, desto komplexer das resultierende Modell und desto einzigartiger, genauer und relevanter meist auch die Ausgaben. Doch diese höhere Leistung geht mit steigenden Trainings- und Betriebskosten einher – ebenso wie mit Herausforderungen bei der Skalierung, um nach dem Training eine größere Anzahl von Nutzern zu bedienen.

    Die Skalierbarkeit einer LLM-Bereitstellung hängt unter anderem von der Qualität des Modells ab. Der Trainingsalgorithmus, die Modellarchitektur und der gewählte Datensatz beeinflussen maßgeblich, wie effizient ein Foundation Model Ressourcen wie Speicher, Prozessorleistung und Energie nutzt, um die gewünschten Funktionen auszuführen.

    Zudem entstehen neue Techniken, die darauf abzielen, die Modellgröße und den Umfang der Trainingsdaten zu reduzieren und damit Kosten und Komplexität der Skalierung zu senken, ohne die Leistung des LLM wesentlich zu beeinträchtigen, insbesondere wenn es für eng begrenzte Anwendungsfälle eingesetzt wird.

Vorteile von großen Sprachmodellen

LLMs sind der Motor unter der Haube vieler moderner Anwendungen. Die breite Öffentlichkeit entdeckte ihre beeindruckenden Fähigkeiten vor allem mit dem Aufkommen von ChatGPT – der browserbasierten Bereitstellung des GPT-3.5-Modells von OpenAI – sowie späterer Versionen wie GPT-4o und GPT-4. Doch die Vorteile reichen weit über den Consumer-Bereich hinaus: In Unternehmen beweisen LLMs ihr Potenzial in Branchen und Geschäftsbereichen wie Finanzdienstleistungen, HR, Einzelhandel, Marketing und Vertrieb, Softwareentwicklung, Kundensupport und Gesundheitswesen.

Zu den verbreiteten geschäftlichen Einsatzszenarien gehören Kundenservice-Chatbots, Analysen der Kundenstimmung sowie kontextbezogene, idiomatische und natürlich klingende Übersetzungsdienste. Daneben übernehmen LLMs im Hintergrund spezialisierte Aufgaben wie die Vorhersage von Proteinstrukturen in der pharmazeutischen Forschung, das Schreiben von Softwarecode oder das Unterstützen von Agenten, die Unternehmen zunehmend zur Automatisierung von Geschäftsprozessen einsetzen.

  • Vielseitigkeit in unterschiedlichsten Anwendungen: LLMs bilden die Kerntechnologie für eine wachsende Anzahl von Consumer- und Enterprise-Anwendungen. Diese Vielseitigkeit ist dem selbstüberwachten Training auf großen Datensätzen zu verdanken, das ein KI-Modell hervorbringt, das komplexe Muster effizient analysieren und relevante, kontextbezogene Ergebnisse erzeugen kann.

    Modernste Anwendungen nutzen diese Fähigkeit beispielsweise, um einzigartige Marketingtexte und Berichte zu erstellen, die Stimmung von Kunden zu beurteilen, Dokumente zusammenzufassen oder sogar nichtsprachliche Inhalte wie Bilder und Audio zu generieren. KI-Agenten zeigen die Vielseitigkeit von LLMs besonders deutlich, da sie mit ihrer Umgebung interagieren und Aufgaben domänenübergreifend ohne spezialisierte Vorkenntnisse ausführen können.

    Durch Fine-Tuning mittels überwachtem Lernen wird das Spektrum geschäftlicher Einsatzmöglichkeiten weiter vergrößert. Und RAG steigert die Effektivität von LLMs in Unternehmensumgebungen zusätzlich, da es Genauigkeit und Relevanz der Ausgaben verbessert, indem kontinuierlich aktualisierbare proprietäre Geschäftsdaten in die Antworten einfließen – ohne dass das zugrunde liegende Modell verändert werden muss.
  • Optimierte Kundeninteraktionen: LLMs haben ihre Stärke im Kundenservice schnell unter Beweis gestellt. Wer erlebt hat, wie ein LLM ein Gespräch führen und eine Reihe nuancierter Fragen klar, detailliert und hilfreich beantworten kann, erkennt diesen Anwendungsfall sofort.

    LLMs können Kundeninteraktionen jedoch auf viele weitere Arten verbessern – weit über den Einsatz von Chatbots hinaus. Einige Unternehmen nutzen LLMs, um E-Mails, Textnachrichten oder Social-Media-Beiträge zu generieren, die produkt-, technisch- oder vertriebsbezogene Fragen ihrer Kundschaft beantworten. Andere setzen LLMs ein, um Anfragen von Kunden zu übersetzen, die andere Sprachen sprechen. LLMs können zudem so konfiguriert werden, dass sie Verkaufs- und Supportteams – sowohl menschliche Mitarbeiter als auch KI-Agenten – unterstützen, indem sie verwertbare Informationen und relevante Dokumentationen bereitstellen, frühere Interaktionen zusammenfassen, mit Kunden Kontakt aufnehmen und sämtliche Vorgänge dokumentieren.

    Eines der weltweit größten Beratungsunternehmen mit Aktivitäten in über 100 Ländern hat kürzlich seinen Schwerpunkt auf Customer Relationship Management verstärkt und generative KI-Anwendungen auf Basis von LLMs eingeführt. Um mehr Erkenntnisse aus Kundenfeedback-Umfragen zu gewinnen, setzt das Unternehmen LLMs ein, um die Stimmungslage in den Antworten zu analysieren. Die KI kann nun Trends aufzeigen und umfassende Einblicke liefern, wie Produkte und Services wahrgenommen werden und wo Verbesserungen möglich sind.
  • Automatisierung und Produktivität: LLMs erweisen sich als äußerst wirkungsvoll bei der Automatisierung repetitiver Aufgaben – auch solcher, die Entscheidungen erfordern, die frühere KI-Modelle nicht bewältigen konnten. Diese Automatisierung steigert die Produktivität, da Mitarbeiter sich stärker auf anspruchsvollere Aufgaben konzentrieren können, die kreatives und kritisches Denken erfordern.

    Agenten sind eine neue Technologie, die die ausgefeilten Reasoning-Fähigkeiten von LLMs nutzt, um Workflows mit minimalem menschlichen Eingriff zu steuern. Diese auf Foundation Models basierenden Anwendungen sind darauf ausgelegt, Entscheidungen zu treffen, während sie mit Menschen und anderen Softwarelösungen in Unternehmensumgebungen interagieren. Sie können autonom Aufgaben in verschiedenen Bereichen ausführen und Benachrichtigungen über Maßnahmen generieren, die überprüft oder genehmigt werden müssen, um die notwendige Kontrolle sicherzustellen.

    LLMs steigern die Produktivität darüber hinaus auf weitere Weise – wie z. B. indem sie relevante Informationen für Führungskräfte und andere Entscheidungsträger schnell bereitstellen, Entwürfe für Marketingtexte erstellen oder gemeinsam mit Entwicklerteams Softwarecode verfassen.

Anwendungsfälle und Beispiele für große Sprachmodelle

LLMs kommen in einer stetig wachsenden Zahl von geschäftlichen Anwendungsfällen zum Einsatz. Viele Unternehmen nutzen heute beispielsweise Chatbots als Bestandteil ihrer Kundenservice-Strategie. Doch dank der Vielseitigkeit dieser Modelle setzen innovative Enterprise-Softwareentwickler die zugrunde liegende Technologie ein, um ein breites Spektrum an Aufgaben zu bewältigen – weit über die reine Generierung sprachlicher Antworten hinaus.

1. Automatisierung des Kundensupports

Der Kundenservice ist der offensichtlichste Anwendungsbereich von LLMs in Unternehmensumgebungen – insbesondere aus Sicht der Kundschaft. Dialogorientierte Benutzeroberflächen, also Chatbots, können rund um die Uhr nahezu unbegrenzt viele Anfragen bearbeiten. Dies kann die Reaktionszeiten erheblich verkürzen, die häufig durch überlastete Callcenter-Mitarbeiter entstehen – ein wesentlicher Faktor für Kundenfrustration.

Durch die Integration von Chatbots mit weiteren LLM-basierten Anwendungen lassen sich Folgeaktionen nach einem Supportkontakt automatisieren, wie z. B. das Versenden eines Ersatzteils, eines Dokuments oder einer Umfrage. LLMs können zudem menschliche Supportteams direkt unterstützen, indem sie zeitnahe Informationen, Stimmungsanalysen, Übersetzungen und Zusammenfassungen von Interaktionen bereitstellen.

Ein Fondsmanager, der in mehr als 50 Ländern und 80 Sprachen tätig ist, nutzt diese Möglichkeiten, um es Kunden zu erleichtern, die Finanzprodukte zu finden und auszuwählen, die am besten zu ihren Bedürfnissen passen. Das auf Altersvorsorgekonten spezialisierte Unternehmen modernisierte seinen Kundenservice mit einem maßgeschneiderten Chatbot – und erzielte damit eine Steigerung des Servicelevels um 150 % sowie eine Senkung der Betriebskosten um 30 %. Kunden können nun jederzeit und in vielen Sprachen über die Webseite des Unternehmens Fragen zu ihren Konten stellen.

2. Inhaltsgenerierung und Zusammenfassung

LLMs können eigenständige Inhalte erstellen oder bestehende Inhalte zusammenfassen. Beide Einsatzszenarien sind für Unternehmen jeder Größe äußerst wertvoll: Generative KI wird zunehmend genutzt, um Berichte, E-Mails, Blogs, Marketingmaterialien und Social-Media-Beiträge zu verfassen – und dabei die Fähigkeit von LLMs zu nutzen, Inhalte für bestimmte Zielgruppen oder einzelne Kunden maßzuschneidern.

Die Zusammenfassung großer Informationsmengen verdichtet Inhalte domänensensibel in ein Format, das Menschen schneller erfassen und verarbeiten können. LLMs erreichen dies entweder, indem sie die Relevanz verschiedener Ideen im Text bewerten und zentrale Abschnitte extrahieren, oder indem sie kompakte Überblicke über jene Informationen generieren, die sie als besonders relevant und wichtig erachten.

Allerdings wird LLMs gelegentlich vorgeworfen, „auf Durchschnitt zu kürzen“ – also zu generisch zusammenzufassen und wichtige Details oder Akzentuierungen des Ausgangstextes zu übersehen. Zudem ist es schwierig, die Zuverlässigkeit von Zusammenfassungen objektiv zu bewerten und die Leistung verschiedener Modelle entsprechend zu vergleichen. Dennoch setzen Unternehmen diese Fähigkeit mit großer Begeisterung ein.

Ein führender Anbieter für Cloud-Kommunikation implementierte LLMs, um Transkripte von Hunderten Supporttickets und Chats, die täglich in fast zwei Dutzend Sprachen stattfinden, automatisch zusammenzufassen. Diese Zusammenfassungen helfen Supportingenieuren nun, Kundenprobleme schneller zu lösen und das gesamte Kundenerlebnis zu verbessern.

3. Sprachübersetzungen

Googles ursprüngliches Ziel bei der Entwicklung von Transformern war es, Maschinen besser für die Übersetzung zwischen Sprachen zu befähigen. Erst später beeindruckte das Modell Entwickler mit deutlich weiterreichenden Fähigkeiten. Die ersten Implementierungen dieser Architektur erreichten das gesetzte Ziel: Sie lieferten eine unübertroffene Leistung bei der Englisch-Deutsch-Übersetzung – und das mit einem Modell, das erheblich weniger Trainingszeit und Compute-Ressourcen benötigte als seine Vorgänger.

Moderne LLMs gehen weit über diesen begrenzten Anwendungsfall hinaus. Obwohl die meisten LLMs nicht speziell als Übersetzungssysteme trainiert werden, brillieren sie dennoch darin, Texte einer Sprache zu interpretieren und klar in einer anderen Sprache wiederzugeben – vorausgesetzt, sie wurden umfassend auf Datensätzen in beiden Sprachen trainiert. Dieser Durchbruch beim Überwinden sprachlicher Barrieren ist für global tätige Unternehmen von enormem Wert. Multinationale Unternehmen nutzen fortschrittliche Sprachdienste beispielsweise dafür, mehrsprachigen Support für ihre Produkte und Dienstleistungen bereitzustellen, Leitfäden, Tutorials und Marketinginhalte zu übersetzen oder bestehende Schulungsmaterialien zu nutzen, um Mitarbeiter beim Eintritt in neue Länder zu trainieren.

Die Zukunft der LLMs

Fortschritte bei multimodalen Modellen

Ein aktives Forschungsfeld beschäftigt sich damit, LLMs als Foundation Models für KI einzusetzen, die Ausgaben in anderen Modalitäten als Sprache erzeugt. Die beeindruckende Vielseitigkeit von LLMs ermöglicht es – durch Fine-Tuning mit gelabelten Daten –, Audio, Bilder und sogar Videos zu interpretieren und zu erzeugen. Modelle, die Prompts in anderen Modalitäten entgegennehmen oder Ausgaben in solchen Modalitäten generieren, werden häufig als Large Multimodal Models (LMMs) bezeichnet.

Umweltaspekte

LLMs benötigen in der Regel enorme Rechenleistung, um entwickelt und im großen Maßstab betrieben zu werden. Das Training eines einzelnen Modells auf einem Cluster mit Hunderten oder sogar Tausenden GPUs über mehrere Wochen kann immense Energiemengen verbrauchen. Und sobald ein erfolgreiches Modell bereitgestellt ist, verlangt auch die Inferenzinfrastruktur weiterhin erhebliche Strommengen, um laufend Benutzeranfragen zu verarbeiten.

Für das Training von GPT-4 wurden Schätzungen zufolge etwa 50 Gigawattstunden Energie benötigt. Zum Vergleich: 50 Gigawattstunden könnten theoretisch 4.500 bis 5.000 durchschnittliche US-Haushalte ein Jahr lang mit Strom versorgen. ChatGPT verbraucht inzwischen schätzungsweise Hunderte Megawattstunden pro Tag, um Millionen von Anfragen zu beantworten. Mit zunehmender Größe der Sprachmodelle dürften die Bedenken hinsichtlich Energieverbrauch und Nachhaltigkeit weiter zunehmen. Aus diesem Grund gehören Unternehmen im Bereich künstliche Intelligenz zu den Vorreitern bei der Suche nach alternativen Energiequellen, um ihren CO2-Fußabdruck zu reduzieren.

LLM-Anwendungen mit OCI Generative AI entwickeln

Oracle stellt Unternehmen die Leistungsfähigkeit von LLMs zur Verfügung, ohne dass sie sich mit den technischen Details – oder dem Energiebedarf – dieser faszinierenden Technologie auseinandersetzen müssen. Oracle Cloud Infrastructure (OCI) Generative AI ist ein vollständig verwalteter Service, der die Bereitstellung modernster LLMs vereinfacht – individuell angepasst, äußerst effektiv und kosteneffizient, ohne dass komplexe Infrastruktur verwaltet werden muss. Unternehmen können aus mehreren Foundation Models wählen und diese anschließend auf dedizierten GPU-Clustern mit ihren eigenen Daten feinabstimmen, sodass maßgeschneiderte Modelle entstehen, die ihre geschäftlichen Anforderungen optimal unterstützen.

Unternehmen, die stärker mit der zugrunde liegenden Technologie experimentieren möchten, nutzen zunehmend Machine Learning in Oracle Database. Die Plattform ermöglicht es Data Scientists, Modelle schnell zu entwickeln, indem sie zentrale Elemente des Machine-Learning-Lebenszyklus vereinfacht und automatisiert – ohne dass sensible Daten aus den Oracle Databases migriert werden müssen. Zu den Funktionen zählen gängige Machine-Learning-Frameworks, APIs, automatisiertes Machine Learning (AutoML) und No-Code-Oberflächen sowie mehr als 30 leistungsstarke In-Database-Algorithmen für die Modellerstellung in Anwendungen.

Viele führende Unternehmen nutzen zudem die Oracle AI Infrastructure, um ihre eigenen LLMs zu entwickeln. Diese Infrastruktur bildet die Grundlage für höherwertige KI-Services wie OCI Generative AI und eignet sich für selbst anspruchsvollste LLMs – mit beschleunigter Rechenleistung, leistungsfähiger Vernetzung und optimiertem Speicher.

Das Potenzial von LLMs, die Arbeitsweise von Unternehmen und ihre Interaktionen mit Kunden zu transformieren, ist so groß, dass neue Durchbrüche und Investitionen in diese Technologie globale Märkte bewegen und Unternehmensstrategien neu ausrichten können. Gleichzeitig ist es für Geschäfts- und IT-Verantwortliche wichtig, über den Hype hinauszublicken – die Grundlagen der Funktionsweise von LLMs ebenso zu verstehen wie ihre Grenzen und die Herausforderungen bei der Einführung. Nur so lassen sich die vielen greifbaren Vorteile erkennen, die diese Technologie bieten kann.

LLMs treiben viele der bahnbrechenden Technologien an, die unsere Arbeitswelt grundlegend verändern.

Häufig gestellte Fragen zu LLMs

Wie werden große Sprachmodelle für spezifische Anwendungen feinabgestimmt?

LLMs werden für spezifische Anwendungen feinabgestimmt, indem auf die anfängliche Pretraining-Phase des selbstüberwachten Lernens zur Entwicklung eines Foundation Models eine Phase des überwachten Lernens mit einer kleineren Menge domänenspezifischer, gelabelter Daten folgt.

Welche Branchen profitieren am meisten vom Einsatz großer Sprachmodelle?

Nahezu jede Branche entdeckt derzeit die Vorteile von LLMs. Insbesondere das Gesundheitswesen, die Finanzdienstleistungen und der Einzelhandel prüfen vielfältige Einsatzszenarien, um den Kundenservice zu verbessern und Geschäftsprozesse zu automatisieren.

Können große Sprachmodelle in Unternehmenssysteme integriert werden?

Große Sprachmodelle werden häufig integriert, indem Foundation Models mit Unternehmensdaten feinabgestimmt und durch proprietäre Daten mittels Retrieval-Augmented Generation erweitert werden.