In den letzten Jahren ist GenAI zu einer immer populäreren und sich rasant weiterentwickelnden Technologie geworden. Ihre Fähigkeiten erweitern sich kontinuierlich durch neue Forschungsergebnisse. Im Kontext generativer KI-Modelle haben sich Foundation Models zu leistungsstarken Werkzeugen entwickelt, die als grundlegender Baustein für verschiedenste nachgelagerte Aufgaben dienen können. Auch LLMs und Diffusion Models gehören zu den Foundation Models.
In diesem Beitrag starten wir mit einem Überblick über Foundation Models, Diffusion Models und Large Language Models (LLMs). Anschließend tauchen wir tiefer in die Möglichkeiten der Entwicklung mit LLMs ein.
Was sind Foundation Models?
Foundation Models wurden entwickelt, um aus großen Datenmengen zu lernen und eine Vielzahl unterschiedlicher Aufgaben auszuführen. Sie werden häufig im Natural Language Processing (NLP), in der Computer Vision und in der Spracherkennung eingesetzt. Foundation Models werden typischerweise auf riesigen Datensätzen trainiert, etwa auf der gesamten Wikipedia oder den Billionen von Wörtern, die täglich im Internet produziert werden. Dadurch können sie Beziehungen zwischen Wörtern und Konzepten lernen und ein tiefes Verständnis der Welt entwickeln.
Was Foundation Models können
Foundation Models befinden sich zwar noch in der Weiterentwicklung, haben aber bereits beeindruckende Ergebnisse bei unterschiedlichsten Aufgaben erzielt. Zum Beispiel können sie Texte generieren, Sprachen übersetzen, verschiedene Arten kreativer Inhalte schreiben und Fragen auf informative Weise beantworten.
Welche Vorteile und Herausforderungen haben Foundation Models?
| Vorteile von Foundation Models | Herausforderungen von Foundation Models |
| Genauigkeit: Foundation Models können bei einer Vielzahl von Aufgaben State-of-the-Art-Ergebnisse erzielen. Das liegt daran, dass sie aus enormen Datenmengen lernen und ihr Wissen auf neue Aufgaben übertragen können. | Bias: Foundation Models können gegenüber bestimmten Dingen oder Personengruppen voreingenommen sein. Das liegt daran, dass sie mit Daten trainiert werden, die oft selbst Verzerrungen enthalten und diese Biases in ihren Vorhersagen weiterführen können. |
| Robustheit: Foundation Models können mit verrauschten Daten umgehen und auch dann gute Ergebnisse liefern, wenn Informationen unvollständig oder fehlerhaft sind. Sie lernen zugrunde liegende Muster in den Daten, anstatt lediglich einzelne Beispiele auswendig zu lernen. | Interpretierbarkeit: Foundation Models sind oft schwer nachvollziehbar. Dadurch ist es schwierig zu verstehen, warum sie bestimmte Entscheidungen treffen. Das kann insbesondere in sensiblen Bereichen wie medizinischen Diagnosen problematisch sein. |
| Flexibilität: Foundation Models können für unterschiedlichste Aufgaben eingesetzt werden – von NLP bis hin zu Computer Vision. Das ist möglich, weil sie Beziehungen zwischen verschiedenen Datentypen lernen können. | Sicherheit: Foundation Models können genutzt werden, um schädliche oder manipulative Inhalte wie Fake News oder Deepfakes zu erzeugen. Das ist ein ernstzunehmendes Risiko, für das geeignete Schutzmaßnahmen entwickelt werden müssen. |
Foundation Models sind ein leistungsstarkes neues Werkzeug mit dem Potenzial, zahlreiche Branchen grundlegend zu verändern. Gleichzeitig ist es wichtig, sich der damit verbundenen Herausforderungen bewusst zu sein und Wege zu finden, diese Risiken zu minimieren.
Was sind Diffusion Models?
Diffusion Models sind eine Klasse generativer Modelle und ein Beispiel für Foundation Models im Bereich Computer Vision. In den letzten Jahren haben sie stark an Popularität gewonnen, weil sie hochwertige Bilder und Videos generieren können. Diffusion Models basieren auf sogenannten Diffusionsprozessen: Das sind stochastische Prozesse, die die Ausbreitung einer Substanz über die Zeit beschreiben.
Diffusion Models im Kontext von Generative Modelling
Im Kontext von Generative Modelling werden Diffusionsprozesse genutzt, um zu modellieren, wie sich Informationen durch einen latenten Raum ausbreiten. Ein latenter Raum ist ein hochdimensionaler Raum, der die zugrunde liegende Struktur der Daten repräsentiert. Die zentrale Idee hinter Diffusion Modelling ist: Wenn ein Lernmodell den systematischen Informationsverlust durch Rauschen verstehen kann, sollte es möglich sein, diesen Prozess umzukehren und die ursprünglichen Informationen aus dem Rauschen wiederherzustellen.
Weitere Eigenschaften von Diffusion Models
Diffusion Models sind flexibel und können grundsätzlich jede Architektur mit identischen Ein- und Ausgabedimensionen verwenden. Viele Implementierungen basieren auf U-Net-ähnlichen Architekturen. Ziel des Trainings ist es, die Wahrscheinlichkeit der Trainingsdaten zu maximieren. Dafür werden die Modellparameter so angepasst, dass die variationale obere Schranke der negativen Log-Likelihood minimiert wird.
Letztlich liefern vereinfachte Trainingsziele, bei denen eine Funktion trainiert wird, die den Rauschanteil einer gegebenen latenten Variable vorhersagt, die stabilsten und besten Ergebnisse. Diffusion Models können außerdem auch als Foundation Models für NLP und multimodale Generierungsaufgaben wie Text-to-Video oder Text-to-Image dienen.
Beispiele für Diffusion Models
Zu den bekanntesten Diffusion Models gehören DALL-E von OpenAI, Stable Diffusion von Stability AI, Midjourney von Midjourney Inc. sowie Imagen und Imagen Video von Google zur Bild- bzw. Videogenerierung.
Was sind Large Language Models (LLMs)?
Large Language Models (LLMs) sind ebenfalls eine Klasse generativer Modelle und Beispiele für Foundation Models, die menschliche Sprache verstehen und erzeugen können. Sie werden auf riesigen Textdatensätzen trainiert und lernen dadurch, verschiedenste Aufgaben auszuführen, zum Beispiel Sprachen zu übersetzen, kreative Inhalte zu schreiben oder Fragen informativ zu beantworten.
Diese Datensätze können aus Nachrichtenartikeln, Social-Media-Beiträgen oder Büchern bestehen. Das LLM lernt dabei die Beziehungen zwischen Wörtern und Phrasen und kann dieses Wissen nutzen, um neue Texte zu verstehen und zu generieren.
LLM vs. Mensch
LLMs werden oft mit dem menschlichen Gehirn verglichen, weil sie auf ähnliche Weise lernen und sich anpassen können. Dennoch sind LLMs noch weit davon entfernt, die vollständigen Fähigkeiten des menschlichen Gehirns zu erreichen. Beispielsweise haben sie Schwierigkeiten damit, Sarkasmus oder Humor zu verstehen, und können manchmal unsinnige oder problematische Texte erzeugen.
Trotz dieser Einschränkungen sind LLMs äußerst leistungsfähige Werkzeuge. Sie können für zahlreiche Aufgaben eingesetzt werden, darunter:
- Übersetzung: LLMs können Sprachen mit hoher Genauigkeit übersetzen.
- Zusammenfassungen: LLMs können lange Texte kompakt und informativ zusammenfassen.
- Auf Fragen antworten: LLMs können Fragen informativ beantworten, selbst wenn sie offen formuliert oder komplex sind.
- Chatbots: LLMs können für Chatbots genutzt werden, die natürliche Gespräche mit Menschen führen.
- Kreatives Schreiben: LLMs können kreative Inhalte wie Gedichte, Songs oder Kurzgeschichten generieren.
Beispiele für LLMs
Zu den bekanntesten Large Language Models gehören GPT (GPT-3, GPT-4 etc.) von OpenAI, PaLM von Google, Dolly von Databricks, Llama von Meta und Claude von Anthropic.
Wie lassen sich LLMs in der Praxis einsetzen? In-Context Learning, Fine-Tuning und Pre-Training
Large Language Models (LLMs) haben den Prozess des Trainings von ML-Modellen für Sprachaufgaben seit dem Aufkommen der Transformer-Architektur im Jahr 2017 grundlegend verändert. Früher experimentierte man für eine bestimmte Aufgabe und einen bestimmten Datensatz mit verschiedenen Modellen wie RNNs, LSTMs oder Decision Trees, trainierte diese jeweils auf einem Teil der Daten und testete sie auf dem Rest. Das Modell mit der besten Genauigkeit wurde ausgewählt. Zusätzlich mussten viele Hyperparameter angepasst werden, und bei zahlreichen Problemen war Feature Engineering notwendig.
Mit transformerbasierten LLMs verfügen wir heute über riesige Modelle mit Milliarden von Parametern, die diese Art von Experimentierung weitgehend überflüssig machen.
Im Lern- bzw. Trainingsprozess großer Sprachmodelle kommen hauptsächlich drei Ansätze zum Einsatz:
- Pre-training
- Fine-tuning
- In-context Learning
Kurz gesagt: Pre-training vermittelt allgemeines Sprachverständnis, Fine-tuning spezialisiert Modelle auf bestimmte Aufgaben und In-context Learning ergänzt aufgabenspezifische Anweisungen, um die Performance zu verbessern.

Bildquelle: Grafik erstellt von applydata.
Schauen wir uns diese drei Ansätze genauer an. Die Reihenfolge orientiert sich an ihrer Zugänglichkeit hinsichtlich technischem Wissen und benötigten Rechenressourcen.
Was ist In-Context Learning?
LLMs haben gezeigt, dass sie neue Fähigkeiten lernen und neue Aufgaben lösen können, indem ihnen lediglich neue Beispiele im Prompt (Input) gegeben werden. Dabei wird das Modell nicht erneut trainiert; es gibt keine Gradient Updates und keine Änderungen an den Modellparametern. Dieser Ansatz wird In-Context Learning genannt.
In-Context Learning beschreibt die Fähigkeit, den Kontext der Eingabe zu verstehen und daraus die passende Ausgabe zu generieren. Es ist einer der wichtigsten Ansätze für die Nutzung großer Sprachmodelle. Wenn dem Modell klare und eindeutige Anweisungen gegeben werden, wie eine Aufgabe auszuführen ist, kann es diese besser verstehen und leichter lösen. Schon wenige Beispiele können dabei mit Modellen konkurrieren, die mit deutlich mehr gelabelten Daten trainiert wurden. Dadurch sind Strategien wie Prompt Engineering entstanden, da eine optimierte Eingabeaufforderung oft bessere Ergebnisse liefert als Fine-tuning für eine spezifische Aufgabe.
Was ist ein Prompt?
in Prompt ist die Texteingabe, die einem Modell gegeben wird, um eine gewünschte Ausgabe zu erzeugen. Dieser Text enthält alle Informationen und Anweisungen, die das Modell berücksichtigen soll.
Was ist Prompt Engineering?
Prompt Engineering beschreibt die Technik, Prompts gezielt zu formulieren und zu strukturieren, um die Ausgabe eines Modells für eine bestimmte Aufgabe zu maximieren. Dadurch können wir effektiv über natürliche Sprache mit LLMs interagieren. Dabei wird die ursprüngliche Eingabe oder Fragestellung sorgfältig gestaltet, um den Kontext festzulegen und die Antwort des Modells gezielt zu steuern.
Was ist Retrieval Augmented Generation (RAG)?
RAG ist ein Framework für die Entwicklung LLM-basierter Anwendungen, das externe Datenquellen außerhalb des Modells nutzt und die Eingabe mit zusätzlichen Informationen anreichert, um bessere Ergebnisse zu erzielen. Dabei wird zunächst die Anfrage des Nutzers mit einer Wissensbasis abgeglichen, um relevante Informationen abzurufen. Anschließend werden diese Informationen an das LLM weitergegeben. Mehr über RAG erfährst du in meinem Blogartikel Einfache und fortgeschrittene Retrieval Augmented Generation (RAG).
Was ist Fine-tuning von LLMs?
Der zweite Ansatz zur Nutzung eines LLMs ist das Fine-tuning. Dabei wird ein bereits vortrainiertes Modell für einen spezifischen Anwendungsfall angepasst, indem mindestens ein interner Modellparameter, etwa Gewichte oder Biases, weitertrainiert wird. Im Kontext von LLMs bedeutet das meist, ein allgemeines Basismodell in ein spezialisiertes Modell für einen bestimmten Use Case zu verwandeln.
Vorteile von Fine-tuning bei LLMs
Der größte Vorteil dieses Ansatzes besteht darin, dass Modelle bessere Ergebnisse erzielen können, obwohl sie weniger manuell gelabelte Beispiele benötigen als Modelle, die ausschließlich auf Supervised Learning basieren. Fine-tuning verbessert nicht nur die Performance eines Basismodells – ein kleineres fine-getuntes Modell kann bei bestimmten Aufgaben sogar größere und teurere Modelle übertreffen.
LLMs besitzen außerdem nur ein begrenztes Context Window. Dadurch schneiden sie bei Aufgaben mit großem Wissensumfang oder stark domänenspezifischen Informationen oft schlechter ab. Fine-tuned Models können dieses Problem umgehen, indem sie dieses Wissen bereits während des Fine-tuning-Prozesses lernen. Dadurch entfällt auch die Notwendigkeit, Prompts mit zusätzlichem Kontext zu überladen, was wiederum die Inference-Kosten senken kann.
Was ist Pre-training bei LLMs?
Um zu verstehen, welches Modell sich für eine bestimmte Aufgabe eignet, ist es wichtig, den Trainingsprozess großer Sprachmodelle zu kennen. Dieser Prozess, der häufig als Pre-training bezeichnet wird, beinhaltet das Lernen aus enormen Mengen unstrukturierter Textdaten. Dabei kommen Gigabytes, Terabytes oder sogar Petabytes an Text zum Einsatz, gesammelt aus unterschiedlichsten Quellen wie Internet-Scrapes oder kuratierten Datensammlungen. Während Prompt Engineering und Fine-tuning wahrscheinlich 99 % aller LLM-Anwendungen abdecken, gibt es dennoch Fälle, in denen noch weiter gegangen werden muss.
Trainingsziele
Während des Pre-trainings werden die Modellparameter angepasst, um den Loss der Trainingsziele zu minimieren. Das jeweilige Trainingsziel hängt von der Modellarchitektur ab, etwa Masked Language Modelling bei Autoencoding-Modellen oder Causal Language Modelling bei autoregressiven Modellen. Ziel ist es, dass das Modell eine umfassende statistische Repräsentation von Sprache entwickelt, indem es Muster und Strukturen in den Daten verinnerlicht.
Große Modelle
Größere Modelle verfügen in der Regel über bessere Fähigkeiten und höhere Performance. Studien zeigen, dass Modelle mit zunehmender Größe häufiger gute Ergebnisse liefern, selbst ohne zusätzliches Fine-tuning oder weiteres Training.
Das Training solcher großen Modelle bringt jedoch erhebliche Herausforderungen und hohe Kosten mit sich, was das weitere Wachstum einschränken kann. Ein Verständnis des Trainingsprozesses sowie der Unterschiede zwischen Autoencoding-Modellen, autoregressiven Modellen und Sequence-to-Sequence-Modellen hilft Entwicklern dabei, das passende Modell für ihre Generative-AI-Anwendungen auszuwählen.
Weitere detaillierte Informationen und Tipps zum Trainings- und Tuning-Prozess habe ich in meinem Artikel Pre-training und Fine-tuning von LLMs gesammelt.