Wenn du KI-Konferenzen besuchst, Pressemitteilungen verfolgst, oder einfach nur in sozialen Medien stöberst: Wahrscheinlich triffst du auf Firmen, die ihr KI-Produkt als eierlegende Wollmilchsau bewerben. Vertraue deinem Bauchgefühl, wenn du glaubst, dass diese Versprechungen zu gut sind, um wahr zu sein.
Geht es um Standardlösungen für Chatbots und Dokumenten-Chat, gibt es eine Fülle von Angeboten. Was bieten diese Unternehmen also an? Im Allgemeinen Flexibilität, Anpassungsfähigkeit und Spezialisierung. Einige Firmen möchten, dass ihr Produkt für möglichst viele Märkte attraktiv ist und konzentrieren sich daher auf die Entwicklung eines vielseitigen Produkts, das die Kund:innen ihren spezifischen Bedürfnissen anpassen können. Diese Produkte lassen sich schnell und einfach in bestehende Systeme integrieren. Benutzer:innen können die Funktionalität für bestimmte Zwecke konfigurieren, die Benutzeroberfläche anpassen und auf Analysen zugreifen. Andere Unternehmen spezialisieren ihr Produkt auf eine bestimmte Nische. Der Nachteil ist, dass du wahrscheinlich für nicht benötigte Funktionen bezahlst, wenn die Anwendung nicht genau dieser Nische entspricht.
Das Training eines gesamten Modells für einen Chatbot ist teuer und bietet letztlich weniger Kontrolle als die häufiger genutzte Alternative, die „Retrieval-Augmented Generation“ (RAG). Bei RAG-Anwendungen werden die dem Chatbot zur Verfügung stehenden Informationen in einer Wissensdatenbank gespeichert, deren Struktur die Suche nach datenbezogenen Benutzeranfragen erleichtert. Die Daten, die am besten zur Anfrage passen, werden an ein großes Sprachmodell (LLM) übergeben, das eine Antwort generiert.
Als unser Team kürzlich einen maßgeschneiderten Chatbot für einen Kunden entwickelte, hatten wir innerhalb weniger Wochen einen Machbarkeitsnachweis erstellt. Nach ein oder zwei Wochen Feinabstimmung und Tests funktionierte es… überraschend gut. Verdächtig gut. Das brachte uns zum Nachdenken: War das alles, was nötig ist, um einen Chatbot zu erstellen?
Das 80/20-Prinzip in der Chatbot-Entwicklung
Schnell stellte sich heraus, dass dieser Chatbot Edge-Cases nicht gut handhabte. In der Tat war er geradezu unberechenbar, wenn er nicht auf Fragen beschränkt war, die direkt von der Wissensdatenbank beantwortet wurden. Darüber hinaus ist der Kunde ein medizinisches Unternehmen, was rechtliche Einschränkungen hinsichtlich der Themen bedeutet, über die der Chatbot sprechen – und nicht sprechen – durfte. Unser Chatbot war zunächst nicht in der Lage, diese Themen zu identifizieren.
Es ist nicht schwierig, einen Chatbot zu entwerfen, der „ziemlich gut“ funktioniert. Leider reicht das nicht aus, wenn dein Produkt in der realen Welt eingesetzt wird. Dies ist ein klares Beispiel für das 80/20-Prinzip, bei dem man etwa 80% der gewünschten Funktionalität in nur 20% der aufgewendeten Zeit erreicht. Allerdings ist es das Erreichen der letzten 20% der Funktionalität, das den Großteil der Zeit beansprucht. In unserem Fall bedeutete dies, den Bot daran zu hindern, über bestimmte kritische Themen zu sprechen, ihn allgemein gesprächiger zu machen und das Referenzmaterial so zu formatieren, dass es leichter zugänglich ist. Es folgen einige Beispiele für Probleme, die eine Standard-Chatbot-Lösung möglicherweise nicht handhaben kann.
Inhaltsüberprüfungen
Ob nun einfach, um zu verhindern, dass die Nutzer:innen den Chatbot als kostenlose Version von ChatGPT nutzen, oder aus Haftungsgründen: Es ist wahrscheinlich, dass du die Themen einschränken möchtest, über die der Chatbot deiner Website spricht. Diese Überprüfungen können einfach sein, wie das Suchen nach bestimmten Schlüsselwörtern und -phrasen, oder komplexer, wie das vollständige Verbot bestimmter Themen. Es ist geht relativ schnell, den Chatbot daran zu hindern, Kommentare zu verbotenen Themen abzugeben. Weitaus schwieriger ist es, den Bot daran zu hindern, über bestimmte Themen zu sprechen, ihm aber gleichzeitig genügend Freiheit zu geben, Fragen zu beantworten, die er sollte.
Organisation von Referenzdaten
Wie das Sprichwort sagt: „Garbage in = Garbage out“. LLMs sind großartig im Umgang mit unstrukturierten Daten, aber je mehr du in der Lage bist, diese Daten vor der Generierung einer Antwort zu organisieren und zu verarbeiten, desto besser wird das Ergebnis sein. Dies ist ein völlig separates Problem vom eigentlichen Entwurf des Chatbots.
Zu diesem Zweck existieren bereits viele fortschrittliche RAG-Methoden, und es werden ständig neue entwickelt. Diese Methoden beinhalten im Allgemeinen die Erhöhung der Qualität oder der Menge der Daten, die während der Antwortgenerierung an das LLM übergeben werden. Welche Methode am besten funktioniert, hängt sowohl vom Format der Wissensdatenbankdaten als auch vom Verwendungszweck des Chatbots ab. Die Wahl der richtigen Strategie für eine bestimmte Anwendung erfordert Wissen, Erfahrung und Experimentieren, was uns zu unserem letzten Punkt bringt:
Testen, testen, testen!
Die besten Produkte werden getestet und iterativ verbessert. Standardlösungen bieten nicht die Möglichkeit dazu. Es mag Parameter geben, die angepasst werden können, um die Ergebnisse in die gewünschte Richtung zu lenken, aber dies wird niemals die Leistung einer vollständig getesteten und maßgeschneiderten Lösung erreichen.
Fazit
Obwohl Standard-Chatbots für Unternehmen eine kostengünstige und praktische Lösung bieten, können sie Schwierigkeiten haben, die spezifischen Nuancen und Edge-Cases zu bewältigen, die für spezialisierte Anwendungen erforderlich sind. Das 80/20-Prinzip verdeutlicht, warum dies der Fall ist: das Erfüllen strenger Anforderungen erfordert erheblichen Aufwand, insbesondere bei rechtlichen Anforderungen, beim Verwalten komplexer Datenstrukturen und bei der Bereitstellung zuverlässiger Antworten. In diesen Situationen kann nur eine maßgeschneiderte Lösung die vollständige Anpassung bieten, die die Anwendung erfordert.