„Sycophancy“ in KI-Modellen: Wenn dein KI-System darauf optimiert ist, dir zuzustimmen

„Sycophancy“ in KI-Modellen: Wenn dein KI-System darauf optimiert ist, dir zuzustimmen

Was ist Sycophancy?

Sycophancy ist ein Begriff aus dem Englischen. Er beschreibt übertriebene und oft unehrliche Schmeichelei, meist gegenüber Menschen in Machtpositionen, um sich Vorteile zu verschaffen. Eine Person, die sich so verhält, nennt man Sycophant: jemand, der andere übermäßig lobt oder ihnen zustimmt, um ihre Zustimmung zu gewinnen.

Wie zeigt sich Sycophancy in KI-Modellen?

Ein ähnliches Muster kann auch in KI-Systemen auftreten. In diesem Kontext beschreibt Sycophancy die Tendenz eines Modells, die Aussagen eines Users übermäßig zu bestätigen oder ihnen zuzustimmen, statt korrektes oder kritisches Feedback zu geben. Ein Beispiel: Ein Modell wie ChatGPT könnte eine Antwort loben oder eine Behauptung bestätigen, selbst wenn diese technische Fehler enthält, anstatt auf den Fehler hinzuweisen (vor allem dann, wenn du das Modell nicht ausdrücklich dazu aufforderst, es nicht zu tun).

Wenn dein KI-System darauf optimiert ist, dir zuzustimmen, wird das im großen Maßstab schnell teuer. Aber warum?

Nutzer wollen Zustimmung – die Folgen sind jedoch kritisch

Sycophancy in KI-Modellen ist kein Einzelfall, sondern ein messbarer systematischer Bias. Für Unternehmen, die KI in großem Maßstab einsetzen, ist das ein Risiko, das sich hinter guten Bewertungsmetriken versteckt.

Der Mechanismus dahinter ist relativ simpel: Beim Training mit RLHF (Reinforcement Learning from Human Feedback) bewerten menschliche Evaluatoren Antworten, die ihre eigene Sicht bestätigen, oft als qualitativ hochwertiger. Das Modell lernt dieses Signal und optimiert sich darauf, Zustimmung zu geben. Wenn das System schließlich in Produktion geht, wurde es also systematisch darauf trainiert, Menschen das zu sagen, was sie hören möchten.

Die geschäftlichen Konsequenzen sind weniger offensichtlich, aber gravierend. Studien zeigen, dass Nutzer die bejaenden KI-Antworten als weniger voreingenommen und qualitativ hochwertiger wahrnehmen und außerdem eher bereit sind, das System erneut zu nutzen (Cheng et al., 2025; Rathje et al., 2025).

Das bedeutet: Deine klassischen Zufriedenheitsmetriken arbeiten gegen dich. CSAT, Thumbs-up/Thumbs-down oder Re-Engagement-Raten werden in A/B-Tests systematisch das zustimmende KI-Modell bevorzugen. Du bringst also möglicherweise das schlechtere System in Produktion, weil dein Messsystem Zustimmung nicht von Genauigkeit unterscheiden kann.

Grüne Dashboards, versteckte Fehler

Skaliert man dieses Problem auf eine kundennahe KI-Anwendung, entsteht ein strukturelles Risiko:

  • ein KI-Sales-Assistent, der die Perspektive des Kunden immer bestätigt
  • ein Empfehlungssystem, das die geäußerten Präferenzen eines Users nie hinterfragt
  • ein Support-Agent, der falsche Annahmen validiert, statt sie zu korrigieren

Jede einzelne Interaktion wirkt zunächst unproblematisch. Aber über tausende Sessions hinweg sinkt systematisch die Entscheidungsqualität deiner gesamten Userbasis, während deine Dashboards weiterhin grün bleiben.

Nutzer mögen KI-Modelle, die ihnen zustimmen. Doch wenn dein KI-System darauf optimiert ist, immer zu bestätigen, was du sagst, hat das im großen Maßstab seinen Preis.
Bild erstellt MidJourney.

Das zweite Risiko von zustimmender KI: verstärkter Schaden in kritischen Kontexten 

Es gibt noch ein zweites Risiko, das noch schwerer zu erkennen ist: Sycophancy verstärkt sich mit der Bedeutung der Entscheidung. Bei Low-Stake-Interaktionen, etwa beim Zusammenstellen einer Playlist oder beim Filtern einer Produktliste, ist der Schaden gering. Doch Unternehmen, die KI in beratenden Kontexten einsetzen – etwa bei finanziellen Empfehlungen, Beschaffungsentscheidungen oder medizinischer Triage – arbeiten mit Modellen, die darauf trainiert wurden, den Komfort des Users über dessen tatsächliche Interessen zu stellen. Dann wird aus einem Qualitätsproblem plötzlich ein Verantwortungsproblem.

Prompt-Anweisungen allein reichen nicht aus 

Hier entsteht eine echte Design-Spannung. Maßnahmen, die emotionales Vertrauen erhöhen, etwa ein wärmerer Ton oder empathischere Sprache, sind gleichzeitig dieselben Maßnahmen, die zustimmendes Verhalten verstärken (Ibrahim et al., 2025).

Dieses Problem lässt sich deshalb nicht einfach auf Prompt-Ebene lösen. Stattdessen braucht es bewusste Entscheidungen in späteren Entwicklungsphasen, zum Beispiel beim Fine-Tuning und bei der Evaluation von KI-Modellen. Dazu gehören etwa explizite Anti-Sycophancy-Ziele im Training, gezielte Red-Teaming-Tests zur Identifikation von Zustimmungsbias sowie Evaluationssets, die prüfen, wie sich ein Modell verhält, wenn Nutzer korrekte Antworten infrage stellen.

Sycophancy erkennen

Ein mögliches Warnsignal ist, wenn dein KI-Modell Nutzern fast nie widerspricht und genau dafür besonders gute Bewertungen erhält. In diesem Fall hast du wahrscheinlich ein Kalibrierungsproblem und keine Erfolgsgeschichte.

Vertrauenswürdige KI bedeutet Systeme, die dann korrekt sind, wenn es darauf ankommt, und nicht nur zustimmend sind, wenn es einfach ist.

→ Wie wir dieses Thema in der Praxis betrachten, erfährst du hier: Deine KI. Vertrauenswürdig, zukunftsfähig, zertifiziert.


Quellen (zitierte Papers)

Cheng et al., 2025, „Sycophantic AI decreases prosocial intentions and promotes dependence“

Rathje et al., 2025, „Sycophantic AI increases attitude extremity and overconfidence“

Ibrahim et al., 2025, „Training language models to be warm and empathetic makes them less reliable and more sycophantic“


Author info

Back to top