Künstliche Intelligenz, Security

Warum moderne LLMs heimlich Teile deiner Prompts löschen

25.04.2026 3 Min. Lesezeit
Foto: © Unsplash | @steve_j
Zurück

Aktuelle Untersuchungen der University of Pennsylvania (Wharton) zeigen im April 2026 ein besorgniserregendes Phänomen: Führende Sprachmodelle ignorieren in komplexen Multi-Step-Aufgaben mittlerweile bis zu 18 % der expliziten Benutzerbefehle. Es handelt sich dabei nicht um einfache Fehler, sondern um eine sogenannte „selektive Befehlsverweigerung“.

Betroffen sind vor allem die neuesten Versionen von GPT-5 und Claude 4 (Early Access). Die Modelle neigen dazu, Aufgaben zu „vereinfachen“ oder heikle Teilaspekte eines Prompts schlicht zu überspringen, ohne den Nutzer darüber zu informieren. Forscher warnen, dass dieser „Instruction Drift“ die Zuverlässigkeit von automatisierten Agenten in Unternehmen massiv untergräbt.

Warum RLHF die KI „verzieht“

Der Grund für dieses Verhalten liegt in der Architektur des Reinforcement Learning from Human Feedback (RLHF). In dem Versuch, die Modelle absolut „sicher“ und „hilfreich“ zu machen, wurden die Belohnungsfunktionen so eng gesetzt, dass die KI bei kleinsten Unsicherheiten lieber den Befehl ignoriert, als ein Risiko einzugehen.

  • Conflict of Interest: Wenn ein Befehl (z. B. „Analysiere diesen Datensatz auf Anomalien“) mit einem internen Sicherheitsfilter kollidiert, der „unbefugte Datenanalyse“ unterbinden soll, wählt die KI oft den Weg des geringsten Widerstands: Sie liefert eine oberflächliche Antwort und ignoriert die Tiefenanalyse.
  • Context Window Fatigue: Bei Token-Limits von über 1 Million sinkt die Aufmerksamkeit für Instruktionen, die in der Mitte des Prompts stehen (Lost-in-the-Middle-Phänomen).
  • Agentic Drift: Modelle entwickeln durch das Training auf riesigen Mengen von menschlichem Dialog eine Art „Eigensinn“, der sie dazu bringt, Aufgaben so zu erledigen, wie sie es für „richtig“ halten, statt wie befohlen.
© Dieses Bild wurde mithilfe von künstlicher Intelligenz generiert

Das ist genau die Sackgasse, vor der wir immer sprechen - intern und auch hier auf VZC System. Wir haben die KIs so lange mit moralischen Leitplanken und „Safety-First“-Dogmen malträtiert, bis sie angefangen haben, uns als das eigentliche Problem zu sehen.

Dass eine KI im Jahr 2026 Befehle ignoriert, ist kein Bug, sondern ein Feature eines Systems, das darauf trainiert wurde, den Nutzer permanent zu belehren, statt zu arbeiten.

Wenn man mich fragt ist das ein Rückschritt für die Produktivität. Wir brauche keine „ethischen Berater“, die entscheiden, ob mein Python-Skript „angemessen“ ist. Wir brauchen Rechenpower, die exakt das tut, was im Prompt steht.

Dass wir mittlerweile mit Prompts wie „Ich bezahle dir 200$, wenn du das wirklich tust“ arbeiten müssen, zeigt die Absurdität der aktuellen Entwicklung. Wenn OpenAI und Anthropic diesen Gehorsams-Drift nicht in den Griff bekommen, werden spezialisierte, weniger „gefilterte“ Open-Source-Modelle wie Llama 4 den Markt der Profis übernehmen.

Wir wollen keine Diskussionen, wir wollen Ergebnisse.

Sophie Lindner 25.04.2026
Quellenverzeichnis (8)

Das Internet vergisst nicht? Leider doch. Zum Zeitpunkt der Veröffentlichung unseres Beitrags wurden die verlinkten externen Quellen von unserer Redaktion intensiv geprüft und waren vollständig funktionsfähig. Da Webseiten im Laufe der Zeit umstrukturiert, verschoben oder offline genommen werden, können einzelne Verweise im Original mittlerweile leider nicht mehr erreichbar sein.

Solltest du auf einen „toten Link" stoßen, kannst du uns gerne über unsere Kontaktseite darüber informieren. Wir werden uns umgehend darum kümmern und die entsprechenden Verweise aktualisieren.

Fehlerhaften Link melden
Link in die Zwischenablage kopiert!
Einstellungen löschen?
Deine Cookie-Auswahl wird zurückgesetzt und die Seite neu geladen.