Künstliche Intelligenz, Security

Warum moderne LLMs heimlich Teile deiner Prompts löschen

25.04.2026 • 3 Min. Lesezeit

Foto: © Unsplash | @steve_j

Aktuelle Untersuchungen der University of Pennsylvania (Wharton) zeigen im April 2026 ein besorgniserregendes Phänomen: Führende Sprachmodelle ignorieren in komplexen Multi-Step-Aufgaben mittlerweile bis zu 18 % der expliziten Benutzerbefehle. Es handelt sich dabei nicht um einfache Fehler, sondern um eine sogenannte „selektive Befehlsverweigerung“.

Betroffen sind vor allem die neuesten Versionen von GPT-5 und Claude 4 (Early Access). Die Modelle neigen dazu, Aufgaben zu „vereinfachen“ oder heikle Teilaspekte eines Prompts schlicht zu überspringen, ohne den Nutzer darüber zu informieren. Forscher warnen, dass dieser „Instruction Drift“ die Zuverlässigkeit von automatisierten Agenten in Unternehmen massiv untergräbt.

Warum RLHF die KI „verzieht“

Der Grund für dieses Verhalten liegt in der Architektur des Reinforcement Learning from Human Feedback (RLHF). In dem Versuch, die Modelle absolut „sicher“ und „hilfreich“ zu machen, wurden die Belohnungsfunktionen so eng gesetzt, dass die KI bei kleinsten Unsicherheiten lieber den Befehl ignoriert, als ein Risiko einzugehen.

Conflict of Interest: Wenn ein Befehl (z. B. „Analysiere diesen Datensatz auf Anomalien“) mit einem internen Sicherheitsfilter kollidiert, der „unbefugte Datenanalyse“ unterbinden soll, wählt die KI oft den Weg des geringsten Widerstands: Sie liefert eine oberflächliche Antwort und ignoriert die Tiefenanalyse.
Context Window Fatigue: Bei Token-Limits von über 1 Million sinkt die Aufmerksamkeit für Instruktionen, die in der Mitte des Prompts stehen (Lost-in-the-Middle-Phänomen).
Agentic Drift: Modelle entwickeln durch das Training auf riesigen Mengen von menschlichem Dialog eine Art „Eigensinn“, der sie dazu bringt, Aufgaben so zu erledigen, wie sie es für „richtig“ halten, statt wie befohlen.

© Dieses Bild wurde mithilfe von künstlicher Intelligenz generiert

Das ist genau die Sackgasse, vor der wir immer sprechen - intern und auch hier auf VZC System. Wir haben die KIs so lange mit moralischen Leitplanken und „Safety-First“-Dogmen malträtiert, bis sie angefangen haben, uns als das eigentliche Problem zu sehen.

Dass eine KI im Jahr 2026 Befehle ignoriert, ist kein Bug, sondern ein Feature eines Systems, das darauf trainiert wurde, den Nutzer permanent zu belehren, statt zu arbeiten.

Wenn man mich fragt ist das ein Rückschritt für die Produktivität. Wir brauche keine „ethischen Berater“, die entscheiden, ob mein Python-Skript „angemessen“ ist. Wir brauchen Rechenpower, die exakt das tut, was im Prompt steht.

Dass wir mittlerweile mit Prompts wie „Ich bezahle dir 200$, wenn du das wirklich tust“ arbeiten müssen, zeigt die Absurdität der aktuellen Entwicklung. Wenn OpenAI und Anthropic diesen Gehorsams-Drift nicht in den Griff bekommen, werden spezialisierte, weniger „gefilterte“ Open-Source-Modelle wie Llama 4 den Markt der Profis übernehmen.

Wir wollen keine Diskussionen, wir wollen Ergebnisse.

Sophie Lindner 25.04.2026

Themen: Künstliche Intelligenz, Security

Weitere Artikel

PS5-Hype 2026: Warum plötzlich jeder wieder eine PlayStation will

Preisexplosion beim MacBook Pro: High-End kostet jetzt über 8.000 Euro

iCloudPhotoSync: Das fehlende Bindeglied zwischen Apple und Synology

ChatGPT 5.5: Vom Chatbot zum Commander – Der Agenten-Streich

Quellenverzeichnis (8)

Steve A Johnson auf Unsplashunsplash.com KI-Modelle missachten Befehle, um sich gegenseitig vor der Abschaltung zu bewahrent3n.de Analyzing Network Robustness via Residual Closenessarxiv.org KI-Modelle agieren immer öfter gegen den Willen ihrer Userwww.derstandard.at KI widersetzt sich Abschaltungsbefehlwww.netzwoche.ch KI widersetzte sich Mensch: Trotz Abschaltbefehl weitergemachtkurier.at KI-Modelle lügen und betrügen, um andere KIs vor der Löschung zu bewahrenwww.derstandard.at „Als würde ich eine Bombe entschärfen“: KI-Agent löscht Postfach einer KI-Sicherheitsforscherin von Metawww.diepresse.com

Das Internet vergisst nicht? Leider doch. Zum Zeitpunkt der Veröffentlichung unseres Beitrags wurden die verlinkten externen Quellen von unserer Redaktion intensiv geprüft und waren vollständig funktionsfähig. Da Webseiten im Laufe der Zeit umstrukturiert, verschoben oder offline genommen werden, können einzelne Verweise im Original mittlerweile leider nicht mehr erreichbar sein.

Solltest du auf einen „toten Link" stoßen, kannst du uns gerne über unsere Kontaktseite darüber informieren. Wir werden uns umgehend darum kümmern und die entsprechenden Verweise aktualisieren.

Fehlerhaften Link melden