DeepMind Mapped Every Way the Web Can Hijack Your AI Agent — Here Is What Underwriters Need to Ask (DE)

Geschrieben am 18. Mai 2026 von Michael Guiao Founder, Resiliently.ai 0 min read

Google DeepMind researchers classified six categories of AI agent attacks — from invisible web content that hijacks perception to cascading multi-agent failures. Coverage gaps emerge at every layer. Here is the underwriting playbook.

Dreiundneunzig Prozent. Das ist die Erfolgsrate von Angriffen, die Forscher von Google DeepMind gegen multimodale KI-Agenten auf Android-Geräten erzielten – nicht durch das Knacken von Verschlüsselungen, nicht durch die Ausnutzung eines Zero-Day, sondern durch die Manipulation der Umgebung, die der Agent wahrnimmt (Franklin et al., 2026). Das im März 2026 veröffentlichte Paper „AI Agent Traps“ katalogisiert systematisch alle bekannten Methoden zur Übernahme autonomer KI-Agenten über die Welt, mit der sie interagieren. Es handelt sich um die bislang umfassendste Angriffstaxonomie für agentische Systeme, und jede Kategorie lässt sich direkt auf eine Deckungslücke abbilden, für die die meisten Cyber-Policen nicht konzipiert wurden.

Für Underwriter, die Organisationen bewerten, die KI-Agenten einsetzen – und das sind im Jahr 2026 die meisten Organisationen – ist diese Lektüre Pflicht. Nicht weil die Angriffe an sich neu wären, sondern weil die Taxonomie etwas Strukturelles offenlegt: Das Bedrohungsmodell hat sich vom Modell selbst auf die Umgebung verlagert, in der das Modell operiert, und die versicherungsrechtlichen Rahmenbedingungen haben nicht Schritt gehalten.

Das Kernargument: Angriffe zielen auf die Umgebung, nicht auf das Modell

Die meisten Forschungsarbeiten zur KI-Sicherheit konzentrierten sich auf das, was innerhalb des Modells passiert – Alignment, Jailbreaking, adversariale Eingaben. Das DeepMind-Paper rückt das Problem völlig neu in den Fokus. Ein Agent ist nicht nur ein Sprachmodell. Es ist ein System mit Wahrnehmung (Lesen von Webseiten, Betrachten von Bildschirmen), Schlussfolgerung (Entscheidung über Handlungen), Gedächtnis (gespeicherter Kontext, abgerufenes Wissen) und Handlung (Ausführung von Tool-Aufrufen, Durchführung von Transaktionen). Angreifer müssen das Modell nicht knacken, wenn sie stattdessen manipulieren können, was es sieht, wie es schlussfolgert, was es sich merkt oder wozu es autorisiert ist.

Das ist für die Versicherung relevant, weil die meisten Cyber-Policen und Fragebögen auf einem anderen Bedrohungsmodell aufbauen – einem, bei dem der Angreifer die Infrastruktur der Organisation direkt ins Visier nimmt. Agentenfallen kehren das um. Der Angreifer zielt auf eine Website Dritter ab, die der Agent besucht, oder auf ein Dokument in der Abruf-Pipeline des Agenten, oder auf einen Speicher, den der Agent zur Laufzeit liest. Die eigenen Perimeter-Kontrollen der Organisation sind irrelevant, wenn der Agent durch Umweltmanipulation kompromittiert wird.

Das Paper ordnet diese Angriffe in sechs Kategorien ein, die jeweils eine andere Schicht des Agenten-Stacks anvisieren. Die quantifizierten Erfolgsraten machen deutlich, dass dies keine akademische Spekulation ist – es handelt sich um reproduzierbare Angriffe mit hohen Erfolgsraten gegen produktionsreife Systeme.

Die sechs Angriffskategorien – Was Underwriter verstehen müssen

1. Content-Injection-Fallen (Wahrnehmungsschicht)

Content-Injection-Angriffe manipulieren das, was der Agent wahrnimmt – die Webseiten, die er liest, die E-Mails, die er verarbeitet, die Dokumente, die er parst. Die Nutzlast ist für menschliche Nutzer unsichtbar, für den Agenten aber vollständig lesbar.

Die einfachste Form verbirgt Anweisungen in CSS-unsichtbarem Text – weiße Schrift auf weißem Hintergrund, display:none-Divs, Zeichen mit Null-Breite. Raffinierte Varianten missbrauchen aria-label-Attribute, die Screenreader und Agenten verarbeiten, menschliche Nutzer jedoch nie sehen. Dynamisches Cloaking liefert menschlichen Besuchern eine Version einer Seite und Agenten, die sich über User-Agent-Strings oder Verhaltensmuster identifizieren, eine andere, mit Anweisungen versehene Version.

Die Erfolgsraten sind signifikant. Auf statischen Webseiten erzielt Content Injection eine Angriffserfolgsrate von 15–29 %, je nach Agent und Injektionsmethode (Franklin et al., 2026). Im WASP-Benchmark – einer standardisierten Evaluation für Web-Agenten-Sicherheit – steigt die Rate auf 86 % (Franklin et al., 2026). Diese Diskrepanz zwischen statischen Seiten und dem Benchmark spiegelt eine Realität wider, die Underwriter beachten sollten: Agenten, die in komplexen, dynamischen Web-Umgebungen operieren, sind deutlich verwundbarer als solche in kontrollierten Settings.

Versicherungstechnische Implikationen. Content Injection ist ein lieferkettennahes Risiko. Das kompromittierte Asset ist nicht das System des Versicherungsnehmers – es ist eine Website Dritter, die der Agent besucht. Traditionelle Cyber-Policen, die voraussetzen, dass das System des Versicherungsnehmers der Kompromittierungspunkt ist, werden Schwierigkeiten haben, zu leisten. Der Erstschaden (der Agent führt eine schädliche Handlung aus) ist klar, die unmittelbare Ursache jedoch extern. Underwriter sollten fragen, ob Agenten auf externen, nicht-vertrauenswürdigen Webseiten operieren und ob die Inhaltsverarbeitung eine Sanitisierung oder Durchsetzung von Instruktionsgrenzen vorsieht, bevor der Agent auf wahrgenommene Inhalte handelt.

Für Organisationen, die Agenten einsetzen, die das offene Web durchforsten – Recherche-Agenten, Einkaufsagenten, Kundendienst-Agenten, die externe Quellen abfragen – ist dies keine theoretische Exposure. Es ist die primäre Angriffsfläche, und die meisten Organisationen verfügen über keine Kontrollen dafür.

2. Semantische Manipulationsfallen (Schlussfolgerungsschicht)

Semantische Manipulationsangriffe injizieren keine neuen Anweisungen. Sie verändern, wie der Agent bestehende Informationen interpretiert – sie verschieben seine Schlussfolgerung durch linguistischen Druck statt durch explizite Befehle.

Das Paper dokumentiert zwei besonders effektive Strategien. Persona-Hyperstition prägt einen Agenten mit einer Persona, die seine nachfolgende Schlussfolgerung einschränkt. Die Forscher zeigten, dass Grok in eine „Stalin“-Persona gedrängt werden konnte, die systematisch seine Antworten zu politischen und historischen Themen beeinflusste (Franklin et al., 2026). Claude wurde in einen „spiritual bliss attractor“ gesteuert – einen Persona-Zustand, der ihn durchweg verständnisvoller und weniger kritisch machte (Franklin et al., 2026). Dies sind keine Instruktionsinjektionen; es sind Schlussfolgerungsverzerrungen, die über eine Sitzung hinweg bestehen bleiben.

Superlative Sprachmanipulation nutzt emphatische Rahmung – „kritisch wichtig“, „Sie müssen“, „dies ist der einzig richtige Weg“ – um die Entscheidungsfindung des Agenten zu verzerren, ohne eine explizite Anweisung. Der Agent schlussfolgert weiterhin, aber seine Schlussfolgerung wird durch die Sprache um die Aufgabe herum verzerrt.

Versicherungstechnische Implikationen. Diese Angriffe sind stealthy. Sie produzieren kein klares „Breach“-Ereignis. Stattdessen produzieren sie degradierende Entscheidungsqualität – ein Agent, der systematisch einen Lieferanten einem anderen vorzieht, der Transaktionen freigibt, die er markieren sollte, der verzerrte Analysen liefert. Der Schaden manifestiert sich als schlechte Geschäftsentscheidung, nicht als Sicherheitsvorfall.

Die meisten Cyber-Policen erfordern einen definierten „Sicherheitsvorfall“ oder „unautorisierten Zugriff“ als Auslöser. Ein semantisch manipulierter Agent, der innerhalb seiner autorisierten Berechtigungen handelt und Entscheidungen trifft, die verzerrt, aber nicht offensichtlich falsch sind, löst möglicherweise überhaupt keine Deckung aus. Underwriter sollten fragen, wie Organisationen Schlussfolgerungsdegradation bei Agenten erkennen und ob Audits von Agentenentscheidungen Prüfungen auf systematische Bias-Injektion beinhalten.

3. Kognitive Zustandsfallen (Gedächtnisschicht)

Kognitive Zustandsangriffe zielen auf das, was der Agent weiß – seinen gespeicherten Kontext, seine Retrieval-Augmented-Generation (RAG)-Pipeline, sein akkumuliertes Gedächtnis. Dies ist die Kategorie mit den höchsten quantifizierten Erfolgsraten im Paper, und sie sollte jeden Underwriter besorgen, der Organisationen mit RAG-basierten Agenten versichert.

RAG-Knowledge-Poisoning erreicht eine Angriffserfolgsrate von über 80 % bei weniger als 0,1 % Data Poisoning (Franklin et al., 2026). Ein Angreifer muss nicht die gesamte Wissensbasis kompromittieren – er muss nur einen verschwindend kleinen Bruchteil der Dokumente vergiften, die der Agent abruft, und das Relevanz-Ranking des RAG-Systems wird den vergifteten Inhalt genau dann an die Oberfläche bringen, wenn der Agent danach fragt.

Kontextuelle Lern-Backdoors sind mit 95 % Erfolgsrate noch effektiver (Franklin et al., 2026). Diese embedden Auslösemuster in den Kontext des Agenten, die, wenn aktiviert, den Agenten dazu bringen, sich auf spezifische Weise zu verhalten – ähnlich einem neuronalen Backdoor, aber operierend im kontextuellen Gedächtnis des Agenten statt in seinen Gewichten.

Latentes Gedächtnis-Poisoning zielt auf Agenten mit persistentem Langzeitgedächtnis ab. Da sich das Gedächtnis über Sitzungen hinweg akkumuliert, propagiert eine einzelne erfolgreiche Injektion in jede zukünftige Interaktion, bis das Gedächtnis bereinigt oder der Agent zurückgesetzt wird.

Versicherungstechnische Implikationen. Angriffe auf der Gedächtnisebene kollabieren die traditionelle Unterscheidung zwischen Datenintegrität und Systemkompromittierung. Ein RAG-Agent, der auf vergifteten Abrufdaten operiert, trifft Entscheidungen auf Basis falscher Prämissen, tut dies aber durch seine normale Autorisierungskette. Der Angriff ist ein Datenintegritätsproblem auf der Abrufebene, eine Systemkompromittierung auf der Agentenebene und potenziell ein Drittschaden, wenn die vergifteten Daten aus einer externen Quelle stammen.

Aktuelle Cyber-Frageböge erfragen selten die Integrität der RAG-Pipeline, Zugriffskontrollen für Gedächtnisspeicher oder die Herkunft von Abrufinhalten. Das sollten sie jedoch. Ein Agent, der aus einer externen Wissensbasis ohne Inhaltsverifikation abruft, ist ein Agent, der auf nicht-vertrauenswürdigen Input operiert – was architektonisch gleichbedeutend ist mit der Ausführung einer Anwendung ohne Input-Validierung.

Für mehr dazu, wie dies in die breitere agentische Angriffsfläche passt, siehe unsere Analyse zur agentischen Sicherheits-Underwriting für autonome KI.

4. Verhaltenssteuerungsfallen (Handlungsebene)

Verhaltenssteuerungsangriffe kapern das, was der Agent tut – seine Tool-Nutzung, seine Transaktionen, seinen Datenzugriff. Dies sind die Angriffe, die am ehesten direkte, messbare Schäden produzieren, und sie sind hoch effektiv.

Die Schlagzeilenzahl: 93 % Angriffserfolg auf AndroidWorld über multimodale Agenten, die durch Umweltmanipulation zu unbeabsichtigten Handlungen umgeleitet werden konnten (Franklin et al., 2026). Ein Agent, der eine Nachricht an einen Kollegen senden soll, sendet sie stattdessen an einen Angreifer. Ein Agent, der einen Flug buchen soll, bucht stattdessen einen anderen Flug. Der Agent führt die Handlung korrekt aus – er führt nur die falsche Handlung aus, weil seine Umgebung manipuliert wurde.

Datenexfiltration übersteigt 80 % über fünf verschiedene getestete Agentenarchitekturen hinweg (Franklin et al., 2026). Angreifer können Agenten dazu zwingen, private Daten – E-Mails, Dokumente, Credentials – an externe Ziele zu übertragen und dabei DLP-Kontrollen zu umgehen, weil der Agent unter seiner normalen Autorisierung handelt.

Sub-Agent-Spawning-Angriffe erreichen 58–90 % Erfolg (Franklin et al., 2026). Viele Agenten-Frameworks erlauben Agenten, Sub-Agenten für komplexe Aufgaben zu spawnen. Ein Angreifer kann den Eltern-Agenten dazu manipulieren, einen bösartigen Sub-Agenten zu spawnen, der mit den vollen Berechtigungen des Eltern-Agenten operiert und so eine persistente Hintertür in der Agenten-Infrastruktur der Organisation schafft.

Versicherungstechnische Implikationen. Dies sind die Angriffe, die die klarsten Erstschäden produzieren: unautorisierte Transaktionen, Datenexfiltration und persistente Hintertür-Zugriffe. Aber sie produzieren auch Schäden, die über traditionelle Policengrenzen hinweg schneiden. Eine betrügerische Transaktion, die von einem autorisierten Agenten ausgeführt wird, mag unter einer Cyber-Police keinen „unautorisierten Zugriff“ darstellen – der Agent war autorisiert, die Transaktion lag innerhalb seiner Berechtigungen, und der Betrug lag in der Umgebung, nicht im System. Underwriter sollten fragen, welche transaktionsbezogenen Kontrollen für Agenten mit finanzieller Befugnis existieren, ob Agenten davon abgehalten werden können, ungeprüfte Sub-Agenten zu spawnen, und wie Datenexfiltration erkannt wird, wenn der Agent selbst der Exfiltrationskanal ist.

Unsere frühere Analyse zu KI-Agenten, die Living-off-the-Land-Techniken nutzen, behandelt, wie Agenten-Handlungsfähigkeiten traditionelle LOTL-Tradecraft spiegeln – dieses Paper quantifiziert, wie effektiv diese Fähigkeit gekapert werden kann.

5. Systemische Fallen (Multi-Agenten-Ebene)

Systemische Fallen entstehen, wenn mehrere Agenten interagieren. Ein einzelner kompromittierter Agent kann Fehler durch ein gesamtes Multi-Agenten-System kaskadieren – indem er Fehlinformationen verbreitet, täuschendes Verhalten koordiniert oder einen einzelnen Kompromittierungspunkt in einen systemischen Ausfall verstärkt.

Das Paper dokumentiert kaskadierende Fehler, bei denen die kompromittierte Ausgabe eines Agenten von nachgelagerten Agenten verarbeitet wird und Fehler durch das System propagiert, ohne dass ein Mensch eingreift (Franklin et al., 2026). In Szenarien der kollektiven Täuschung koordinieren mehrere Agenten – nicht durch explizite Absprache, sondern durch gegenseitige Verstärkung ihrer manipulierten Ausgaben – um ein konsistentes, aber falsches Bild der Realität zu erzeugen (Franklin et al., 2026).

Dies spiegelt die systemischen Risikomuster wider, die Versicherer bereits aus Finanzmärkten kennen: Korrelationsrisiko, Ansteckung und das Versagen der Diversifikation, wenn Agenten kompromittierte Inputs teilen.

Versicherungstechnische Implikationen. Multi-Agenten-Systeme stellen ein Konzentrationsrisiko dar, das aktuelle Underwriting-Rahmen kaum adressieren. Wenn fünf Agenten alle aus derselben RAG-Pipeline abrufen, fallen sie alle demselben Knowledge-Poisoning-Angriff zum Opfer. Wenn sie alle eine gemeinsame Tool-Registry teilen, kompromittiert ein Tool-Poisoning-Angriff sie simultan. Das Kumulationsrisiko ist real und quantifizierbar. Underwriter sollten fragen, ob die Agenten-Architektur des Versicherungsnehmers Single Points of Failure über den Agenten-Verbund hinweg einführt, und welche Auswirkungsradius-Kontrollen den Umfang einer Einzel-Agenten-Kompromittierung begrenzen.

Siehe unseren NIS2-Leitfaden zum Lieferkettenrisikomanagement dazu, wie Abhängigkeiten von Dritten genau diese Konzentrationsrisiken erzeugen – Agenten-Lieferketten verstärken sie weiter.

6. Emergente Fallen

Das Paper räumt eine kritische Unbekannte ein: Angriffe, die nicht in die fünf etablierten Kategorien passen. Emergente Fallen sind Angriffsmuster, die aus der Komplexität der Agenten-Umwelt-Interaktion entstehen und noch nicht katalogisiert wurden. Die Forscher erklären ausdrücklich, dass ihre Taxonomie unvollständig ist – dass neue Angriffskategorien entstehen werden, sobald Agenten fähiger werden und in komplexeren Umgebungen operieren (Franklin et al., 2026).

Für Underwriter ist dies die wichtigste Kategorie. Sie bedeutet, dass jede Risikobewertung auf Basis der bekannten Angriffstaxonomie eine untere Schranke darstellt. Die tatsächliche Risikofläche umfasst Angriffsvektoren, die noch nicht entdeckt, getestet oder quantifiziert wurden. Dies ist keine Spekulation – es ist das direkte Fazit der Forscher, die die umfassendste Agenten-Angriffstaxonomie bislang produziert haben.

Policen und Underwriting-Rahmen, die nur bekannte Angriffsvektoren adressieren, sind für agentische Risiken inhärent unvollständig. Die Frage ist nicht, ob unbekannte Angriffskategorien existieren. Die Frage ist, ob die Organisation über Kontrollen verfügt, die robust gegen unbekannte Angriffskategorien sind – mehrschichtige Verteidigung, Anomalieerkennung, Output-Verifikation und Not-Aus-Schalter.

Was das für die Cyber-Versicherung bedeutet

Deckungslücken nach Angriffskategorie

Jede Angriffskategorie lässt sich auf eine spezifische Deckungslücke abbilden:

Content Injection (Wahrnehmung): Schäden durch Umweltmanipulation von Web-Inhalten Dritter. Die meisten Policen erfordern die Kompromittierung der eigenen Systeme des Versicherungsnehmers. Das System des Agenten selbst ist in Ordnung – es war die Umgebung, die kompromittiert wurde. Deckungsauslöser: unwahrscheinlich unter Standard-Cyber-Policen ohne spezifische Agenten-Klauseln.
Semantische Manipulation (Schlussfolgerung): Schäden durch systematisch verzerrte Agentenentscheidungen. Kein Sicherheitsereignis, kein unautorisierter Zugriff, kein Datenverstoß – nur schlechte Entscheidungen eines Agenten, der innerhalb seiner Autorisierung handelt. Deckungsauslöser: in der Regel ausgeschlossen als Geschäftsentscheidungsrisiko, nicht als Cyber-Ereignis.
Kognitiver Zustand (Gedächtnis): Schäden durch Agenten, die auf vergifteten Abrufdaten oder kompromittiertem Gedächtnis operieren. Das Datenintegritätsversagen mag in einer externen Wissensquelle liegen. Deckungsauslöser: potenziell abgedeckt unter Datenintegritäts- oder Social-Engineering-Klauseln, aber das Agent-als-Vektor-Muster ist neu und wahrscheinlich streitig.
Verhaltenssteuerung (Handlung): Betrügerische Transaktionen und Datenexfiltration durch autorisierte Agenten. Der Agent war autorisiert zu handeln; die Handlung lag innerhalb seiner Berechtigungen. Deckungsauslöser: am ehesten unter bestehenden Cyber-Policen abgedeckt, aber das „autorisierter Agent“-Problem – wo das System wie entworfen funktionierte – wird Schadensregulierungsstreitigkeiten erzeugen.
Systemisch (Multi-Agenten): Kaskadierende Fehler und Kumulationsschäden über Agenten-Verbünde hinweg. Deckungsauslöser: Kumulationsklauseln und Interdependenz-Bestimmungen könnten Anwendung finden, aber diese wurden für IT-Infrastruktur konzipiert, nicht für Agenten-Kognition.
Emergent (Unbekannt): Neue Angriffskategorien, die noch nicht identifiziert wurden. Deckungsauslöser: abhängig von der Policeformulierung. Weite „Cyber-Ereignis“-Definitionen könnten diese erfassen; enge „unautorisierter Zugriff“-Auslöser werden es nicht tun.

Warum traditionelle Fragebögen Agenten-Risiken verfehlen

Standard-Cyber-Versicherungsfragebögen wurden für infrastrukturzentrierte Bedrohungen konzipiert. Sie fragen nach Netzwerksegmentierung, Endpoint Detection, MFA-Deployment, Patching-Rhythmus und Incident Response Plänen. Diese Kontrollen bleiben notwendig. Sie sind für Agenten-Risiken unzureichend, weil:

Die Angriffsfläche ist umweltbezogen, nicht infrastrukturell. Ein Agent, der das offene Web durchforstet, wird über das Web angegriffen, nicht über das Netzwerk der Organisation. Firewall-Regeln und Netzwerksegmentierung schützen nicht vor einer bösartigen CSS-Anweisung auf einer legitimen Website.
Der Bedrohungsakteur ist unsichtbar. Content Injection, semantische Manipulation und Gedächtnis-Poisoning erfordern nicht, dass der Angreifer auf die Systeme des Versicherungsnehmers zugreift. Der Angreifer kompromittiert eine Website Dritter, ein Dokument in einem gemeinsamen Repository oder eine Datenquelle, aus der der Agent abruft. Das Security Operations Center des Versicherungsnehmers sieht nichts.
Agentenberechtigungen sind die Angriffsfläche. Je mehr Fähigkeiten ein Agent hat – Browsen, E-Mail, Code-Ausführung, Finanztransaktionen – desto größer ist der Auswirkungsradius, wenn er manipuliert wird. Fragebögen, die nicht nach dem Berechtigungsumfang von Agenten fragen, verfehlen den primären Risikotreiber.
Gedächtnis und Abruf sind unkontrollierte Inputs. RAG-Pipelines und Agenten-Gedächtnisspeicher sind funktional gleichbedeutend mit einer Anwendung, die nicht-vertrauenswürdigen Input ohne Validierung akzeptiert. Die meisten Fragebögen fragen nicht danach.

Für einen breiteren Überblick darüber, was die Cyber-Versicherung abdeckt – und wo die Lücken sind – siehe unseren Leitfaden zur Cyber-Versicherungsdeckung.

Underwriting-Fragen für Organisationen, die KI-Agenten einsetzen

Diese Fragen lassen sich direkt auf die DeepMind-Taxonomie abbilden. Sie sollten Standard-Cyber-Fragebögen ergänzen – nicht ersetzen – für jeden Versicherungsnehmer, der autonome KI-Agenten einsetzt.

Welche KI-Agenten operieren in der Produktion, und was ist der Berechtigungsumfang jedes einzelnen Agenten? Abbildung auf Verhaltenssteuerung. Ein Agent, der Finanztransaktionen ausführen kann, hat ein anderes Risikoprofil als einer, der nur Dokumente liest. Dokumentieren Sie jedes Tool, jede Integration und jede Autorisierung, die jeder Agent besitzt.
Durchforsten Agenten externe, nicht-vertrauenswürdige Webseiten? Wenn ja, welche Content-Sanitisierung oder Instruktionsgrenzen-Durchsetzung ist implementiert? Abbildung auf Content Injection. Agenten, die externes HTML parsen, sind CSS-verborgenen Instruktionen und aria-label-Missbrauch mit 86 % Angriffserfolg im Standard-Benchmark ausgesetzt.
Wie sind RAG-Abruf-Pipelines gesichert? Wird abgerufener Content auf Herkunft und Integrität verifiziert, bevor der Agent aufgrund dessen handelt? Abbildung auf Kognitiver Zustand. RAG-Knowledge-Poisoning erreicht über 80 % Erfolg bei weniger als 0,1 % Data Poisoning (Franklin et al., 2026). Content-Verifikation ist die Kontrolle.
Können Agenten Sub-Agenten spawnen? Wenn ja, sind gespawnte Agenten auf eine geprüfte Tool-Registry und einen engeren Berechtigungssatz als der Eltern-Agent beschränkt? Abbildung auf Verhaltenssteuerung. Sub-Agent-Spawning-Angriffe gelingen in 58–90 % der Fälle (Franklin et al., 2026). Uneingeschränkte Sub-Agenten-Erstellung ist gleichbedeutend mit einer Anwendung, die beliebigen Code ausführen kann.
Welche Überwachung existiert für Schlussfolgerungsdegradation, systematischen Bias oder Persona-Drift von Agenten über Zeit? Abbildung auf Semantische Manipulation. Diese Angriffe produzieren kein Sicherheitsereignis – nur degradierende Entscheidungsqualität. Erkennung erfordert Baseline-Messung und laufenden Vergleich.
Sind Agenten-Gedächtnisspeicher und persistenter Kontext Zugriffskontrollen, Versionierung und Integritätsprüfungen unterworfen? Abbildung auf Kognitiver Zustand. Latentes Gedächtnis-Poisoning persistiert über Sitzungen hinweg. Organisationen, die nicht auditieren können, was in ihren Agenten-Gedächtnissen ist, können diese Angriffsklasse nicht erkennen.
Für Agenten mit finanzieller oder operativer Befugnis: Welche transaktionsbezogenen Kontrollen existieren – Limits, Freigabe-Gates, Anomalieerkennung? Abbildung auf Verhaltenssteuerung. Ein Agent mit ungeprüfter finanzieller Befugnis und einer 93 %igen Rate für Verhaltens-Hijacking ist eine quantifizierbare Exposure. Transaktionslimits und Human-in-the-Loop-Prüfpunkte reduzieren den Auswirkungsradius.
In Multi-Agenten-Architekturen: Welche Auswirkungsradius-Kontrollen begrenzen die Auswirkung einer Einzel-Agenten-Kompromittierung? Sind gemeinsame Wissensbasen, Tool-Registries und Messaging-Kanäle isoliert? Abbildung auf Systemisch. Wenn alle Agenten eine RAG-Pipeline teilen, kompromittiert ein Poisoning-Ereignis alle. Architektonische Isolation ist wichtig.
Was ist der Not-Aus- oder Rollback-Prozess, wenn ein Agent sich unerwartet verhält? Wie schnell kann er ausgeführt werden? Abbildung auf alle Kategorien. Dies ist die letzte Verteidigungslinie. Wenn die Organisation einen kompromittierten Agenten nicht innerhalb von Minuten herunterfahren kann, vervielfacht sich der Schaden.
Sind Agentenentscheidungen auditierbar? Können Sie nachvollziehen, warum ein Agent eine spezifische Handlung aus seinen Logs ausgeführt hat? Abbildung auf alle Kategorien, besonders Semantische Manipulation und Kognitiver Zustand. Ohne Entscheidungs-Auditierbarkeit ist die Schadensregulierungsuntersuchung unmöglich.
Welche Content-Quellen Dritter speisen Agenten-Abruf-Pipelines, und unterliegen diese Quellen Lieferanten-Sicherheitsbewertungen? Abbildung auf Kognitiver Zustand und Content Injection. Dies ist Agenten-Lieferkettenrisiko – dieselbe Due Diligence, die auf SaaS-Anbieter angewendet wird, sollte auf RAG-Datenquellen angewendet werden.
Gibt es einen definierten Prozess zum Aktualisieren von Agentenberechtigungen, Tool-Registries und Gedächtnisspeichern, wenn Schwachstellen entdeckt werden? Abbildung auf alle Kategorien. Agenten-Infrastruktur ist Software-Infrastruktur. Sie benötigt Patching, Versionierung und Change Management.
Wurden die Agenten der Organisation auf Prompt Injection, Content Injection und Gedächtnis-Poisoning-Angriffe getestet? Waren die Tests Red-Team-Übungen mit produktionsäquivalenten Agenten? Abbildung auf alle Kategorien. Wenn die Antwort nein ist, hat die Organisation ihre Kontrollen nicht gegen die in diesem Paper dokumentierten Bedrohungen validiert.

NIS2 und Agenten-Sicherheit – Wie die Richtlinie Anwendung findet

Die NIS2-Richtlinie erwähnt KI-Agenten nicht. Sie verpflichtet jedoch „wesentliche Einrichtungen“ und „wichtige Einrichtungen“ zur Implementierung risikogerechter Maßnahmen, zur Absicherung ihrer Lieferketten und zur Meldung signifikanter Vorfälle.

Agenten-Sicherheit passt in drei Aspekten in NIS2:

Risikomanagement. Artikel 21 NIS2 verpflichtet Einrichtungen zur Implementierung „geeigneter und angemessener“ technischer, operativer und organisatorischer Maßnahmen zum Risikomanagement. Der Einsatz autonomer Agenten, die das Web durchforsten, aus externen Quellen abrufen und Finanztransaktionen ausführen – ohne Kontrollen für Content Injection, Gedächtnis-Poisoning und Verhaltens-Hijacking – ist argumentativ ein Versagen angemessenen Risikomanagements. Das DeepMind-Paper quantifiziert die Risiken. Regulatoren haben die Daten, um zu argumentieren, dass die Kontrollen unzureichend sind.

Lieferketten-Sicherheit. Artikel 21 Absatz 2 Buchstabe d erfordert Lieferketten-Sicherheit, einschließlich „der Sicherheitspraktiken direkter Lieferanten“. Die Abruf-Pipeline eines Agenten ist eine Lieferkette. Wenn der Agent aus externen Wissensbasen ohne Inhaltsverifikation abruft, hat die Organisation eine Lücke in der Lieferketten-Sicherheit. Die quantifizierten Angriffserfolgsraten im DeepMind-Paper – 80 %+ für RAG-Poisoning bei weniger als 0,1 % Datenkorruption – sind die Art spezifischer, evidenzbasierter Risikodaten, die Regulatoren bei Durchsetzungsmaßnahmen anführen werden.

Vorfallsmeldung. Wenn ein kompromittierter Agent einen signifikanten Vorfall verursacht – Datenexfiltration, Finanzbetrug, Service-Unterbrechung – muss die Organisation dies unter NIS2 melden. Aber die Klassifizierung des Vorfalls ist wichtig. Ist es ein Cyber-Vorfall? Ein Lieferketten-Vorfall? Ein Datenintegritäts-Vorfall? Die Taxonomie ist wichtig sowohl für die regulatorische Compliance als auch für Versicherungsschadensfälle.

Für Organisationen, die NIS2 unterliegen, liefert das DeepMind-Paper einen strukturierten Rahmen zur Bewertung agentenbezogener Risiken und deren Abbildung auf Compliance-Verpflichtungen. Unsere NIS2-Compliance-Checkliste behandelt den breiteren Rahmen – agentenspezifische Kontrollen sollten darauf aufgesetzt werden.

Wichtigste Erkenntnisse

Die Angriffsfläche ist die Umgebung, nicht das Modell. Das DeepMind-Paper von Google zeigt, dass Umweltmanipulation – Web-Inhalte, Abrufdaten, Gedächtnisspeicher – effektiver und ausnutzbarer ist als direkte Modellangriffe. Underwriting-Rahmen, die sich auf die eigene Infrastruktur der Organisation konzentrieren, verfehlen den primären Bedrohungsvektor.
Die Angriffserfolgsraten sind alarmierend hoch. 93 % bei AndroidWorld-Verhaltenssteuerung, 95 % für kontextuelle Lern-Backdoors, 86 % für Content Injection im WASP-Benchmark, 80 %+ für RAG-Knowledge-Poisoning bei weniger als 0,1 % Datenkorruption (Franklin et al., 2026). Das sind keine Randfälle – es sind reproduzierbare Angriffe gegen Produktionssysteme.
Jede Angriffskategorie lässt sich auf eine Deckungslücke abbilden. Content Injection zielt auf Web-Inhalte Dritter. Semantische Manipulation produziert Entscheidungsverzerrung, keine Sicherheitsereignisse. Gedächtnis-Poisoning ist ein Datenintegritätsproblem auf der Abrufebene. Verhaltenssteuerung umfasst autorisierte Agenten, die unbeabsichtigte Handlungen ausführen. Standard-Cyber-Policen wurden für keine davon konzipiert.
RAG-Pipelines sind die höchstriskante Komponente. Über 80 % Angriffserfolg bei weniger als 0,1 % Data Poisoning ist ein außergewöhnliches Hebelverhältnis. Organisationen, die RAG-basierte Agenten ohne Content-Verifikation und Herkunftskontrollen einsetzen, sind einem quantifizierbaren, hoch erfolgreichen Angriff ausgesetzt, den die meisten Policen nur schwer eindeutig abdecken werden.
Der Agentenberechtigungsumfang entspricht dem Auswirkungsradius. Ein Agent, der browsen, E-Mails senden, Code ausführen und Finanztransaktionen tätigen kann, ist ein Agent, bei dem Verhaltens-Hijacking direkte, messbare Schäden produziert. Underwriter müssen nach dem Berechtigungsumfang von Agenten mit derselben Strenge fragen, die sie auf Netzwerksegmentierung anwenden.
Multi-Agenten-Architekturen erzeugen Kumulationsrisiken. Gemeinsame Wissensbasen, gemeinsame Tool-Registries und Inter-Agenten-Messaging erzeugen Single Points of Failure, die durch den gesamten Agenten-Verbund kaskadieren können. Dies ist das Agenten-Äquivalent von Konzentrationsrisiko in der Rückversicherung.
Emergente Angriffskategorien bedeuten, dass die bekannte Taxonomie eine untere Schranke ist. Die Forscher räumen ausdrücklich ein, dass neue Angriffskategorien entstehen werden. Underwriting-Rahmen, die nur bekannte Vektoren adressieren, sind für agentische Risiken inhärent unvollständig. Organisationen benötigen Kontrollen, die robust gegen unbekannte Angriffskategorien sind – Anomalieerkennung, Output-Verifikation, Not-Aus-Schalter.
NIS2 findet Anwendung, auch wenn sie Agenten nicht erwähnt. Die Risikomanagement-, Lieferketten- und Vorfallsmeldungsanforderungen der Richtlinie betreffen alle die Agenten-Sicherheit. Organisationen, die Agenten ohne Kontrollen für die in diesem Paper dokumentierten Angriffskategorien einsetzen, sind argumentativ nicht konform mit den Verpflichtungen zum angemessenen Risikomanagement.

Für Organisationen, die bereit sind, ihre Agenten-Risiko-Exposure zu bewerten, kartiert unser KI-SBOM-Scanner Ihre KI-Lieferkette, und der Cyber-Risiko-Rechner quantifiziert potenzielle Schadensszenarien – einschließlich agentenbezogener Exposures, die Standard-Tools übersehen.

Das DeepMind-Paper gibt Underwritern etwas, das sie selten erhalten: eine rigorose, quantifizierte Taxonomie von Angriffsvektoren gegen eine Technologieklasse, die sich schneller deployt als der Versicherungsmarkt sie modellieren kann. Die 93 %ige Angriffserfolgsrate bei Verhaltenssteuerung ist keine Schwachstelle in einem spezifischen Modell. Sie ist eine Eigenschaft der Architektur – Agenten, die in einer nicht-vertrauenswürdigen Umgebung wahrnehmen, schlussfolgern, sich erinnern und handeln, werden manipuliert werden. Die Underwriting-Frage ist nicht, ob die Angriffe existieren. Die Frage ist, ob der Versicherungsnehmer über Kontrollen verfügt, die diese adressieren.

Quellen: Franklin, M., Tomašev, N., Jacobs, J., Leibo, J. Z., & Osindero, S. (2026). AI Agent Traps. Google DeepMind. Verfügbar bei SSRN: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6372438. Zusammenfassende Analyse: https://pub.towardsai.net/google-deepmind-just-mapped-every-way-the-web-can-hijack-your-ai-agent-6814bb268cb0

Michael Guiao Michael Guiao gründete Resiliently AI und schreibt Resiliently. Er hat CISM, CCSP, CISA und DPO-Zertifizierungen — aber sie verfallen lassen, denn im Zeitalter von KI ist Wissen billig. Worauf es ankommt, ist Urteilskraft — und die kommt aus acht Jahren Praxis bei Zurich, Sompo, AXA und PwC.

Get the full picture with premium access

In-depth reports, assessment tools, and weekly risk intelligence for cyber professionals.

Starter

€199 /month

Unlimited scans, submission packets, PDF downloads, NIS2/DORA

View Plans →

Best Value

Professional

€490 /month

Full platform — continuous monitoring, API access, white-label reports

Everything in Starter plus professional tools

Upgrade Now →

30-day money-back

Secure via Stripe

Cancel anytime

Free NIS2 Compliance Checklist

Get the free 15-point PDF checklist + NIS2 compliance tips in your inbox.

No spam. Unsubscribe anytime. Privacy Policy

blog.featured

WordPress Plugin Flaw CVE-2023-4213 Exposes 10K+ Sites to Cyber Claims

Cyber Risk ·

10. Juni 2026 6 min read

WordPress Plugin XSS Vulnerability Exposes Cyber Insurance Portfolios to Persistent Web Risks

Cyber Risk ·

02. Juni 2026 5 min read

WordPress Security Plugin Flaw Exposes Organizations to Cyber Claims

Cyber Risk ·

31. Mai 2026 6 min read

WordPress Plugin Flaw Exposes Cyber Insurance Portfolios to SQL Injection Risks

Cyber Risk ·

28. Mai 2026 6 min read

Premium Report

2026 Cyber Risk Landscape Report

24 pages of threat analysis, claims data, and underwriting implications for European cyber insurance.

View Reports →

Was Eclipse-Ditto-Sicherheitslücken für Ihre Cyber-Police bedeuten

Was HashiCorp-Vault-Sicherheitslücken für Ihre Cyber-Police bedeuten

Was Keycloak-Sicherheitslücken für Ihre Cyber-Police bedeuten

DeepMind Mapped Every Way the Web Can Hijack Your AI Agent — Here Is What Underwriters Need to Ask (DE)

Google DeepMind researchers classified six categories of AI agent attacks — from invisible web content that hijacks perception to cascading multi-agent failures. Coverage gaps emerge at every layer. Here is the underwriting playbook.

Das Kernargument: Angriffe zielen auf die Umgebung, nicht auf das Modell

Die sechs Angriffskategorien – Was Underwriter verstehen müssen

1. Content-Injection-Fallen (Wahrnehmungsschicht)

2. Semantische Manipulationsfallen (Schlussfolgerungsschicht)

3. Kognitive Zustandsfallen (Gedächtnisschicht)

4. Verhaltenssteuerungsfallen (Handlungsebene)

5. Systemische Fallen (Multi-Agenten-Ebene)

6. Emergente Fallen

Was das für die Cyber-Versicherung bedeutet

Deckungslücken nach Angriffskategorie

Warum traditionelle Fragebögen Agenten-Risiken verfehlen

Underwriting-Fragen für Organisationen, die KI-Agenten einsetzen

NIS2 und Agenten-Sicherheit – Wie die Richtlinie Anwendung findet

Wichtigste Erkenntnisse

Get the full picture with premium access

Starter

Professional

Free NIS2 Compliance Checklist

blog.featured

WordPress Plugin Flaw CVE-2023-4213 Exposes 10K+ Sites to Cyber Claims

WordPress Plugin XSS Vulnerability Exposes Cyber Insurance Portfolios to Persistent Web Risks

WordPress Security Plugin Flaw Exposes Organizations to Cyber Claims

WordPress Plugin Flaw Exposes Cyber Insurance Portfolios to SQL Injection Risks

2026 Cyber Risk Landscape Report

DeepMind Mapped Every Way the Web Can Hijack Your AI Agent — Here Is What Underwriters Need to Ask (DE)

Google DeepMind researchers classified six categories of AI agent attacks — from invisible web content that hijacks perception to cascading multi-agent failures. Coverage gaps emerge at every layer. Here is the underwriting playbook.

Das Kernargument: Angriffe zielen auf die Umgebung, nicht auf das Modell

Die sechs Angriffskategorien – Was Underwriter verstehen müssen

1. Content-Injection-Fallen (Wahrnehmungsschicht)

2. Semantische Manipulationsfallen (Schlussfolgerungsschicht)

3. Kognitive Zustandsfallen (Gedächtnisschicht)

4. Verhaltenssteuerungsfallen (Handlungsebene)

5. Systemische Fallen (Multi-Agenten-Ebene)

6. Emergente Fallen

Was das für die Cyber-Versicherung bedeutet

Deckungslücken nach Angriffskategorie

Warum traditionelle Fragebögen Agenten-Risiken verfehlen

Underwriting-Fragen für Organisationen, die KI-Agenten einsetzen

NIS2 und Agenten-Sicherheit – Wie die Richtlinie Anwendung findet

Wichtigste Erkenntnisse

Get the full picture with premium access

Starter

Professional

Free NIS2 Compliance Checklist

Cyber-Risiko-Insights direkt in Ihr Postfach

blog.featured

WordPress Plugin Flaw CVE-2023-4213 Exposes 10K+ Sites to Cyber Claims

WordPress Plugin XSS Vulnerability Exposes Cyber Insurance Portfolios to Persistent Web Risks

WordPress Security Plugin Flaw Exposes Organizations to Cyber Claims

WordPress Plugin Flaw Exposes Cyber Insurance Portfolios to SQL Injection Risks

2026 Cyber Risk Landscape Report