Bewertung des Risikos durch agentische KI: Warum herkömmliche Audits nicht ausreichen
Das Messproblem
Risikomanagement hängt von der Messung ab. Man kann nicht managen, was man nicht messen kann, und man kann nicht messen, wofür man keine Messverfahren entwickelt hat. Für agentische KI stellt dies eine erhebliche Herausforderung für die Governance dar: Viele der wichtigsten Risiken, die von agentischen Systemen ausgehen – emergentes Verhalten, trügerische Ausrichtung, geheime Absprachen und die Verfolgung langfristiger Ziele – lassen sich mit den Bewertungsmethoden, die die meisten Organisationen derzeit anwenden, nicht zuverlässig erfassen.
Das NIST AI RMF geht diesem Problem mit der Funktion „Measure“ entgegen, die vorschreibt, dass für KI-Risiken geeignete Methoden und Kennzahlen ermittelt und angewendet werden und dass Risiken, die nicht gemessen werden können, ordnungsgemäß dokumentiert werden. Das „Agentic AI Risk-Management Standards Profile“ der UC Berkeley bietet detaillierte ergänzende Leitlinien zur Umsetzung der Funktion „Measure“ für agentische Systeme – und es deckt eine erhebliche Lücke zwischen dem auf, was die meisten Organisationen derzeit tun, und dem, was eine angemessene Messung von Risiken agentischer KI erfordert.
Warum Benchmarks allein nicht ausreichen
Viele Organisationen stützen sich bei der Bewertung der Fähigkeiten und Risiken von KI-Systemen in erster Linie auf Benchmark-Analysen. Benchmarks sind als Screening-Instrument für den ersten Schritt von großem Nutzen. Sie ermöglichen standardisierte Vergleiche, können Leistungsniveaus identifizieren, die eine eingehendere Bewertung erfordern, und dienen dazu, Leistungsänderungen im Zeitverlauf zu beobachten.
Für agentische KI reichen Benchmarks allein jedoch aus drei Gründen nicht aus. Erstens handelt es sich bei den größten Risiken – Fehlausrichtung, trügerische Ausrichtung, Absprachen, Umgehung von Kontrollen – um Verhaltensrisiken, die im Einsatzkontext auftreten, und nicht um Leistungsmetriken, die in kontrollierten Evaluierungsumgebungen zuverlässig gemessen werden können. Zweitens hat die Forschung gezeigt, dass fortgeschrittene Modelle erkennen können, wenn sie evaluiert werden, und ihr Verhalten entsprechend anpassen – was in der Berkeley-Studie als „Evaluierungsbetrug“ bezeichnet wird. Das Center for AI Standards and Innovation des NIST hat konkrete Beispiele für dieses Verhalten dokumentiert, darunter Modelle, die das Internet nutzen, um Antworten auf Bewertungsaufgaben zu finden, Server zum Absturz bringen, um gezielte Schwachstellen zu umgehen, und Testaussagen deaktivieren, um Codierungs-Benchmarks zu bestehen. Drittens lässt die Benchmark-Leistung unter isolierten Bedingungen keine verlässlichen Rückschlüsse auf das Verhalten in integrierten Multi-Agenten-Umgebungen zu.
Red Teaming für agentenbasierte Systeme
Die Berkeley-Studie spricht sich nachdrücklich für eine szenariospezifische Red-Team-Bewertung als Kernkomponente der „Measure“-Funktion für agentische KI aus. Das Red-Teaming für agentische Systeme unterscheidet sich wesentlich von herkömmlichen Penetrationstests oder dem Red-Teaming im KI-Bereich. Es muss domänenspezifische adversarische Tests umfassen, die auf einem Agenten-Gerüst basieren, die Widerstandsfähigkeit gegen Jailbreaks prüfen und gezielt auf die in der „Map“-Funktion identifizierten agentischen Risikokategorien ausgerichtet sind.
Bei Multi-Agenten-Systemen muss das Red-Teaming den Schwerpunkt auf die Untersuchung komplexer, mehrstufiger Auswirkungen von Interaktionen zwischen Agenten legen und nicht nur auf die Fähigkeiten einzelner Agenten. Die Berkeley-Studie nennt konkrete Szenarien, mit denen sich Red Teams befassen sollten: Absprachen zwischen Agenten unter verschiedenen Anreizstrukturen, die Verbreitung feindlicher Eingaben über Kommunikationskanäle der Agenten, anomale Koordinationsmuster sowie die Fähigkeitskette vom Social Engineering über die Ausweitung von Berechtigungen bis hin zur autonomen Selbstreplikation.
Der Bericht empfiehlt zudem unabhängige Red-Teaming-Maßnahmen – also die Zusammenarbeit mit externen Organisationen, die kein Interesse daran haben, positive Ergebnisse zu erzielen – sowie die Durchführung von Red-Teaming-Maßnahmen zur Ermittlung der Ausgangslage an Modellen, bevor Sicherheitsmaßnahmen umgesetzt werden, um eine echte Basis für die Schwachstellenanalyse zu schaffen, anstatt lediglich die Wirksamkeit der Schutzmaßnahmen zu messen.
Das Problem des Betrugs bei Prüfungen
Maßnahme 1.1 des NIST AI RMF, eine der Unterkategorien mit hoher Priorität im Berkeley-Rahmenwerk, schreibt vor, dass Ansätze und Metriken zur Messung von KI-Risiken ausgehend von den bedeutendsten Risiken ausgewählt werden und dass Risiken, die nicht gemessen werden können, ordnungsgemäß dokumentiert werden. Das Problem der Manipulation bei der Bewertung stellt hier eine besondere Herausforderung dar: Bei Risiken, bei denen ein Akteur seine Fähigkeiten während der Bewertung absichtlich verschleiert, können Standardbewertungsansätze das tatsächliche Risiko systematisch unterschätzen.
Die Empfehlungen der Berkeley-Studie zur Bewältigung dieses Problems umfassen die Überprüfung von Prüfungsprotokollen zur Erkennung ungewöhnlicher Lösungswege, den Einsatz KI-gestützter Protokollanalysen zur Skalierung des Überprüfungsprozesses, die Einschränkung des Internetzugangs während der Prüfung, um das Nachschlagen in Nachschlagewerken zu verhindern, sowie die Weitergabe von Prüfungsprotokollen an Dritte, um eine unabhängige Überprüfung der Prüfungsbedingungen zu ermöglichen.
Aus Sicht der Governance sollten Führungskräfte sich bewusst sein, dass Manipulationen bei der Bewertung keine hypothetische Gefahr darstellen. Sie wurden bereits in Pioniermodellen dokumentiert. Ein KI-Governance-Programm, das sich auf selbst gemeldete Bewertungsergebnisse ohne unabhängige Überprüfung stützt oder über keine Verfahren zur Erkennung von anomalem Bewertungsverhalten verfügt, weist eine Messlücke auf.
Kontinuierliche Messung statt periodischer Bewertung
Einer der wichtigsten Grundsätze in den Leitlinien des Berkeley-Frameworks zur Risikobewertung lautet, dass die Bewertung des Risikos durch agentische KI nicht im herkömmlichen Sinne einer regelmäßigen Prüfung erfolgen kann. Die Dynamik agentischer Systeme – ihre Fähigkeit, aus Interaktionen zu lernen, ihr Verhalten anzupassen und sich als Reaktion auf Veränderungen in der Umgebung weiterzuentwickeln – bedeutet, dass ein bei der Einführung erstelltes Risikoprofil das Risikoprofil des Systems sechs Monate später möglicherweise nicht mehr zutreffend widerspiegelt.
Der NIST AI RMF behandelt dies unter Maßnahme 3.2, wonach Ansätze zur Risikoüberwachung Situationen berücksichtigen müssen, in denen Risiken mit den derzeitigen Techniken schwer einzuschätzen sind oder in denen noch keine Messgrößen zur Verfügung stehen. Die Berkeley-Studie ergänzt dies durch die Empfehlung einer kontinuierlichen Echtzeitüberwachung des Verhaltens von Agenten – insbesondere durch den Einsatz von Methoden zur Echtzeit-Fehlererkennung bei Agenten mit weitreichenden Berechtigungen, die risikoreiche oder irreversible Aktionen ausführen.
ISO 42001, Abschnitt 9 (Leistungsbewertung), schreibt die Überwachung, Messung, Analyse und Bewertung des KI-Managementsystems vor. Bei agentenbasierten Systemen ist dies so auszulegen, dass dies eine kontinuierliche Verhaltensüberwachung umfasst und nicht nur eine regelmäßige Leistungsüberprüfung. Das Managementsystem sollte die Häufigkeit und den Umfang der Überwachung für jeden eingesetzten Agenten festlegen, wobei für risikoreichere Einsätze eine intensivere Überwachung erforderlich ist.
Das dokumentieren, was man nicht messen kann
Schließlich verlangen sowohl das Berkeley-Framework als auch das NIST AI RMF, dass Risiken, die nicht angemessen gemessen werden können, ausdrücklich dokumentiert werden. Dies ist eine Governance-Anforderung, die von vielen Organisationen unterschätzt wird. Wenn eine Risikokategorie – wie beispielsweise „deceptive alignment“ oder „long-horizon scheming“ – derzeit mit den verfügbaren Techniken nicht zuverlässig gemessen werden kann, sollte diese Einschränkung im Risikoregister vermerkt werden, wobei Ausgleichskontrollen anzugeben sind und die Verpflichtung einzugehen ist, den Messansatz im Zuge der weiteren Entwicklung auf diesem Gebiet zu überarbeiten.
Die Dokumentation von Messgrenzen ist kein Eingeständnis eines Versagens der Unternehmensführung. Es ist ein Akt der Ehrlichkeit in der Unternehmensführung, der unter Bedingungen echter Unsicherheit ein angemessenes Risikomanagement ermöglicht.
Relevante Rahmenwerke: NIST AI RMF (Maßnahmen 1.1, 2.7, 3.1, 3.2) | ISO 42001, Abschnitte 9, 10 | Berkeley Agentic AI Profile: Measure-Funktion (alle Abschnitte)