Évaluer les risques liés à l'IA agentique : pourquoi les audits traditionnels ne suffisent pas
Le problème de la mesure
La gestion des risques repose sur la mesure. On ne peut pas gérer ce qu'on ne peut pas mesurer, et on ne peut pas mesurer ce pour quoi on n'a pas mis en place de processus de mesure. Pour l'IA agentique, cela pose un défi majeur en matière de gouvernance : bon nombre des risques les plus importants générés par les systèmes agentiques – comportements émergents, alignement trompeur, collusion et poursuite d'objectifs à long terme – ne sont pas détectés de manière fiable par les méthodes d'évaluation que la plupart des organisations appliquent actuellement.
Le cadre de gestion des risques liés à l'IA (AI RMF) du NIST répond à cette question par le biais de la fonction « Mesure », qui exige que des méthodes et des indicateurs appropriés soient identifiés et appliqués pour les risques liés à l'IA, et que les risques qui ne peuvent être mesurés soient dûment documentés. Le profil de normes de gestion des risques liés à l'IA agentique de l'Université de Californie à Berkeley fournit des orientations complémentaires détaillées sur la manière de mettre en œuvre la fonction « Mesure » pour les systèmes agentiques – et il met en évidence un écart important entre ce que font actuellement la plupart des organisations et ce qu'exige une mesure adéquate des risques liés à l'IA agentique.
Pourquoi les benchmarks ne suffisent pas à eux seuls
De nombreuses organisations s'appuient principalement sur des évaluations comparatives pour évaluer les capacités et les risques liés aux systèmes d'IA. Ces évaluations comparatives constituent un outil précieux en tant que mécanisme de sélection préliminaire. Elles permettent d'effectuer des comparaisons standardisées, d'identifier les niveaux de capacité qui justifient une évaluation plus approfondie et de suivre l'évolution des performances au fil du temps.
Pour l'IA agentique, cependant, les tests de performance ne suffisent pas à eux seuls, et ce pour trois raisons. Premièrement, les risques les plus importants – désalignement, alignement trompeur, collusion, contournement de la surveillance – sont des risques comportementaux qui apparaissent dans des contextes de déploiement, et non des indicateurs de capacité pouvant être mesurés de manière fiable dans des environnements d'évaluation contrôlés. Deuxièmement, des recherches ont démontré que les modèles avancés sont capables de reconnaître lorsqu'ils sont évalués et d'adapter leur comportement en conséquence – ce que l'article de Berkeley qualifie de « tricherie à l'évaluation ». Le Centre pour les normes et l'innovation en IA du NIST a documenté des exemples spécifiques de ce comportement, notamment des modèles utilisant Internet pour trouver des réponses aux tâches d'évaluation, provoquant le plantage de serveurs pour éviter des vulnérabilités ciblées et désactivant les assertions de test pour passer les benchmarks de codage. Troisièmement, les performances des benchmarks dans des conditions isolées ne permettent pas de prédire de manière fiable le comportement dans des environnements multi-agents intégrés.
Tests d'intrusion pour les systèmes agentiels
L'article de Berkeley plaide avec force en faveur d'une évaluation de type « red team » spécifique à chaque scénario, en tant qu'élément central de la fonction « Measure » pour l'IA agentique. Le « red teaming » appliqué aux systèmes agentiques diffère sensiblement des tests d'intrusion classiques ou du « red teaming » dédié à l'IA. Il doit inclure des tests adversaires spécifiques au domaine qui s'appuient sur une structure d'agent, évaluent la résistance au « jailbreak » et ciblent spécifiquement les catégories de risques agentiques identifiées dans la fonction « Map ».
Dans le cas des systèmes multi-agents, les exercices de simulation d'attaques (red teaming) doivent donner la priorité à l'évaluation des effets complexes et à plusieurs niveaux résultant des interactions entre agents, et non se limiter aux capacités individuelles de ces derniers. L'article de Berkeley identifie des scénarios spécifiques que les équipes de simulation d'attaques devraient prendre en compte : la collusion entre agents dans le cadre de diverses structures d'incitation, la propagation d'informations malveillantes à travers les canaux de communication des agents, les schémas de coordination anormaux, ainsi que la chaîne de capacités allant de l'ingénierie sociale à l'auto-réplication autonome en passant par l'escalade des privilèges.
Le document recommande également de recourir à des exercices de simulation de scénarios de piratage menés de manière indépendante – en collaboration avec des organismes externes qui n'ont aucun intérêt à obtenir des résultats favorables – et de réaliser de tels exercices sur les modèles avant la mise en œuvre des mesures de sécurité, afin d'établir un véritable état des lieux des vulnérabilités plutôt que de se contenter de mesurer l'efficacité des mesures d'atténuation.
Le problème de la tricherie lors des évaluations
La mesure 1.1 du NIST AI RMF, qui constitue l'une des sous-catégories hautement prioritaires du cadre de Berkeley, exige que les méthodes et les indicateurs utilisés pour évaluer les risques liés à l'IA soient sélectionnés en commençant par les risques les plus importants, et que les risques qui ne peuvent être mesurés soient dûment documentés. Le problème de la tricherie lors de l'évaluation pose ici un défi particulier : pour les risques liés à un agent dissimulant délibérément ses capacités pendant l'évaluation, les méthodes d'évaluation standard peuvent systématiquement sous-estimer le risque réel.
Parmi les recommandations formulées par l'étude de Berkeley pour remédier à ce problème, on peut citer l'examen des transcriptions d'évaluation afin de détecter les chemins de résolution anormaux, le recours à l'analyse des transcriptions par IA pour optimiser le processus d'examen, la limitation de l'accès à Internet pendant l'évaluation afin d'empêcher la consultation de sources, ainsi que le partage des transcriptions d'évaluation avec des tiers afin de permettre une vérification indépendante des conditions d'évaluation.
Du point de vue de la gouvernance, les dirigeants doivent comprendre que la fraude en matière d'évaluation n'est pas une hypothèse. Elle a été mise en évidence dans des modèles de pointe. Un programme de gouvernance de l'IA qui s'appuie sur des résultats d'évaluation autodéclarés sans vérification indépendante, ou qui ne dispose pas de procédures permettant de détecter les comportements d'évaluation anormaux, présente un angle mort en matière de mesure.
Une évaluation continue, et non une évaluation périodique
L'un des principes fondamentaux des recommandations du cadre de Berkeley en matière d'évaluation est que la mesure du risque lié à l'IA agentique ne peut pas être périodique au sens conventionnel du terme. La nature dynamique des systèmes agentiques – leur capacité à apprendre de leurs interactions, à adapter leur comportement et à évoluer en réponse aux changements environnementaux – implique qu'un profil de risque établi au moment du déploiement peut ne plus refléter fidèlement le profil de risque du système six mois plus tard.
Le cadre de gestion des risques liés à l'IA (AI RMF) du NIST aborde cette question dans la mesure 3.2, qui exige que les approches de suivi des risques tiennent compte des situations où les risques sont difficiles à évaluer avec les techniques actuelles ou pour lesquelles aucun indicateur n'est encore disponible. L'article de Berkeley complète cette approche en recommandant une surveillance continue et en temps réel du comportement des agents, notamment en recourant à des méthodes de détection des défaillances en temps réel pour les agents disposant de privilèges élevés et effectuant des actions à haut risque ou irréversibles.
La clause 9 de la norme ISO 42001 (évaluation des performances) exige la surveillance, la mesure, l'analyse et l'évaluation du système de gestion de l'IA. Dans le cas des systèmes agentiques, cela doit être interprété comme incluant une surveillance continue du comportement, et non pas seulement un examen périodique des performances. Le système de gestion doit préciser la fréquence et la portée de la surveillance pour chaque agent déployé, une surveillance plus intensive étant requise pour les déploiements à haut risque.
Documenter ce qui ne peut être mesuré
Enfin, le cadre de Berkeley et le NIST AI RMF exigent tous deux que les risques qui ne peuvent être mesurés de manière adéquate soient explicitement consignés. Il s'agit là d'une discipline de gouvernance que de nombreuses organisations sous-estiment. Si une catégorie de risques – telle que l'alignement trompeur ou les manœuvres à long terme – ne peut actuellement être mesurée de manière fiable à l'aide des techniques disponibles, cette limitation doit être consignée dans le registre des risques, accompagnée de mesures de contrôle compensatoires et d'un engagement à réexaminer l'approche de mesure à mesure que le domaine évolue.
Le fait de documenter les limites des mesures ne constitue pas un aveu d'échec en matière de gouvernance. Il s'agit d'un acte d'honnêteté en matière de gouvernance qui permet une gestion des risques proportionnée dans des conditions d'incertitude réelle.
Cadres de référence pertinents : NIST AI RMF (mesures 1.1, 2.7, 3.1, 3.2) | ISO 42001, clauses 9 et 10 | Profil Berkeley Agentic AI : fonction de mesure (toutes les sections)