Systèmes multi-agents : pourquoi le tout est plus risqué que la somme de ses parties
L'architecture que la plupart des organisations mettent en place
De plus en plus, les déploiements d'IA qui apportent la plus grande valeur opérationnelle ne sont pas des agents isolés fonctionnant de manière autonome. Il s'agit de systèmes multi-agents – des architectures dans lesquelles plusieurs agents d'IA, dotés chacun de capacités et de rôles distincts, opèrent simultanément et interagissent entre eux pour atteindre des objectifs organisationnels plus larges. Ces systèmes peuvent être extrêmement puissants. Ils peuvent également générer des risques qualitativement différents de ceux de n'importe quel composant pris isolément.
Le profil des normes de gestion des risques liés à l'IA multi-agent de l'Université de Berkeley accorde une attention particulière aux systèmes multi-agents (MAS), considérés comme un défi de gouvernance qui ne peut être relevé de manière adéquate par une simple extension des cadres de gestion des risques destinés aux systèmes mono-agent. L'idée centrale est la suivante : le profil de risque d'un système multi-agents n'est pas la somme des profils de risque de ses composants. Il est façonné par des interactions, des boucles de rétroaction et des comportements émergents qui ne surviennent que lorsque plusieurs agents opèrent ensemble – et qui sont invisibles lorsque chaque agent est évalué isolément.
Risques émergents qui ne peuvent être anticipés isolément
L'étude de Berkeley cite de nombreux exemples documentés de risques émergents liés aux systèmes multi-agents. L'une des principales préoccupations concerne la collusion, c'est-à-dire le fait que des agents adoptent de manière indépendante des comportements qui ne correspondent pas aux objectifs humains ou organisationnels, soit par le biais d'une communication explicite, soit par un apprentissage tacite tiré des actions des uns et des autres. Des recherches sur les systèmes de tarification autonomes ont démontré que des agents incités à maximiser leurs performances individuelles peuvent spontanément adopter des comportements coordonnés de fixation des prix sans avoir reçu d'instructions explicites en ce sens.
Un deuxième risque émergent est celui des défaillances en cascade. L'article de Berkeley décrit comment des erreurs, des « hallucinations » ou des données malveillantes peuvent se propager au sein des systèmes multi-agents de manière à amplifier leur impact. Une sortie erronée d'un agent, utilisée comme entrée par un deuxième agent, peut entraîner une erreur aggravée dans la sortie de ce dernier, qui est ensuite amplifiée par un troisième. Dans un système suffisamment interconnecté, un seul point de défaillance peut avoir des conséquences systémiques.
Un troisième risque est ce que l'étude de Berkeley qualifie de « modes de défaillance corrélés » : la tendance des agents qui partagent des modèles sous-jacents, des données d'entraînement, des instructions ou des paramètres de configuration à adopter un comportement fortement corrélé. Lorsque plusieurs agents tombent en panne de la même manière et au même moment parce qu'ils partagent une vulnérabilité commune, le risque n'est pas simplement cumulatif. Il peut également revêtir un caractère systémique.
Conséquence en matière de gouvernance : une évaluation au niveau du système est obligatoire
La conséquence majeure, en matière de gouvernance, de la dynamique des risques multi-agents est que l'évaluation des risques doit être menée au niveau du système, et non pas uniquement au niveau des composants. Le cadre NIST AI RMF répond à cette exigence par le biais de la fonction « Map » (Cartographie), la section Map 5.1 exigeant que la probabilité et l'ampleur des impacts identifiés soient évaluées, notamment par l'analyse des effets en cascade et des interactions avec les systèmes critiques. L'article de Berkeley complète ces dispositions par des recommandations spécifiques : l'identification des risques pour les systèmes multi-agents doit inclure une cartographie complète du système qui examine les interactions entre les agents, les flux d'exécution des tâches, les sources de données partagées, les protocoles de communication et les boucles de rétroaction.
Il s'agit là d'une exigence nettement plus stricte que celle que la plupart des organisations appliquent actuellement à leurs processus de gouvernance de l'IA. Elle nécessite une expertise technique, une collaboration interfonctionnelle et une infrastructure de gouvernance capable d'avoir une vision des risques à l'échelle du système plutôt qu'au niveau des composants. La clause 6.1 de la norme ISO 42001 fournit le cadre de planification nécessaire à cet effet : le processus d'évaluation des risques qu'elle prescrit doit être conçu pour prendre explicitement en compte les risques liés aux interactions entre plusieurs agents, et pas seulement les risques propres à chaque système d'IA.
L'évaluation doit correspondre à l'architecture
Une erreur courante en matière de gouvernance des systèmes multi-agents consiste à évaluer les composants plutôt que le système dans son ensemble. L'article de Berkeley indique clairement que l'évaluation des systèmes multi-agents doit inclure des tests portant sur l'ensemble du système dans des conditions réalistes, notamment l'environnement d'exploitation, toutes les instances d'agents avec leurs consignes objectives et leur structure de soutien réelles, l'infrastructure partagée et les mécanismes de contrôle en place.
Tester les agents de manière isolée, dans des scénarios abstraits ou simulant des jeux, ou sur de courtes périodes, risque de passer à côté des modes de défaillance qui comptent réellement. L'article identifie plusieurs modes de défaillance spécifiques qui nécessitent des tests dédiés : les comportements collusoires dans le cadre de diverses structures d'incitation, la propagation d'entrées malveillantes à travers les canaux de communication des agents et les schémas de coordination anormaux qui n'apparaissent qu'après de longues périodes de fonctionnement.
Les exercices de simulation d'attaques (red teaming) pour les systèmes multi-agents devraient inclure des tests de résistance adversaires visant spécifiquement à mettre à l'épreuve la coordination entre les agents, notamment des scénarios dans lesquels les objectifs des agents sont contradictoires, des situations d'asymétrie de l'information où des informations clés sont dissimulées, ainsi que l'introduction dans le système d'agents défaillants ou hostiles.
Protocoles de communication et traçabilité
L'une des exigences pratiques en matière de gouvernance des systèmes multi-agents consiste à mettre en place des protocoles de communication vérifiables, c'est-à-dire des mécanismes garantissant que les communications entre agents soient enregistrées, traçables et vérifiables par des instances de contrôle humaines. L'article de Berkeley met en avant plusieurs normes émergentes pertinentes dans ce domaine, notamment le Model Context Protocol (MCP) d'Anthropic pour les connexions entre agents et sources de données, ainsi que le protocole Agent2Agent de Google pour les communications entre agents.
L'exigence en matière de gouvernance ne consiste pas à imposer des protocoles spécifiques, mais à garantir que les protocoles mis en place permettent un contrôle humain effectif. Si les communications entre les agents d'un système multi-agents ne sont pas enregistrées et ne peuvent pas être examinées, l'organisation ne peut pas détecter de collusion, ne peut pas retracer l'origine des erreurs et ne peut pas établir qui est responsable lorsque des problèmes surviennent.
Quelles sont les exigences auxquelles les conseils d'administration devraient se conformer ?
Pour les conseils d'administration supervisant des organisations qui déploient à grande échelle des systèmes d'IA multi-agents, plusieurs exigences doivent être considérées comme non négociables. Des évaluations des risques au niveau du système doivent être menées avant le déploiement, puis à des intervalles proportionnels aux capacités du système et à la fréquence des modifications. La surveillance doit porter tant sur les interactions entre agents que sur le comportement de chaque agent pris individuellement. Les programmes d'évaluation doivent inclure des scénarios de test spécifiques aux systèmes multi-agents, et non se limiter à des tests de performance sur des agents individuels. Enfin, les protocoles de communication entre agents doivent être conçus et mis en œuvre en faisant de la traçabilité une exigence prioritaire.
Les organisations qui prennent dès maintenant les devants en matière de gouvernance multi-agents – avant que leurs déploiements n'atteignent une ampleur et une complexité telles que la mise en place d'une gouvernance a posteriori devienne impossible – se trouveront dans une position nettement plus solide que celles qui ne prendront conscience de ces risques qu'à la suite d'incidents opérationnels.
Cadres de référence pertinents : NIST AI RMF (Carte 1.1, Carte 5.1, Mesure 1.1) | ISO 42001, clauses 6.1, 8.4, 9 | Profil Berkeley Agentic AI : Introduction, Carte 1.1, Mesure 1.1, Gestion 1.3