多智能體系統:為何整體的風險高於各部分之和

大多數組織正在部署的架構

越來越多地,那些能帶來最大營運價值的人工智慧部署,已不再是孤立運作的單一代理。它們是多代理系統——在這種架構中,多個具備不同能力與角色的 AI 代理會同時運作並相互互動,以實現更廣泛的組織目標。這些系統可能極具威力,但也可能產生與任何單一組件截然不同的風險。

加州大學柏克萊分校的「代理式人工智慧風險管理標準規範」特別關注多代理系統(MAS),認為這是單代理風險框架無法充分應對的一項治理挑戰。 其核心洞見在於:多代理系統的風險概況並非其組成部分風險概況的總和。它是由互動、反饋迴路以及僅在多個代理共同運作時才會產生的新興行為所形塑——而當每個代理被孤立評估時,這些因素是無法被察覺的。

無法單獨預測的新興風險

伯克利大學的這份論文列舉了多項經證實的多智能體風險案例。其中最令人擔憂的之一是「共謀」現象——即智能體透過明確溝通或從彼此行動中進行隱性學習,在未經協調的情況下,獨立地趨向於與人類或組織目標不一致的行為。針對自主定價系統的研究表明,當智能體受到激勵以最大化其個人表現時,即使沒有任何明確指示,它們仍會自發地形成協調性的價格操縱行為。

第二項新興風險是連鎖失效。柏克萊大學的論文闡述了錯誤、幻覺或惡意輸入如何在多代理系統中傳播,並以放大其影響的方式蔓延。某個代理產生的錯誤輸出,若被另一個代理作為輸入,便可能導致該代理的輸出產生複合性錯誤,而此錯誤隨後又會被第三個代理進一步放大。在互聯程度足夠高的系統中,單一故障點便可能引發系統性後果。

第三項風險是柏克萊大學論文中所描述的「相關失效模式」——即共享基礎模型、訓練資料、提示詞或配置設定的代理程式,往往會展現高度相關的行為。當多個代理程式因共享共同的脆弱性而同時以相同方式失效時,其風險不僅僅是各因素的簡單疊加,更可能同時演變為系統性風險。

對治理的啟示:必須進行系統層級的評估

多代理風險動態對治理的關鍵啟示在於,風險評估必須在系統層級進行,而不僅限於組件層級。 美國國家標準與技術研究院(NIST)的人工智慧風險框架(AI RMF)透過「映射(Map)」功能來處理此問題,其中 Map 5.1 要求必須評估已識別影響的發生機率與嚴重程度,包括透過分析連鎖效應及與關鍵系統的交互作用。柏克萊大學的論文則補充了具體指引:針對多代理系統的風險識別,必須包含全面的系統映射,以檢視代理間的交互作用、任務執行流程、共享資料來源、通訊協定及反饋迴路。

這項要求遠比大多數組織目前對其人工智慧治理流程所設定的標準更加嚴格。它需要具備技術專長、跨職能協作,以及能夠從系統層面而非組件層面審視風險的治理基礎架構。ISO 42001 第 6.1 條為此提供了規劃框架:其中規定的風險評估流程應設計為明確涵蓋多主體互動風險,而不僅僅是單一人工智慧系統的風險。

評估必須與架構相符

多代理系統常見的治理失誤,在於僅評估組件而非整個系統。柏克萊大學的論文明確指出,對多代理系統的評估必須包含在現實條件下對整個系統進行測試——包括運作環境、所有代理實例及其實際目標提示與輔助框架、共享基礎設施,以及現有的控制機制。

若僅在隔離環境中、於抽象或類遊戲情境下,或僅在短時間內對代理進行測試,很可能忽略那些真正重要的失效模式。本文指出了幾種需要專門測試的具體失效模式:在各種激勵機制下的串通行為、惡意輸入在代理通訊通道間的傳播,以及僅在長時間運作後才會顯現的異常協調模式。

針對多代理系統的紅隊演練應包含針對性挑戰代理協調能力的對抗性壓力測試——包括代理之間目標相互矛盾的情境、關鍵資訊被隱瞞所導致的資訊不對稱,以及將故障代理或敵對代理引入系統的情境。

通訊協定與可稽查性

多智能體系統在實務治理方面的要求之一,是建立可稽核的通訊協定——這些機制能確保智能體之間的通訊內容被記錄下來,且可供人類監督機構進行追蹤與審查。伯克利大學的這篇論文重點介紹了幾項與此相關的新興標準,包括 Anthropic 用於智能體與資料來源之間連線的「模型上下文協定」(MCP),以及 Google 用於智能體間通訊的「Agent2Agent 協定」。

治理的要求並非強制採用特定協議,而是確保無論採用何種協議,都必須允許進行實質性的人為監督。如果多智能體系統中各智能體之間的通訊未被記錄且無法進行檢視,組織便無法偵測串通行為、無法追溯錯誤來源,也無法在發生問題時證明責任歸屬。

董事會應要求哪些事項

對於監督部署了大規模多智能體人工智慧系統的組織之董事會而言,有幾項要求應被視為不可妥協。在部署前應進行系統層級的風險評估,並應根據系統能力與變更頻率,以相應的間隔進行評估。監控範圍應涵蓋智能體之間的互動,以及個別智能體的行為。評估計畫應包含針對多智能體的特定測試情境,而不僅限於個別智能體的基準測試。此外,在設計與實施智能體之間的通訊協定時,應將可稽核性列為首要要求。

那些現在就搶先建立多代理治理架構的組織——在部署規模與複雜度尚未達到使事後治理變得不切實際之前——將比那些透過營運事故才發現這些風險的組織,處於根本上更有利的地位。

相關框架:NIST AI RMF(對照表 1.1、對照表 5.1、衡量指標 1.1)| ISO 42001 第 6.1、8.4、9 條 | 柏克萊代理式人工智慧規範:簡介、對照表 1.1、衡量指標 1.1、管理 1.3

聯絡我們

先前
先前

繪製您的 AI 風險地圖:NIST AI RMF 的要求及其重要性

下一頁
下一頁

自主式人工智慧中的隱私與安全風險:為何攻擊面比你想像的更廣