自主式人工智慧中的隱私與安全風險:為何攻擊面比你想像的更廣

攻擊面已大幅擴大

當人工智慧系統從回應查詢,轉變為自主存取系統、執行任務及與外部環境互動時,其安全與隱私風險特徵便會產生根本性的變化。攻擊面隨之擴大,資料外洩的風險也隨之增加,而系統遭入侵所造成的後果更將變得遠為嚴重。

加州大學柏克萊分校的「代理式人工智慧風險管理標準規範」特別重視隱私與安全風險,將其視為代理式系統中一項獨立且優先級極高的風險類別。對於負責企業風險管理的高階主管及董事會而言,理解這些風險——以及其所需的治理應對措施——絕非可有可無之事。

記憶體、長期狀態與資料外洩

更先進的代理型人工智慧系統的一大特徵,在於其具備記憶功能——即能在不同互動間保留並調用資訊,並隨時間推移逐步建立關於使用者、流程及環境的背景脈絡。這項能力不僅大幅提升了代理系統的實用性,同時也顯著增加了隱私風險。

伯克利大學的這份論文指出,記憶是特定的風險因素,因為代理系統會在設計時可能未曾預見的情境下儲存並處理敏感資料。在某個情境下與代理共享的資訊,可能會持續存在並在另一情境下被揭露。使用者無意保留的敏感資料可能會被儲存,並隨後透過提示注入攻擊或其他利用技術而外洩。

該論文還指出,即使是全面的日誌記錄——這本身是代理系統中一項必要的治理管控措施——當其捕捉到敏感的用戶行為時,也可能演變為一種持續監控的形式,從而產生數據濫用的風險,組織必須明確加以管理。

「提示注入」與「困惑的副手」

提示注入是人工智慧代理特有的最重大安全風險之一,也是非技術背景的領導者最不了解的風險之一。當惡意指令被嵌入代理處理的內容(例如電子郵件、文件或網頁)中時,便會發生此類情況,導致代理將這些指令視為合法命令而加以執行。

其影響極為深遠。若某個代理程式能存取組織的電子郵件系統、行事曆、文件儲存庫及通訊工具,便可能透過提示注入攻擊,被指令竊取敏感資訊、篡改文件、冒充授權使用者發送通訊,或授予外部人員存取權限。柏克萊大學的論文中列舉了已知案例,顯示提示注入攻擊曾被用於收集受害者的位置資料、電子郵件內容及行事曆資訊。

與此相關的是伯克利大學論文中所描述的「混淆代理攻擊」——即誘使代理程式濫用其合法權限。由於代理程式通常能存取多個系統,且這些系統信任其代表授權使用者行事,因此一旦代理程式遭到入侵,便可能在看似合法運作的同時造成重大損害。

多代理傳播風險

在多代理環境中,安全風險的傳播方式是單一代理風險框架所無法涵蓋的。柏克萊大學的這篇論文以此類比電腦蠕蟲:當網路中某個代理被植入惡意指令時,該指令會隨著代理間的通訊與資訊共享而擴散至其他代理,並在傳播過程中不斷演變與適應。該論文將此現象比喻為多型病毒,能夠在穿梭於相互連結的代理系統時,成功躲避偵測。

這對組織在多代理架構中評估安全風險的方式具有直接影響。多代理系統的安全性無法僅透過個別評估每個代理來判定。必須將系統視為一個相互連結的整體來進行評估,並特別關注代理之間的通訊協定、各代理對其他代理所發送指令的信任假設,以及用於偵測和遏制異常傳播的既有機制。

最小權限原則

對於具有自主行為能力的人工智慧系統而言,最具影響力的安全控制措施,正是資訊安全領域中早已確立、卻在人工智慧部署中未能貫徹執行的一項原則:最小權限原則。應僅授予代理程式執行其預定功能所需的最低限度存取權限——且不得超過此範圍。

此原則在 NIST AI RMF 的「映射」功能(Map 3.5)以及柏克萊大學論文的風險緩解指引(Manage 1.3)中均獲得明確支持。其實施要求組織針對每個已部署的代理程式,明確界定其獲授權使用的資料存取範圍、系統權限及工具存取權限——且這些定義必須透過技術手段加以執行,而非僅停留在政策聲明層面。

ISO 42001 提供了一套治理框架,使「最小權限原則」得以落實。第 8 條(營運規劃與控制)要求針對已識別的風險實施營運控制措施。就代理型人工智慧的安全而言,這意味著必須建立權限管理系統、實施存取記錄,並定期審查代理的授權,以確保其授權範圍與當前的營運需求保持相稱。

自主系統的「隱私權設計」

伯克利大學的這份論文建議,針對代理系統應採取保護隱私的日誌記錄做法作為具體管控措施:僅記錄確保安全、資安與問責所需的信息;對傳輸中及儲存中的日誌資料進行加密;根據需求及法規要求設定最長保留期限;並透過過濾個人識別資訊來使資料匿名化。

對於受《一般資料保護條例》(GDPR)、《個人資料保護法》(PDPA)或同等資料保護制度規範的組織而言,這些做法並非可有可無——它們是適用於 AI 代理系統的義務,正如其適用於其他資料處理系統一樣。挑戰在於,代理型 AI 系統在部署時,往往未經與傳統資料處理系統同等嚴格的資料保護影響評估。彌補此差距,是合規與風險管理部門當務之急。

那些主動應對自主型人工智慧(AGI)安全與隱私治理的組織——將最小權限原則、提示注入防禦機制、多代理安全監控以及保護隱私的數據處理實務融入其部署框架——將比那些僅被動應對這些風險的組織處於更有利的地位。

相關框架:NIST AI RMF(對應圖 1.1、對應圖 3.5)| ISO 42001 第 6.1、8.4、8 條 | 柏克萊代理式人工智慧(Agentic AI)規範:對應圖 1.1(隱私與安全)、管理 1.3、衡量 2.7

聯絡我們

先前
先前

多智能體系統:為何整體的風險高於各部分之和

下一頁
下一頁

人工智慧代理時代的人為監督:以問責為導向的設計