繪製您的 AI 風險地圖:NIST AI RMF 的要求及其重要性
風險圖繪製並非僅是為了符合規範
在人工智慧部署過程中,最常見的治理失誤之一,就是將風險評估視為一種走過場的例行公事——僅是為了滿足政策要求而產生的文件,被歸檔後,只有在出問題時才會被重新檢視。對於具有自主行為能力的人工智慧系統而言,這種做法不僅是不足的,更是極具危險性的。
NIST 人工智慧風險管理框架中的「映射」功能,旨在確保組織在部署前(而非部署後)便能理解其人工智慧系統的運作情境、這些系統所產生的風險,以及對個人、社群及組織本身可能造成的影響。 加州大學柏克萊分校的「代理型人工智慧風險管理標準規範」,是以 NIST AI RMF 為基礎所建立,針對如何具體執行代理型系統的「映射」功能,提供了詳盡的補充指引。這份指引揭示了當前多數組織在該領域存在著多大的疏漏。
理解背景:圖 1.1
圖 1.1 是柏克萊框架中優先級較高的子類別之一。該框架要求必須理解並記錄人工智慧系統的預期用途、潛在有益用途、適用法律與規範,以及預期的部署環境——包括具體的使用者群體、潛在的正面與負面影響、對系統用途的假設,以及用於評估系統表現的指標。
針對具代理能力的 AI,柏克萊大學的論文指出,應依據《框架 1.1》評估八類不同的風險:歧視與毒性;隱私與安全;錯誤資訊;惡意行為者與濫用;人機互動;失控;社會經濟與環境危害;以及 AI 系統的安全性、故障與限制。每類風險均包含具代理能力系統特有的具體子類別,而這些子類別在針對傳統 AI 設計的風險評估中並不會被涵蓋。
僅就「失控」這一類別而言——其中包含自我擴散、自我修改、自我外洩、代理體失調、欺騙行為與陰謀、獎勵駭客、串通,以及長期規劃與目標追求——便構成了一幅風險圖景,而當前多數企業風險框架尚不具備評估此類風險的能力。 高階主管應自問:我們現有的 AI 風險評估流程是否涵蓋了上述任何一項?若答案是否定的,這對我們的治理態勢意味著什麼?
大規模累積風險
伯克利框架中關於地圖的指導原則之一,便是必須評估大規模行動所產生的累積影響。該文件明確指出:某些單獨來看風險較低的個別行動,若由自主代理大規模反覆執行,便可能構成重大風險。
這是一種與多數組織所採用的方法截然不同的風險評估方法。傳統的風險評估著重於評估單一事件或決策的風險;而針對具有自主行為能力的人工智慧(Agentic AI)的風險評估,則必須評估一連串決策所帶來的風險——包括許多單一影響較小的行動所產生的累積效應,這些行動加總起來將構成重大影響。
一位在 0.1% 的交易中出現輕微定價錯誤的經紀人,若單獨檢視每筆交易,其風險看似微不足道。但在大規模運作——處理數百萬筆交易時——這種錯誤率所產生的後果既非輕微,亦非微不足道。設定風險容忍度時,必須將此累積效應納入考量。
定義風險承受能力:圖 1.5
地圖 1.5——伯克利框架中的另一個高優先級子類別——要求確定並記錄組織的風險容忍度。對於主動式系統,該框架建議在不可接受的閾值之下建立多層級的風險級別,以便當系統接近不可接受的風險水平時,能提供充足的應對時間。
伯克利大學的這份論文指出了自主型人工智慧特有的風險容忍考量:未經授權的存取與權限提升、未能遵循指令與控制、大規模低風險行為的累積風險、能力的快速湧現,以及共享底層模型或數據的系統所面臨的相關故障風險。應針對上述每個面向設定風險容忍度,而不僅僅是針對整體系統性能。
ISO 42001 第 6.1 條規定,組織應識別人工智慧風險,並依據文件化的準則決定應對措施——接受、處理、轉移或避免。根據圖 1.5 建立的風險容忍度框架,提供了作為這些決策依據的準則。若缺乏明確的風險容忍度,風險處理決策便會變得臨時性且缺乏一致性。
影響特徵分析:圖 5.1
圖 5.1 要求評估已識別影響(包括有益與有害影響)發生的可能性及嚴重程度,評估範圍涵蓋個別使用者、社區、組織及社會。對於具有自主行為能力的人工智慧,此項評估必須考量該智能體的特定屬性——其自主程度、權限、因果影響能力及環境作用範圍——因為這些屬性直接決定了潛在危害的嚴重程度。
伯克利大學的論文建議採用「多維度治理」方法進行此項評估:與其僅將人工智慧系統簡單地歸類為高風險或低風險,不如從多個維度進行評估,包括自主性(從無自主性到完全自主)、權限(代理所能執行的行動範圍及其與其他系統的整合程度)、因果影響(從僅限觀察到全面環境控制)以及環境複雜性(從模擬環境到實體環境)。 系統在各維度上的定位,將形塑其風險特徵及所需的治理管控措施。
這種多維度的方法比二元風險分類更具挑戰性。它不僅更為精準,更能制定出相應且適度的治理措施,而非泛泛而談的對策。
讓風險圖在實務上發揮作用
為了讓「地圖」功能發揮其作用,風險地圖的產出結果必須直接與後續的治理控制措施、評估框架及監測流程相連結。一份雖能識別優先風險,卻未與「衡量」或「管理」活動相連結的風險地圖,僅是一份文件,而非治理工具。
ISO 42001 提供了確保此連結的管理系統架構。該標準要求風險評估須作為制定風險處理計畫的依據,風險處理計畫須透過營運管控措施加以落實,且相關管控措施須接受監控與檢討。若能妥善實施,這將在風險識別與風險管理之間建立一個閉環機制——這正是自主型人工智慧治理所必需的。
相關框架:NIST AI RMF(對應 1.1、1.5、2、3、5.1)| ISO 42001 第 6.1 條、第 8.4 條 | 柏克萊代理式人工智慧(Berkeley Agentic AI)規範:對應功能(所有章節)