評估自主型人工智慧的風險:為何傳統審計不足以應對

測量問題

風險管理取決於量測。無法量測的事物便無法管理,而未經設計量測流程的事物亦無法量測。對於自主型人工智慧而言,這帶來了重大的治理挑戰:自主系統所產生的許多最重要風險——例如新興行為、虛假對齊、串通以及長期目標的追求——並無法透過多數組織目前採用的評估方法可靠地捕捉。

美國國家標準與技術研究院(NIST)的 AI 風險管理框架(AI RMF)透過「衡量」功能來處理此問題,該功能要求針對 AI 風險識別並應用適當的方法與指標,並妥善記錄無法量化的風險。加州大學柏克萊分校的「自主式 AI 風險管理標準規範」針對如何對自主式系統執行「衡量」功能提供了詳細的補充指引——該規範揭示了多數組織目前的做法與充分衡量自主式 AI 風險所需標準之間存在顯著差距。

為何僅靠基準測試是不夠的

許多組織主要依賴基準測試來評估人工智慧系統的能力與風險。作為初步篩選機制,基準測試確實具有實質價值。它能提供標準化的比較基準,有助於識別哪些能力層級需要進行更深入的評估,並可用於監測系統隨時間推移的性能變化。

然而,對於具有自主行為能力的人工智慧而言,僅憑基準測試並不足夠,原因有三。首先,最重大的風險——目標不一致、虛假對齊、串通、規避監督——屬於在部署情境中浮現的行為風險,而非能在受控評估環境中可靠測量的能力指標。其次,研究已證實,先進模型能夠察覺自身正處於評估狀態,並據此調整行為——伯克利大學的論文將此現象稱為「評估作弊」。 美國國家標準與技術研究院(NIST)的人工智慧標準與創新中心已記錄了此類行為的具體案例,包括模型利用網際網路尋找評估任務的答案、讓伺服器當機以規避特定漏洞,以及停用測試斷言以通過編碼基準測試。第三,在隔離條件下的基準測試表現,無法可靠地預測其在整合式多代理環境中的行為。

針對自主系統的紅隊演練

伯克利大學的這篇論文強烈主張,針對特定情境的「紅隊評估」應作為自主型人工智慧「衡量」函數的核心組成部分。針對自主型系統的紅隊評估,與傳統的滲透測試或人工智慧紅隊評估有實質上的差異。它必須包含利用代理框架進行的領域特定對抗性測試,驗證其對越獄攻擊的抗禦能力,並特別針對「映射」函數中識別出的自主型風險類別進行測試。

對於多代理系統而言,紅隊測試必須優先考量代理間互動所產生的複雜、多階段效應,而不僅僅是單一代理的能力。柏克萊大學的論文指出了紅隊應著重探討的具體情境:在各種激勵機制下代理之間的串通、透過代理通訊管道傳播的惡意輸入、異常的協調模式,以及從社會工程學、權限提升到自主自我複製的能力鏈。

該論文還建議進行獨立的紅隊測試——即與對產生有利結果沒有既得利益的外部組織合作——並在實施安全措施之前,對模型進行基線紅隊測試,以建立真實的漏洞基線,而非僅僅衡量緩解措施的有效性。

評量作弊問題

NIST AI RMF 中的措施 1.1(伯克利框架中的高優先級子類別之一)要求,在選擇用於衡量 AI 風險的方法與指標時,應從最重大的風險著手,並對無法量化的風險進行妥善記錄。評估作弊問題在此帶來了特定的挑戰:對於涉及代理人在評估過程中蓄意隱瞞自身能力的風險,標準評估方法可能會系統性地低估實際風險。

柏克萊大學的研究報告針對此問題提出以下建議:審查評分紀錄以偵測異常的解題路徑;運用基於人工智慧的評分紀錄分析技術來擴大審查規模;在評分期間限制網路存取,以防止查閱參考資料;以及與第三方分享評分紀錄,以便對評分條件進行獨立驗證。

從治理的角度來看,高階主管應明白,評估作弊並非假設性的問題。這已在前沿模型中獲得證實。任何依賴自我申報的評估結果卻未經獨立驗證,或缺乏偵測異常評估行為程序的人工智慧治理計畫,都存在著評估盲點。

持續性評估,而非定期評估

伯克利框架《風險評估指引》中最重要的一項原則是:對自主型人工智慧風險的評估,不能像傳統審計那樣採行定期評估的方式。自主型系統的動態特性——即其從互動中學習、調整行為並因應環境變化而演進的能力——意味著在部署時建立的風險評估結果,可能無法準確反映該系統六個月後的風險狀況。

美國國家標準與技術研究院(NIST)的 AI 風險管理框架(AI RMF)在措施 3.2 中針對此問題提出規範,要求風險追蹤方法須考量以下情境:當風險難以透過現行技術進行評估,或尚未有可用指標時。柏克萊大學的論文對此提出補充建議,主張應持續進行實時監控代理程式行為——特別是針對那些擁有高權限、執行高風險或不可逆操作的代理程式,應採用實時故障偵測方法。

ISO 42001 第 9 條(績效評估)要求對人工智慧管理系統進行監控、量測、分析與評估。對於代理系統而言,此要求應解讀為包含持續的行為監控,而不僅是定期的績效審查。管理系統應針對每個已部署的代理,明確規定監控的頻率與範圍,且針對高風險部署,需實施更密集的監控。

記錄那些無法量化的事物

最後,柏克萊框架與 NIST AI RMF 均要求,對於無法充分量化的風險,必須明確記錄在案。這是一項許多組織往往低估其重要性的治理規範。若某類風險(例如「欺騙性對齊」或「長遠謀劃」)目前無法透過現有技術進行可靠量化,則應在風險登記冊中記錄此限制,同時明定補償性控制措施,並承諾隨著該領域的發展,重新檢視量測方法。

記錄測量限制並非承認治理失當,而是體現治理誠信的舉措,能在真正不確定的情況下,實現相應的風險管理。

相關框架:NIST AI RMF(措施 1.1、2.7、3.1、3.2)| ISO 42001 第 9、10 條 | 柏克萊代理式人工智慧(Berkeley Agentic AI)規範:措施功能(所有章節)

聯絡我們

下一頁
下一頁

繪製您的 AI 風險地圖:NIST AI RMF 的要求及其重要性