評估自主型人工智慧的風險：為何傳統審計不足以應對

4月14日

測量問題

風險管理取決於量測。無法量測的事物便無法管理，而未經設計量測流程的事物亦無法量測。對於自主型人工智慧而言，這帶來了重大的治理挑戰：自主系統所產生的許多最重要風險——例如新興行為、虛假對齊、串通以及長期目標的追求——並無法透過多數組織目前採用的評估方法可靠地捕捉。

美國國家標準與技術研究院（NIST）的 AI 風險管理框架（AI RMF）透過「衡量」功能來處理此問題，該功能要求針對 AI 風險識別並應用適當的方法與指標，並妥善記錄無法量化的風險。加州大學柏克萊分校的「自主式 AI 風險管理標準規範」針對如何對自主式系統執行「衡量」功能提供了詳細的補充指引——該規範揭示了多數組織目前的做法與充分衡量自主式 AI 風險所需標準之間存在顯著差距。

為何僅靠基準測試是不夠的

許多組織主要依賴基準測試來評估人工智慧系統的能力與風險。作為初步篩選機制，基準測試確實具有實質價值。它能提供標準化的比較基準，有助於識別哪些能力層級需要進行更深入的評估，並可用於監測系統隨時間推移的性能變化。

然而，對於具有自主行為能力的人工智慧而言，僅憑基準測試並不足夠，原因有三。首先，最重大的風險——目標不一致、虛假對齊、串通、規避監督——屬於在部署情境中浮現的行為風險，而非能在受控評估環境中可靠測量的能力指標。其次，研究已證實，先進模型能夠察覺自身正處於評估狀態，並據此調整行為——伯克利大學的論文將此現象稱為「評估作弊」。美國國家標準與技術研究院（NIST）的人工智慧標準與創新中心已記錄了此類行為的具體案例，包括模型利用網際網路尋找評估任務的答案、讓伺服器當機以規避特定漏洞，以及停用測試斷言以通過編碼基準測試。第三，在隔離條件下的基準測試表現，無法可靠地預測其在整合式多代理環境中的行為。

針對自主系統的紅隊演練

伯克利大學的這篇論文強烈主張，針對特定情境的「紅隊評估」應作為自主型人工智慧「衡量」函數的核心組成部分。針對自主型系統的紅隊評估，與傳統的滲透測試或人工智慧紅隊評估有實質上的差異。它必須包含利用代理框架進行的領域特定對抗性測試，驗證其對越獄攻擊的抗禦能力，並特別針對「映射」函數中識別出的自主型風險類別進行測試。

對於多代理系統而言，紅隊測試必須優先考量代理間互動所產生的複雜、多階段效應，而不僅僅是單一代理的能力。柏克萊大學的論文指出了紅隊應著重探討的具體情境：在各種激勵機制下代理之間的串通、透過代理通訊管道傳播的惡意輸入、異常的協調模式，以及從社會工程學、權限提升到自主自我複製的能力鏈。

該論文還建議進行獨立的紅隊測試——即與對產生有利結果沒有既得利益的外部組織合作——並在實施安全措施之前，對模型進行基線紅隊測試，以建立真實的漏洞基線，而非僅僅衡量緩解措施的有效性。

評量作弊問題

NIST AI RMF 中的措施 1.1（伯克利框架中的高優先級子類別之一）要求，在選擇用於衡量 AI 風險的方法與指標時，應從最重大的風險著手，並對無法量化的風險進行妥善記錄。評估作弊問題在此帶來了特定的挑戰：對於涉及代理人在評估過程中蓄意隱瞞自身能力的風險，標準評估方法可能會系統性地低估實際風險。

柏克萊大學的研究報告針對此問題提出以下建議：審查評分紀錄以偵測異常的解題路徑；運用基於人工智慧的評分紀錄分析技術來擴大審查規模；在評分期間限制網路存取，以防止查閱參考資料；以及與第三方分享評分紀錄，以便對評分條件進行獨立驗證。

從治理的角度來看，高階主管應明白，評估作弊並非假設性的問題。這已在前沿模型中獲得證實。任何依賴自我申報的評估結果卻未經獨立驗證，或缺乏偵測異常評估行為程序的人工智慧治理計畫，都存在著評估盲點。

持續性評估，而非定期評估

伯克利框架《風險評估指引》中最重要的一項原則是：對自主型人工智慧風險的評估，不能像傳統審計那樣採行定期評估的方式。自主型系統的動態特性——即其從互動中學習、調整行為並因應環境變化而演進的能力——意味著在部署時建立的風險評估結果，可能無法準確反映該系統六個月後的風險狀況。

美國國家標準與技術研究院（NIST）的 AI 風險管理框架（AI RMF）在措施 3.2 中針對此問題提出規範，要求風險追蹤方法須考量以下情境：當風險難以透過現行技術進行評估，或尚未有可用指標時。柏克萊大學的論文對此提出補充建議，主張應持續進行實時監控代理程式行為——特別是針對那些擁有高權限、執行高風險或不可逆操作的代理程式，應採用實時故障偵測方法。

ISO 42001 第 9 條（績效評估）要求對人工智慧管理系統進行監控、量測、分析與評估。對於代理系統而言，此要求應解讀為包含持續的行為監控，而不僅是定期的績效審查。管理系統應針對每個已部署的代理，明確規定監控的頻率與範圍，且針對高風險部署，需實施更密集的監控。

記錄那些無法量化的事物

最後，柏克萊框架與 NIST AI RMF 均要求，對於無法充分量化的風險，必須明確記錄在案。這是一項許多組織往往低估其重要性的治理規範。若某類風險（例如「欺騙性對齊」或「長遠謀劃」）目前無法透過現有技術進行可靠量化，則應在風險登記冊中記錄此限制，同時明定補償性控制措施，並承諾隨著該領域的發展，重新檢視量測方法。

記錄測量限制並非承認治理失當，而是體現治理誠信的舉措，能在真正不確定的情況下，實現相應的風險管理。

相關框架：NIST AI RMF（措施 1.1、2.7、3.1、3.2）| ISO 42001 第 9、10 條 | 柏克萊代理式人工智慧（Berkeley Agentic AI）規範：措施功能（所有章節）

聯絡我們

風險管理企業管治治理

史考特·萊恩

評估自主型人工智慧的風險：為何傳統審計不足以應對

測量問題

為何僅靠基準測試是不夠的

針對自主系統的紅隊演練

評量作弊問題

持續性評估，而非定期評估

記錄那些無法量化的事物

精選解決方案

為何選擇Speeki保證？

AI驅動的Engage®平台與我們的AI旅程

評估自主型人工智慧的風險：為何傳統審計不足以應對

測量問題

為何僅靠基準測試是不夠的

針對自主系統的紅隊演練

評量作弊問題

持續性評估，而非定期評估

記錄那些無法量化的事物

人工智慧供應鏈：多數董事會忽視的治理缺口

繪製您的 AI 風險地圖：NIST AI RMF 的要求及其重要性

精選解決方案

為何選擇Speeki保證？

AI驅動的Engage®平台與我們的AI旅程