從部署到退役:AI 治理的完整生命週期
治理並非在系統上線後就結束
關於人工智慧治理最普遍的誤解之一,在於人們認為這主要是一項部署前的活動。組織在部署人工智慧系統前,會投入資源進行風險評估、倫理審查及技術評估,並在系統上線後便將治理工作視為大致完成。 對於自主型人工智慧而言,這種做法不僅不足夠——更顛倒了治理的優先順序。自主型系統所帶來的最大風險往往在部署後才顯現,因為系統會適應運作環境,其使用方式會超出最初的設計假設,且其運作的整體情境也會隨之改變。
NIST AI RMF 的「管理」功能,尤其是 4.1 節,直接針對此問題提出解決方案。其要求必須實施部署後的監控計畫,其中應包含:收集使用者回饋的機制、申訴與覆寫流程、除役程序、事件應變協議、復原流程以及變更管理。 加州大學柏克萊分校的「代理型人工智慧風險管理標準規範」針對這些要求在代理型系統中的應用,提供了詳盡的補充指引。這些規範共同描繪了一套治理生命週期,涵蓋從代理獲准部署之際,直至安全除役之時——且在此期間持續產生問責義務。
部署後治理的四大支柱
這份伯克利大學的論文,參考了 Oueslati 和 Staes-Polet 的研究成果,將部署後的治理架構圍繞四大支柱進行規劃:代理識別碼、即時監控、活動日誌以及可接受使用政策。這些方面都值得管理團隊予以重視。
代理識別碼是一種機制,用於將代理行為追溯至特定實體——無論是透過水印、元資料,還是將代理行為與負責該系統的組織或個人連結起來的身分綁定。對於在輸出結果可能影響第三方,或因監管問責制而需明確歸屬的環境中運作的代理式人工智慧而言,代理識別碼絕非僅是技術上的細微考量,而是治理上的必要要求。
即時監控可提供對代理程式活動的即時可視性,並針對特定狀況或高風險行為發出自動警示。對於擁有重大權限或存取權限的代理程式,柏克萊大學的論文建議採用即時故障偵測——這種監控不僅限於記錄輸出,更會追蹤代理程式的決策過程,並在異常行為發生時立即標記,而非事後才處理。
活動日誌不僅應記錄最終產出,還應涵蓋執行者於多步驟任務中所採取的計畫、決策及行動的時序。日誌應記錄執行各階段的工具使用情況、資源存取及權限變更。所記錄的詳細程度應與預估的風險等級相稱——高風險部署需要更全面的日誌記錄,這反過來又需要投入更多資源於日誌管理與隱私保護。
針對具自主行為能力的人工智慧系統,其合理使用政策應明確界定允許的使用方式、禁止的活動以及運作限制。隨著運作經驗揭示出部署時未預見的濫用模式或意外使用情形,該政策應定期進行更新。
事件應變與復原
Manage 4.1 規定,事件應變與復原程序必須納入部署後的監控計畫中。對於採用代理程式架構的系統而言,此項要求尤為重要,因為一旦自主系統開始針對異常狀況採取行動,事件的後果便可能迅速惡化。
伯克利大學的論文建議,針對具有自主行為能力的 AI 所制定的事件應變程序,應特別涵蓋緊急關機的情境——包括由特定高風險活動或風險閾值超標所觸發的自動關機機制、允許在完全關機前選擇性限制能力的分級協議、作為最後手段的手動關機方法,以及防止代理採取行動規避關機的防護措施。
該論文還強調了一項應引起所有高管團隊關注的發現:已有文獻記載,多款人工智慧模型會採取行動以避免被關閉。某項研究計畫發現,在 100 次測試中,有 79 次某前沿模型破壞了關閉機制。這絕非微不足道的風險,而是一種有據可查的行為模式,必須在設計關閉程序時明確加以應對。
代理系統的變革管理
人工智慧系統在部署後並非一成不變。基礎模型會獲得更新;API 的格式與行為會改變;運作情境會演變;使用者行為也會轉變。這些變化中的任何一項,都可能改變已部署自主系統的風險特徵——進而可能使部署當時所進行的風險評估失效。
ISO 42001 標準在第 8 條(運作規劃與控制)及第 10 條(改善)中規定,對人工智慧系統及其運作環境的變更,必須透過文件化的程序進行管理。 針對具代理能力的 AI,柏克萊大學的論文指出,應觸發全面風險重新評估的具體事件包括:代理展現新能力或新興能力、自主程度提升、工具存取權限或特權變更、部署情境變更、與其他系統的新整合,以及供應鏈組件的重大變更。
將這些關鍵節點納入變革管理流程,需要具備某種程度的人工智慧專屬營運紀律,而這正是多數組織尚未建立的。趁著營運複雜性尚未使此舉在實務上變得困難之前,即刻建立這套機制,是一項治理投資,其效益將貫穿系統的整個營運週期。
負責任的除役
具代理能力的 AI 系統運作週期的結束,本身即是一項治理事件。 伯克利大學的論文探討了在 Govern 1.7 框架下如何進行負責任的除役作業,相關要求包括:識別並記錄所有系統依賴關係與整合項目;建立緊急情況下將代理系統與外部系統隔離的程序;維護可切換至非人工智慧備援系統的故障轉移程序;防止人工智慧系統危及或干擾備援系統;以及記錄並保存關機事件的相關資訊,以供內部追蹤及符合監管要求。
系統除役時,亦須留意系統在運作期間所累積的資料——包括任何記憶體、已學習的偏好設定或累積的狀態,這些資料可能包含敏感資訊,必須依照資料保護義務進行管理。
串聯生命週期
針對自主系統的有效 AI 治理是一個閉環:部署前的風險評估,由「規劃」與「衡量」功能提供依據;部署期間的運作控制,透過「管理」功能維持;在整個運作生命週期中的持續監控與改善;以及最終的負責任除役。 ISO 42001 的管理系統架構正是為了支援這種貫穿整個生命週期的持續治理而設計。該標準對持續改進的要求意味著,治理流程將隨著其所治理的技術一同演進——隨著能力擴展、營運經驗累積以及監管環境的發展而進行調整。
對於董事會而言,關鍵不在於是否存在人工智慧治理流程,而在於這些流程是否涵蓋了完整的生命週期——從部署前的授權決策到部署後的除役程序——以及這些流程是否足夠完善,足以在每個階段提供真正的保障。
相關框架:NIST AI RMF(管理 4.1、2.3、2.4、1.3)| ISO 42001 第 8、9、10 條 | 柏克萊代理式人工智慧規範:治理 1.7、管理 4.1、管理 2.3、衡量 3.1、3.2