人工智慧代理時代的人為監督:以問責為導向的設計
監督的錯覺
許多組織認為,他們已對人工智慧系統實施了人工監督。他們設有儀表板,備有異常報告,並建立了問題升級處理流程。然而,他們往往缺乏的是能與現代自主式人工智慧系統的運作規模和速度相匹配的有效監督。這種表面上的監督與實際運作之間的落差,正是當今高階主管面臨的最重大治理挑戰之一。
加州大學柏克萊分校的「代理式人工智慧風險管理標準規範」對此點直言不諱。該規範將人機互動與失控列為代理式系統獨有的八大主要風險類別中的兩項。這兩者本質上都涉及當人類監督變得流於形式而非實質時會發生什麼情況——即當代理行為的數量、速度或複雜性超出人類審查員對其進行有意義判斷的實際能力時。
監管缺口
了解監管缺口形成的原因,是彌補此缺口的首要步驟。主要有三項原因。
首先是規模。一個執行工作流程的人工智慧代理——包括與供應商溝通、審閱合約、處理客戶投訴升級、分析財務數據等——能在人類審核人員無法企及的時間內,執行數千項後續行動。若將監督機制設計為在所有行動執行前進行審查,這將要麼成為阻礙代理發揮生產力優勢的瓶頸,要麼淪為流於形式、徒有其表的橡皮圖章式流程。
第二點是專業知識。隨著代理系統被應用於日益專業化的領域——例如法律、金融、臨床及技術領域——其採取的行動可能需要具備該領域的專業知識,而負責監督的人員未必擁有這方面的知識。無論是審查 AI 生成的法律分析的合規團隊,還是審查 AI 執行的技術決策的營運團隊,都可能缺乏識別代理系統所犯下、卻被其自信認定為正確的錯誤所需的專業知識。
第三點是擬人化。伯克利大學的這份論文將此視為一項具體風險:那些能以自然語言溝通、使用第一人稱代詞並展現一致性格特質的人工智慧代理,可能會引發使用者的信任與過度依賴,進而削弱批判性審視。人們往往會過度信任看似具有人性化的系統,並對那些看似充滿自信的輸出結果缺乏足夠的審視。
設計有效的監督機制
NIST 人工智慧風險管理框架(AI RMF)涵蓋了多個子類別中的人為監督要求,其中「治理 2.1」規定人工智慧風險管理的角色、職責及溝通管道必須有據可查且清晰明確;而「圖表 3.5」則要求必須定義、評估並記錄人為監督流程。柏克萊大學的這篇論文針對自主系統提供了具體指引,進一步闡述了這些要求。
核心設計原則在於,監督應與風險成正比,而非一刀切。人工智慧代理所採取的每項行動,並不都需要相同程度的人工審查。一個設計完善的監督框架,應能區分以下三類行動:可自動監控的行動、在滿足特定條件時應觸發人工審查的行動,以及執行前需經人工授權的行動。
這份來自柏克萊的研究論文,參考了 Kim 等人的研究成果,提出了一種三層級監督模型。第一層級涵蓋例行性的代理程式行為,這些行為可由自動化系統監控,並僅在偵測到異常時標記出來,以供進行例外審查。 第二層級涵蓋異常、高風險或超出預設參數的行動——此類情況將自動升級至具備相關專業知識的人工審查員。第三層級則涵蓋最關鍵的問題,可能需要升級至高級監督委員會或同等治理機構。
此架構使監督機制能隨著代理活動的規模而擴展,既不會成為瓶頸,也不會流於形式。各層級的關鍵設計問題在於定義升級觸發條件——即導致某項行動或行動模式被提升至下一級審查的具體條件。隨著系統運作情境的演變,應將這些觸發條件記錄在案,並定期進行測試與檢討。
職責與責任
ISO 42001 標準在第 5 條(領導力)及相關運作條款中規定,人工智慧治理的職責與責任必須明確分配且被充分理解。 對於代理型人工智慧,這不僅僅是指定一名人工智慧治理負責人。還需明確界定:誰負責設定每個已部署代理的權限範圍;誰負責持續監控代理的行為;誰擁有權限和能力來干預或關閉行為異常的代理;以及誰需對代理自主做出的決策負責。
伯克利大學的論文明確指出,具有自主行為能力的人工智慧應被視為在人類監督下的工具,而非職場中的同儕或下屬。這種措辭至關重要。當組織開始將人工智慧代理稱為「人工智慧工作者」或「人工智慧員工」時,便在無形中削弱了有效治理所必需的問責機制。責任不在代理本身,而在於組織。
高階管理團隊的實務步驟
對於希望強化人類監督框架的高階管理團隊而言,以下優先事項值得立即關注。首先,對目前所有正在運作的代理型人工智慧系統進行審計,記錄賦予各系統的權限、現有的監督機制以及現行的升級處理程序。其次,評估現行監督機制是實質性的還是名義上的——審查人員是否具備時間、專業知識和能力來行使真正的判斷,抑或監督已實際上成為一種為自主行動賦予正當性的程序。 第三,針對不同類別的人工智慧行動,制定明確的最低人類控制要求政策,自主程度越高,則需對應更嚴格的監督設計。第四,確保關機與干預程序已通過測試,且負責執行這些程序的人員已接受培訓並隨時待命。
人類的監督並非限制自主型人工智慧價值的因素,而是能讓該價值得以安全實現的條件。
相關框架:NIST AI RMF(治理 2.1、映射 3.5、管理 1.1)| ISO 42001 第 5、7、8 條 | 柏克萊代理式 AI 配置檔:治理 2.1、映射 3.5、管理 1.3(失控)