AI 위험 환경 파악하기: NIST AI RMF의 요구 사항과 그 중요성

위험 지도 작성은 단순한 규정 준수 절차가 아닙니다

AI 도입 과정에서 가장 흔히 발생하는 거버넌스 실패 사례 중 하나는 위험 매핑을 단순히 형식적인 절차로 취급하는 것이다. 즉, 정책 요건을 충족하기 위해 작성된 문서로만 여기고, 문제가 발생했을 때만 꺼내어 다시 살펴보는 식이다. 자율적 AI 시스템의 경우, 이러한 접근 방식은 단순히 부적절할 뿐만 아니라, 오히려 명백한 위험 요소가 된다.

NIST AI 위험 관리 프레임워크(AI RMF)의 ‘맵(Map)’ 기능은 조직이 AI 시스템을 배포하기 전, 즉 사후가 아닌 사전에 해당 시스템이 작동하는 맥락과 시스템이 초래하는 위험, 그리고 개인, 지역사회 및 조직 자체에 미칠 잠재적 영향을 확실히 파악할 수 있도록 마련되었습니다. NIST AI RMF를 기반으로 하는 UC 버클리의 '에이전트형 AI 위험 관리 표준 프로파일(Agentic AI Risk-Management Standards Profile)'은 특히 에이전트형 시스템에 대해 '맵(Map)' 기능을 실행하는 방법에 대한 상세한 보충 지침을 제공합니다. 이 지침은 현재 대부분의 조직이 얼마나 많은 부분을 간과하고 있는지를 여실히 보여줍니다.

문맥 이해: 지도 1.1

지도 1.1은 버클리 프레임워크에서 최우선 순위에 속하는 하위 범주 중 하나입니다. 이 지침은 AI 시스템의 의도된 목적, 잠재적 유용성, 적용 가능한 법률 및 규범, 예상 배포 환경을 이해하고 문서화할 것을 요구합니다. 여기에는 구체적인 사용자 집단, 잠재적인 긍정적 및 부정적 영향, 시스템 목적에 대한 가정, 그리고 성능 평가에 사용될 지표 등이 포함됩니다.

행동 주체적 AI의 경우, 버클리 대학의 논문은 Map 1.1에 따라 평가해야 할 8가지 별개의 위험 범주를 제시하고 있다. 이는 차별 및 유해성, 개인정보 보호 및 보안, 허위 정보, 악의적 행위자 및 오용, 인간-컴퓨터 상호작용, 통제력 상실, 사회경제적 및 환경적 피해, 그리고 AI 시스템의 안전성, 오류 및 한계이다. 이 각 범주에는 행동 주체적 시스템에 특유하며, 기존 AI를 위해 설계된 위험 평가에서는 포착되지 않는 구체적인 하위 위험 범주들이 포함되어 있다.

‘통제 상실’ 범주만 보더라도 – 여기에는 자가 확산, 자가 변형, 자가 정보 유출, 에이전트 간 불일치, 기만적 행동 및 음모, 보상 해킹, 공모, 장기적 계획 수립 및 목표 추구가 포함된다 – 이는 현재 대부분의 기업 리스크 관리 체계가 평가할 역량을 갖추지 못한 위험 지형을 보여준다. 경영진은 다음과 같이 자문해야 합니다. '우리의 현재 AI 위험 평가 프로세스가 이러한 요소들을 제대로 포착하고 있는가?' 만약 대답이 '아니오'라면, 이는 우리의 거버넌스 태세에 어떤 의미를 갖는 것일까요?

대규모 환경에서의 누적 위험

버클리 프레임워크의 ‘맵(Map)’ 지침에서 가장 중요한 원칙 중 하나는 대규모로 수행되는 행동의 누적적 영향을 평가해야 한다는 요구 사항이다. 이 논문은 다음과 같이 명확히 밝히고 있다. 개별적으로 볼 때 위험이 낮아 보이는 행동이라도, 자율적 행위자들이 대규모로 반복적으로 실행할 경우 상당한 위험을 초래할 수 있다.

이는 대부분의 조직이 적용하는 방식과는 본질적으로 다른 위험 평가 접근법입니다. 기존의 위험 평가는 단일 사건이나 결정의 위험성을 평가합니다. 반면, 행위자형 AI 위험 평가는 일련의 결정이 초래하는 위험성을 평가해야 하며, 여기에는 개별적으로는 영향이 미미하지만 종합적으로 큰 파장을 일으키는 수많은 행동의 누적 효과도 포함됩니다.

거래의 0.1%에서 사소한 가격 오류가 발생하는 에이전트는 각 거래를 개별적으로 볼 때 무시할 수 있는 수준의 위험을 초래하는 것처럼 보일 수 있습니다. 그러나 수백만 건의 거래를 처리하는 대규모 환경에서는 이러한 오류율이 결코 사소하거나 무시할 수 없는 결과를 낳습니다. 따라서 위험 허용 한도는 이러한 누적적 측면을 고려하여 설정되어야 합니다.

위험 허용 한도 설정: 지도 1.5

버클리 프레임워크의 또 다른 최우선 하위 범주인 ‘맵 1.5’는 조직의 위험 허용 한도를 결정하고 문서화할 것을 요구합니다. 자율 시스템의 경우, 이 프레임워크는 시스템이 용납할 수 없는 위험 수준에 근접할 때 적절한 대응 시간을 확보할 수 있도록, 허용 불가한 임계치 아래에 여러 단계의 위험 수준을 설정할 것을 권장합니다.

버클리 대학의 논문은 행위적 AI(agent-based AI)에 특유한 구체적인 위험 허용 범위 고려 사항들을 제시하고 있다. 여기에는 무단 접근 및 권한 상승, 지시 사항 및 통제 미준수, 대규모로 이루어지는 저위험 행동의 누적적 위험, 능력의 급속한 출현, 그리고 기본 모델이나 데이터를 공유하는 시스템 간의 상호 연관된 실패 위험 등이 포함된다. 위험 허용 범위는 단순히 전체 시스템 성능에 대해서만 설정되어서는 안 되며, 이러한 각 차원에 대해 개별적으로 설정되어야 한다.

ISO 42001 제6.1조는 조직이 AI 관련 위험을 식별하고, 문서화된 기준에 따라 수용, 처리, 이전 또는 회피 중 어떤 대응 방안을 선택할지 결정할 것을 요구합니다. 지도 1.5에 따라 수립된 위험 허용 범위 프레임워크는 이러한 결정의 근거가 되어야 할 기준을 제시합니다. 명확한 위험 허용 범위가 없다면, 위험 처리 결정은 즉흥적이고 일관성 없는 방식으로 이루어지게 됩니다.

영향 분석: 지도 5.1

지도 5.1은 개별 사용자, 지역사회, 조직 및 사회 전반에 걸쳐 확인된 영향(유익한 영향과 유해한 영향 모두 포함)의 발생 가능성과 규모를 평가할 것을 요구한다. 행위자형 AI의 경우, 이러한 평가에는 행위자의 구체적인 특성, 즉 자율성 수준, 권한, 인과적 영향력 및 환경적 범위가 반드시 반영되어야 한다. 왜냐하면 이러한 특성들이 잠재적 피해의 규모를 직접적으로 결정하기 때문이다.

버클리 대학의 논문은 이러한 평가에 대해 ‘차원별 거버넌스’ 접근법을 제안한다. 즉, AI 시스템을 단순히 고위험 또는 저위험으로 분류하는 대신, 자율성(비자율에서 완전 자율까지), 권한(에이전트가 수행할 수 있는 행동의 범위 및 타 시스템과의 통합 수준), 인과적 영향(단순 관찰에서 포괄적인 환경 제어까지), 환경의 복잡성(시뮬레이션 환경에서 실제 환경까지) 등 여러 차원을 종합적으로 평가해야 한다고 제안한다. 이러한 각 차원에서 시스템이 차지하는 위치는 해당 시스템의 위험 프로필과 필요한 거버넌스 통제 수단을 결정합니다.

이러한 다차원적 접근 방식은 이분법적 위험 분류보다 더 많은 노력을 요합니다. 또한 더 정확하며, 일률적인 대응이 아닌 상황에 맞는 적절한 거버넌스 대응책을 도출해 냅니다.

위험 매핑을 실무에 유용하게 활용하기

Map 기능이 본래의 목적을 달성하려면, 위험 매핑의 결과물이 이후의 거버넌스 통제 수단, 평가 체계 및 모니터링 프로세스와 직접 연계되어야 합니다. 우선순위 위험을 식별하되 ‘측정(Measure)’ 또는 ‘관리(Manage)’ 활동과 연계되지 않은 위험 매핑은 단순한 문서에 불과하며, 거버넌스 도구가 아닙니다.

ISO 42001은 이러한 연계성을 보장하는 관리 시스템 구조를 제시합니다. 이 표준은 위험 평가 결과를 바탕으로 위험 대응 계획을 수립하고, 운영 통제 조치를 통해 이를 실행하며, 해당 통제 조치를 지속적으로 모니터링하고 검토할 것을 요구합니다. 이 과정이 적절히 이행될 경우, 위험 식별과 위험 관리 사이에 선순환 구조가 형성되는데, 이는 바로 자율적 AI 거버넌스가 요구하는 바와 정확히 일치합니다.

관련 프레임워크: NIST AI RMF (맵 1.1, 1.5, 2, 3, 5.1) | ISO 42001 제6.1조, 제8.4조 | 버클리 에이전틱 AI 프로파일: 맵 기능 (모든 섹션)

문의하기

이전
이전

행위 주체적 AI 위험 측정: 기존 감사 방식만으로는 부족한 이유

다음
다음

다중 에이전트 시스템: 전체가 부분의 합보다 더 위험한 이유