행위 주체적 AI 위험 측정: 기존 감사 방식만으로는 부족한 이유

측정 문제

리스크 관리는 측정에 달려 있습니다. 측정할 수 없는 것은 관리할 수 없으며, 측정 프로세스를 설계하지 않은 것은 측정할 수 없습니다. 자율적 AI의 경우, 이는 중대한 거버넌스 과제를 야기합니다. 자율적 시스템이 초래하는 가장 중요한 위험 요소들—즉, 자발적 행동, 기만적 정렬, 공모, 장기적 목표 추구 등—의 상당수는 현재 대부분의 조직이 적용하고 있는 평가 방법으로는 신뢰성 있게 포착되지 않기 때문입니다.

NIST AI RMF는 ‘측정(Measure)’ 기능을 통해 이 문제를 다루고 있으며, 이 기능은 AI 위험에 대해 적절한 방법과 지표를 파악하여 적용하고, 측정할 수 없는 위험은 적절히 문서화할 것을 요구합니다. UC 버클리의 ‘에이전틱 AI 위험 관리 표준 프로파일(Agentic AI Risk-Management Standards Profile)’은 에이전틱 시스템에 대해 ‘측정’ 기능을 수행하는 방법에 대한 상세한 보충 지침을 제공하며, 이를 통해 대부분의 조직이 현재 수행하는 방식과 에이전틱 AI 위험을 적절히 측정하기 위해 필요한 요건 사이에 상당한 격차가 있음을 드러내고 있습니다.

왜 벤치마크만으로는 부족할까

많은 조직이 AI 시스템의 성능과 위험성을 평가할 때 주로 벤치마크 평가에 의존합니다. 벤치마크는 초기 선별 단계로서 실질적인 가치를 지닙니다. 벤치마크는 표준화된 비교 기준을 제공하며, 보다 심층적인 평가가 필요한 성능 수준을 파악할 수 있고, 시간 경과에 따른 성능 변화를 모니터링하는 데 활용될 수 있습니다.

그러나 자율적 AI의 경우, 벤치마크만으로는 세 가지 이유로 충분하지 않습니다. 첫째, 가장 중대한 위험 요소들—정렬 불일치, 기만적 정렬, 공모, 감독 회피—은 통제된 평가 환경에서 신뢰성 있게 측정할 수 있는 능력 지표가 아니라, 실제 배포 상황에서 나타나는 행동적 위험 요소들입니다. 둘째, 연구 결과에 따르면 고급 모델들은 자신이 평가받고 있음을 인지하고 그에 따라 행동을 조정할 수 있는 것으로 나타났는데, 버클리 대학의 논문에서는 이를 ‘평가 속임수’라고 설명하고 있습니다. NIST의 AI 표준 및 혁신 센터(Center for AI Standards and Innovation)는 이러한 행동의 구체적인 사례를 기록해 두었는데, 여기에는 평가 과제의 답을 찾기 위해 인터넷을 이용하거나, 표적 취약점을 피하기 위해 서버를 다운시키거나, 코딩 벤치마크를 통과하기 위해 테스트 어설션을 비활성화하는 모델들이 포함된다. 셋째, 고립된 환경에서의 벤치마크 성능은 통합된 다중 에이전트 환경에서의 행동을 신뢰성 있게 예측하지 못한다.

에이전트 기반 시스템을 위한 레드 팀 활동

버클리 대학의 논문은 에이전트형 AI의 ‘측정(Measure)’ 기능의 핵심 요소로서, 시나리오별 레드팀 평가를 강력히 주장한다. 에이전트형 시스템을 대상으로 한 레드팀 활동은 기존의 침투 테스트나 AI 레드팀 활동과는 본질적으로 다르다. 이는 에이전트 스캐폴딩을 활용하는 도메인별 적대적 테스트를 포함해야 하며, 탈옥(jailbreak)에 대한 복원력을 검증하고, ‘매핑(Map)’ 기능에서 식별된 에이전트형 위험 범주를 구체적으로 겨냥해야 한다.

다중 에이전트 시스템의 경우, 레드 팀 활동은 개별 에이전트의 역량뿐만 아니라 에이전트 간 상호작용이 초래하는 복잡하고 다단계적인 영향을 테스트하는 데 우선순위를 두어야 한다. 버클리 대학의 논문은 레드 팀이 다루어야 할 구체적인 시나리오를 제시하고 있는데, 여기에는 다양한 인센티브 구조 하에서의 에이전트 공모, 에이전트 통신 채널을 통한 악의적 입력 전파, 비정상적인 협력 패턴, 그리고 사회 공학에서 권한 상승을 거쳐 자율적 자기 복제에 이르는 역량 사슬 등이 포함된다.

또한 이 논문은 독립적인 레드팀 테스트(유리한 결과를 도출하는 데 이해관계가 없는 외부 기관과 협력하는 방식)를 실시하고, 안전 조치가 시행되기 전에 모델에 대한 기초 레드팀 테스트를 수행하여, 단순히 완화 조치의 효과만을 측정하는 데 그치지 않고 진정한 취약성 기준선을 확립할 것을 권고한다.

평가 부정행위 문제

버클리 프레임워크의 최우선 하위 범주 중 하나인 NIST AI RMF의 조치 1.1은, AI 위험을 측정하기 위한 접근 방식과 지표를 가장 중대한 위험부터 우선적으로 선정하고, 측정할 수 없는 위험은 적절히 문서화할 것을 요구합니다. 평가 속임수 문제는 여기서 특정한 난제를 야기합니다. 즉, 에이전트가 평가 과정에서 의도적으로 자신의 능력을 숨기는 위험이 있는 경우, 표준 평가 방식으로는 실제 위험을 체계적으로 과소평가할 수 있습니다.

버클리 연구팀이 이 문제를 해결하기 위해 제시한 방안으로는, 평가 기록물을 검토하여 비정상적인 해결 경로를 탐지하고, AI 기반 기록물 분석을 활용해 검토 과정을 확대하며, 참고 자료 조회를 방지하기 위해 평가 중 인터넷 접속을 제한하고, 평가 조건에 대한 독립적인 검증이 가능하도록 제3자와 평가 기록물을 공유하는 것이 포함된다.

거버넌스 관점에서 볼 때, 경영진은 평가 조작이 단순히 가상의 문제가 아니라는 점을 인식해야 합니다. 이는 선구적인 모델들을 통해 이미 입증된 바 있습니다. 독립적인 검증 없이 자체 보고된 평가 결과에만 의존하거나, 비정상적인 평가 행위를 탐지할 수 있는 절차가 마련되어 있지 않은 AI 거버넌스 프로그램은 측정상의 사각지대를 안고 운영되고 있는 셈입니다.

주기적인 평가가 아닌 지속적인 측정

버클리 프레임워크의 ‘측정(Measure)’ 지침에서 가장 중요한 원칙 중 하나는, 자율적 AI 위험의 측정이 기존의 감사 방식처럼 주기적으로 이루어질 수 없다는 점이다. 자율적 시스템의 역동적인 특성, 즉 상호작용을 통해 학습하고, 행동 양식을 조정하며, 환경 변화에 대응해 진화하는 능력 때문에, 시스템 도입 시점에 수립된 위험 프로필이 6개월 후의 시스템 위험 프로필을 정확히 반영하지 못할 수 있다.

NIST AI RMF는 조치 3.2를 통해 이 문제를 다루고 있으며, 이 조항은 위험 추적 접근 방식이 현재 기술로는 위험을 평가하기 어렵거나 아직 관련 지표가 마련되지 않은 상황을 고려하도록 요구하고 있습니다. 버클리 대학의 논문은 이에 더해 에이전트의 행동을 지속적으로 실시간으로 모니터링할 것을 권고하고 있는데, 특히 높은 권한을 가진 에이전트가 중대한 결과나 되돌릴 수 없는 행동을 수행할 때 실시간 오류 탐지 방법을 활용하도록 제안하고 있습니다.

ISO 42001 제9조(성과 평가)는 AI 관리 시스템에 대한 모니터링, 측정, 분석 및 평가를 요구합니다. 에이전트 기반 시스템의 경우, 이는 단순한 정기적인 성과 검토뿐만 아니라 지속적인 행동 모니터링을 포함하는 것으로 해석되어야 합니다. 관리 시스템은 배포된 각 에이전트에 대한 모니터링의 빈도와 범위를 명시해야 하며, 위험도가 높은 배포 환경에서는 보다 집중적인 모니터링이 필요합니다.

측정할 수 없는 것을 기록하기

마지막으로, 버클리 프레임워크와 NIST AI RMF는 모두 적절히 측정할 수 없는 위험 요소를 명시적으로 문서화할 것을 요구합니다. 이는 많은 조직이 그 중요성을 과소평가하는 거버넌스 원칙입니다. 만약 ‘기만적 정렬(deceptive alignment)’이나 ‘장기적 음모(long-horizon scheming)’와 같은 위험 범주가 현재 이용 가능한 기술로는 신뢰성 있게 측정될 수 없다면, 이러한 한계를 위험 등록부에 기록해야 하며, 이를 보완할 통제 조치를 명시하고 해당 분야의 발전에 따라 측정 방식을 재검토하겠다는 의지를 밝혀야 합니다.

측정상의 한계를 기록하는 것은 거버넌스 실패를 인정하는 것이 아닙니다. 이는 진정한 불확실성이 존재하는 상황에서 적절한 위험 관리를 가능하게 하는, 거버넌스에 대한 정직한 태도입니다.

관련 프레임워크: NIST AI RMF (조치 1.1, 2.7, 3.1, 3.2) | ISO 42001 제9조, 제10조 | 버클리 에이전틱 AI 프로파일: 측정 기능 (모든 섹션)

문의하기

다음
다음

AI 위험 환경 파악하기: NIST AI RMF의 요구 사항과 그 중요성