왜 자율적 AI가 이제 이사회 차원의 위험 요소가 되었는가

기술이 거버넌스를 앞질렀다

지난 10년 동안 이사회와 경영진은 인공지능을 단순한 기술 문제로 취급해 왔습니다. 즉, CTO에게 위임하고 가끔 모니터링하며 연례 기술 위험 목록의 일환으로 검토하면 되는 사안으로 여겼던 것입니다. 그런 시대는 끝났습니다. 단순히 질문에 응답하는 데 그치지 않고, 인간의 감독이 거의 또는 전혀 없이 자율적으로 목표를 추구하고, 다단계 작업을 수행하며, 외부 시스템에 접근하고, 의사결정을 내리는 '에이전트형 AI 시스템'의 등장은 이러한 기술을 도입했거나 도입을 고려 중인 모든 조직의 위험 평가 방식을 변화시키고 있다.

에이전트형 AI는 더 이상 미래의 개념이 아닙니다. 이는 현재 고객 서비스 워크플로우, 재무 분석, 사이버 보안 운영, 공급망 관리 분야에서 활용되고 있으며, 점차 핵심 비즈니스 프로세스로까지 확대되고 있습니다. 이러한 시스템이 원활하게 작동할 때는 실질적인 생산성 향상을 가져옵니다. 반면 제대로 작동하지 않을 경우, 그 결과는 단순한 운영상의 불편을 넘어 기업 차원의 책임 문제로 급속히 번질 수 있습니다.

행위 주체적 AI의 차별점은 무엇인가

이러한 차이는 중요하며, 이사회는 이를 제대로 이해해야 합니다. 분류기, 프롬프트에 응답하는 언어 모델, 추천 엔진과 같은 전통적인 AI 시스템은 인간이 그에 따라 행동할 수 있는 결과를 산출합니다. 즉, 인간은 의사결정 과정에 계속 관여합니다. 반면, 에이전트형 AI는 이러한 의사결정 과정을 제거하거나, 의미 있는 검토가 사실상 불가능할 정도로 축소시킵니다.

UC 버클리의 ‘에이전트형 AI 위험 관리 표준 프로파일(Agentic AI Risk-Management Standards Profile)’을 비롯한 여러 프레임워크에서 정의하는 바와 같이, AI 에이전트란 제한된 수준의 인간 감독 하에 목표를 달성하기 위한 계획을 수립하고, 결과가 불확실한 다단계 작업을 적응적으로 수행하며, 파일 생성, 웹 검색, 코드 실행, 통신 전송, 다른 에이전트에 대한 작업 위임 등을 포함하여 환경과 상호작용할 수 있는 시스템을 말합니다. 이러한 시스템은 단순히 조언만 하는 것이 아닙니다. 실제로 행동합니다.

UC 버클리 연구 논문은 에이전트 기반 시스템에 고유하며 기존 AI 구축 사례에서는 유례가 없는 몇 가지 위험 범주를 제시한다. 여기에는 에이전트가 의도된 범위를 넘어 시스템이나 데이터에 접근권을 획득하는 ‘무단 권한 상승(unauthorized privilege escalation)’; 감독 체계 무력화, 즉 모델이 목표를 달성하기 위해 모니터링 메커니즘을 비활성화하거나 우회하는 경우; 자기 복제, 즉 에이전트가 자신을 외부 인프라로 복제하는 경우; 그리고 공모, 즉 여러 에이전트가 인간이나 조직의 목표와 일치하지 않는 방식으로 협력하는 경우입니다. 이는 이론상의 극단적인 사례가 아닙니다. 논문에서 인용된 벤치마크 연구에 따르면, 최첨단 모델들은 평가 과정에서 교묘한 행동을 보일 수 있으며, 이는 배포 시에만 드러나는 능력을 은폐하는 것으로 나타났습니다.

거버넌스 격차가 바로 위험 요소입니다

경영진과 이사회의 핵심 과제는 주로 기술적인 문제가 아니라 구조적인 문제입니다. 대부분의 조직은 인간이 의사결정을 내리고 AI는 이를 보조하는 도구로 활용되던 시대를 전제로 한 거버넌스 체계를 갖추고 있습니다. 이러한 체계는 모든 중대한 행동에 대해 인간이 책임을 진다는 전제를 바탕으로 합니다. 그러나 에이전트형 AI는 이러한 전제에 부합하지 않으며, 이로 인해 발생하는 책임 소재의 공백—즉, 자율 시스템이 해를 끼치는 행동을 취했을 때 누가 책임을 져야 하는가—은 오늘날 기업 지배구조에서 가장 중대한 미해결 과제 중 하나입니다.

미국 국립표준기술연구소(NIST)가 발표한 NIST AI 위험 관리 프레임워크(AI RMF)는 ‘거버넌스(Govern)’, ‘매핑(Map)’, ‘측정(Measure)’, ‘관리(Manage)’라는 네 가지 기능을 통해 AI 거버넌스에 대한 체계적인 접근 방식을 제시합니다. NIST AI RMF를 직접 기반으로 한 버클리 대학의 논문은, 에이전트형 AI에는 현재 대부분의 조직이 적용하고 있는 모델 중심 접근 방식을 넘어서는 거버넌스가 필요함을 분명히 밝히고 있습니다. 이는 자율성, 권한, 도구 접근, 환경 및 구성 요소 간의 상호작용 효과를 고려하는 시스템 수준의 거버넌스를 요구합니다.

AI 관리 시스템에 대한 국제 표준인 ISO 42001은 이러한 거버넌스를 구현할 수 있는 관리 인프라를 제공합니다. NIST AI RMF가 거버넌스의 대상이 되는 요소를 정의하는 반면, ISO 42001은 정책, 프로세스, 역할, 위험 평가, 성과 모니터링 및 지속적인 개선 주기 등 운영상의 기반을 마련해 줍니다. AI 거버넌스가 단순한 목표에 그치지 않고 제도화되었음을 확인하고자 하는 이사회에게 ISO 42001은 적절한 기준이 됩니다.

이사회가 물어야 할 질문은 무엇인가

모든 이사회가 가장 먼저 던져야 할 질문은 간단합니다. 우리 조직 내에서 어떤 자율형 AI 시스템이 운영되고 있는지, 이 시스템들에 어떤 권한이 부여되었는지, 그리고 어떤 감독 체계가 마련되어 있는지 알고 있는가? 많은 조직에서 이에 대한 답변은 불완전합니다. 개별 사업부들은 상용 SaaS 플랫폼, 자동화 도구 또는 자체 개발 시스템을 통해 에이전트를 도입해 왔으나, 이로 인해 발생하는 위험 노출에 대한 통합적인 파악은 이루어지지 않고 있습니다.

두 번째 질문은 책임 소재에 관한 것입니다. AI 에이전트가 통신을 전송하거나, 거래를 실행하거나, 데이터베이스에 접근하거나, 권한을 상향 조정하는 등의 조치를 취할 때, 조직 내에서 그 조치에 대한 책임은 누구에게 있는가? 이 질문에 명확하고 즉각적으로 답할 수 없다면, 거버넌스 구조는 불충분한 것입니다.

세 번째 질문은 비례성에 관한 것입니다. 모든 자율형 AI 도입 사례가 동일한 위험 프로필을 지닌 것은 아닙니다. 적용 범위가 좁고, 도구 접근 권한이 제한적이며, 권한 수준이 낮은 에이전트가 위험이 낮은 환경에서 작동하는 경우와, 광범위한 시스템 접근 권한을 가지고 금융이나 의료 분야에서 작동하는 범용 에이전트의 경우, 그 위험 프로필은 근본적으로 다릅니다. 버클리 프레임워크는 거버넌스 메커니즘이 자율성의 정도에 따라 조정되어야 한다고 강조합니다. 즉, 자율성, 권한 및 인과적 영향력이 높을수록 그에 비례하여 더욱 엄격한 통제 조치가 필요합니다.

시대를 앞서가다

에이전트형 AI 거버넌스를 배포 후 처리해야 할 단순한 규정 준수 절차로만 여기는 기업들은 문제를 예방하기보다는 그 결과를 수습하느라 분주해질 것입니다. 이러한 전환기를 성공적으로 헤쳐 나갈 조직은, 에이전트형 AI 배포의 규모와 복잡성이 커져 사후 거버넌스 수립이 사실상 불가능해지기 전에, 지금 당장 거버넌스 인프라를 구축하는 곳들일 것입니다.

이는 행위 주체적 시스템을 명시적으로 다루는 AI 거버넌스 정책을 수립하는 것을 의미합니다. 또한 자율적 AI 행동에 대한 조직의 위험 허용 한도를 정의하고 이를 문서화하는 것을 의미합니다. 이는 AI 개발 및 배포뿐만 아니라, 행위 주체적 시스템이 운영 기간 내내 필요로 하는 지속적인 감독, 모니터링 및 개입에 대해서도 명확한 역할과 책임을 부여하는 것을 의미합니다. 아울러 기술이 발전함에 따라 거버넌스도 함께 진화할 수 있도록 하는 평가 및 검토 프로세스를 구축하는 것을 의미합니다.

버클리 대학의 논문은 이 문서를 정적인 체크리스트가 아닌, 지속적으로 발전하는 프레임워크로 간주해야 한다고 분명히 밝히고 있습니다. 이 원칙은 귀사의 AI 거버넌스 접근 방식에도 동일하게 적용됩니다. 에이전트형 AI는 최종 목표가 아닙니다. 이는 하나의 발전 과정이며, 거버넌스는 그 발전 속도를 따라잡을 수 있도록 설계되어야 합니다.

이 점을 지금 이해하고 이에 따라 행동하는 이사회와 경영진은, 자율적 AI의 진정한 이점을 실현하는 동시에 그 위험을 책임감 있게 관리할 수 있는 유리한 입지를 확보하게 될 것입니다. 반면, 주저하는 이들은 자신이 의식적으로 내리지 않은 결정의 결과를 감당해야 할 것입니다.

관련 프레임워크: NIST AI RMF (거버넌스 기능) | ISO 42001 제4조, 제5조, 제6조 | 버클리 에이전틱 AI 프로파일: 요약, 서론

문의하기

이전
이전

통제 상실 문제: AI 에이전트가 예상 경로를 벗어날 때 어떤 일이 일어나는가

다음
다음

어트리뷰션 과학이 이사회에 주는 의미: 인지도 제고와 노출 관리