자율적 AI의 개인정보 보호 및 보안 위험: 공격 표면이 생각보다 더 넓은 이유

공격 표면이 근본적으로 확대됨

AI 시스템이 단순한 질의 응답에서 벗어나 자율적으로 시스템에 접근하고, 작업을 수행하며, 외부 환경과 상호작용하게 되면, 그 보안 및 개인정보 보호 위험 요인은 근본적으로 달라집니다. 공격 표면이 확대되고, 데이터 유출 가능성이 높아지며, 보안 침해 시 초래되는 결과는 훨씬 더 심각해집니다.

UC 버클리의 ‘에이전트형 AI 위험 관리 표준 프로파일’은 에이전트형 시스템에 있어 별개의 고우선순위 위험 범주로 개인정보 보호 및 보안 위험에 상당한 비중을 두고 있습니다. 기업 위험 관리를 책임지는 경영진과 이사회에게 있어 이러한 위험과 이에 필요한 거버넌스 대응 방안을 이해하는 것은 선택 사항이 아닙니다.

메모리, 장기 상태 및 데이터 유출

보다 정교한 에이전트형 AI 시스템의 대표적인 특징 중 하나는 ‘기억’ 기능의 도입이다. 이는 상호작용 전반에 걸쳐 정보를 저장하고 참조하며, 시간이 지남에 따라 사용자, 프로세스 및 환경에 대한 맥락을 구축하는 능력을 의미한다. 이러한 기능은 에이전트의 유용성을 크게 높여주지만, 동시에 개인정보 보호 위험도 상당히 증가시킨다.

버클리 대학의 연구 논문은 에이전트 시스템이 설계 당시 예상하지 못했던 상황에서 민감한 데이터를 저장하고 처리하기 때문에, 이를 특정 위험 요인으로 지목하고 있습니다. 한 상황에서 에이전트와 공유된 정보는 지속되어 다른 상황에서 다시 나타날 수 있습니다. 사용자가 의도하지 않았던 민감한 데이터가 저장되었다가, 프롬프트 주입 공격이나 기타 악용 기법을 통해 노출될 수 있습니다.

이 논문은 또한, 에이전트 기반 시스템에 있어 필수적인 거버넌스 통제 수단인 포괄적인 로깅조차도 민감한 사용자 행동을 기록할 경우 지속적인 감시의 한 형태로 작용할 수 있으며, 이로 인해 조직이 명시적으로 관리해야 할 데이터 남용의 위험이 발생할 수 있다고 지적한다.

즉각적인 개입과 혼란에 빠진 부관

프롬프트 주입은 AI 에이전트에 특화된 가장 중대한 보안 위험 중 하나이자, 비기술계 리더들이 가장 잘 이해하지 못하는 문제 중 하나입니다. 이는 에이전트가 처리하는 콘텐츠(이메일, 문서, 웹 페이지 등)에 악의적인 명령어가 삽입되어, 에이전트가 이를 마치 정상적인 명령인 것처럼 실행하게 되는 현상을 말합니다.

그 파장은 상당합니다. 조직의 이메일 시스템, 일정 관리, 문서 저장소 및 커뮤니케이션 도구에 접근 권한을 가진 공격자는 프롬프트 주입 공격을 통해 민감한 정보를 유출하거나, 문서를 수정하거나, 권한 있는 사용자를 사칭하여 메시지를 전송하거나, 외부 세력에 접근 권한을 부여하도록 지시받을 수 있습니다. 버클리 대학의 논문은 프롬프트 주입 공격이 피해자의 위치 데이터, 이메일 내용 및 일정 정보를 수집하는 데 사용된 것으로 확인된 사례들을 인용하고 있습니다.

이와 관련해 버클리 대학의 논문에서는 ‘혼란스러운 대리인 공격(confused deputy attack)’을 언급하고 있는데, 이는 에이전트가 속아 자신의 정당한 권한을 오용하게 되는 상황을 말한다. 에이전트는 대개 여러 시스템에 접근할 수 있는 권한을 가지고 있으며, 해당 시스템들로부터 권한을 부여받은 사용자를 대신해 행동할 수 있는 신뢰를 받고 있기 때문에, 해킹당한 에이전트는 정당한 행동을 하는 것처럼 보이지만 실제로는 심각한 피해를 입힐 수 있다.

다중 에이전트 전파 위험

다중 에이전트 환경에서는 보안 위험이 단일 에이전트 위험 프레임워크로는 포착할 수 없는 방식으로 확산됩니다. 버클리 대학의 논문은 이를 컴퓨터 웜에 비유합니다. 즉, 네트워크 내 한 에이전트에 주입된 악성 코드가 에이전트들이 통신하고 정보를 공유하는 과정에서 다른 에이전트로 전파되며, 확산되는 동안 진화하고 적응해 나간다는 것입니다. 이 논문은 이를 상호 연결된 에이전트 시스템을 통해 확산되면서 탐지를 회피할 수 있는 다형성 바이러스와 유사하다고 설명합니다.

이는 조직이 다중 에이전트 아키텍처에서 보안 위험을 평가하는 방식에 직접적인 영향을 미칩니다. 다중 에이전트 시스템의 보안은 각 에이전트를 개별적으로 평가하는 것만으로는 판단할 수 없습니다. 시스템은 상호 연결된 하나의 전체로서 평가되어야 하며, 이때 에이전트 간의 통신 프로토콜, 각 에이전트가 다른 에이전트로부터 수신한 명령에 대해 가지는 신뢰 가정, 그리고 비정상적인 전파를 탐지하고 차단하기 위한 메커니즘에 특히 주의를 기울여야 합니다.

최소 권한 원칙

에이전트형 AI 시스템에 있어 가장 강력한 보안 통제 수단은 정보 보안 분야에서는 이미 확립되어 있지만, AI 구축 환경에서는 일관성 없이 적용되고 있는 ‘최소 권한 원칙’입니다. 에이전트에게는 의도된 기능을 수행하는 데 필요한 데이터, 시스템 및 도구에 대한 최소한의 접근 권한만 부여되어야 하며, 그 이상은 허용되어서는 안 됩니다.

이 원칙은 NIST AI RMF의 ‘Map’ 기능(Map 3.5)과 버클리 대학 논문의 위험 완화 지침(Manage 1.3)에서 명시적으로 채택되어 있습니다. 이를 구현하려면 조직은 배포된 각 에이전트에 대해, 해당 에이전트가 사용하도록 승인된 데이터 접근 범위, 시스템 권한 및 도구 접근 권한을 명확히 정의해야 하며, 이러한 정의는 단순히 정책에 명시하는 데 그치지 않고 기술적으로 강제 적용되어야 합니다.

ISO 42001은 최소 권한 원칙을 운영에 적용할 수 있는 거버넌스 프레임워크를 제공합니다. 제8조(운영 계획 및 통제)는 식별된 위험에 대해 운영 통제 조치를 이행할 것을 요구합니다. 에이전트형 AI 보안의 경우, 이는 권한 관리 시스템, 접근 로그 기록, 그리고 에이전트 권한이 현재의 운영 요구 사항에 비례하도록 유지되는지 확인하기 위한 정기적인 검토를 의미합니다.

주체적 시스템을 위한 설계 단계에서의 개인정보 보호

버클리 대학의 논문은 에이전트 기반 시스템을 위한 구체적인 통제 수단으로 개인정보 보호형 로깅 관행을 권장하고 있다. 구체적으로, 안전, 보안 및 책임 추적을 위해 필요한 정보만 로깅하고, 전송 중 및 저장 시 로깅된 데이터를 암호화하며, 필요성과 규제 요건에 따라 최대 보존 기간을 설정하고, 개인 식별 정보를 필터링하여 데이터를 익명화해야 한다고 제안한다.

GDPR, PDPA 또는 이에 상응하는 데이터 보호 체제 하에서 운영되는 조직의 경우, 이러한 관행은 선택 사항이 아닙니다. 이는 다른 데이터 처리 시스템에 적용되는 것과 마찬가지로 AI 에이전트에도 적용되는 의무 사항입니다. 문제는 에이전트형 AI 시스템이 기존 데이터 처리 시스템에 적용되는 것과 같은 수준의 엄격한 데이터 보호 영향 평가를 거치지 않은 채 배포되는 경우가 많다는 점입니다. 이러한 격차를 해소하는 것은 규정 준수 및 리스크 관리 부서의 시급한 과제입니다.

주체적 AI의 보안 및 개인정보 보호 거버넌스에 선제적으로 접근하여, 최소 권한 원칙, 프롬프트 삽입 방어 체계, 다중 에이전트 보안 모니터링 및 개인정보 보호를 위한 데이터 관리 관행을 배포 프레임워크에 구축하는 조직들은, 이러한 위험에 사후 대응하는 조직들보다 훨씬 유리한 입지를 확보하게 될 것입니다.

관련 프레임워크: NIST AI RMF (맵 1.1, 맵 3.5) | ISO 42001 제6.1조, 제8.4조, 제8조 | 버클리 에이전틱 AI 프로파일: 맵 1.1(개인정보 보호 및 보안), 관리 1.3, 측정 2.7

문의하기

이전
이전

다중 에이전트 시스템: 전체가 부분의 합보다 더 위험한 이유

다음
다음

AI 에이전트 시대의 인간 감독: 책임성 확보를 위한 설계