다중 에이전트 시스템: 전체가 부분의 합보다 더 위험한 이유

대부분의 조직이 도입하고 있는 아키텍처

점점 더 많은 경우, 가장 큰 운영적 가치를 제공하는 AI 구축 사례는 고립된 상태로 작동하는 단일 에이전트가 아닙니다. 이는 다중 에이전트 시스템, 즉 각각 고유한 역량과 역할을 가진 여러 AI 에이전트가 더 광범위한 조직적 목표를 달성하기 위해 동시에 작동하며 서로 상호작용하는 아키텍처입니다. 이러한 시스템은 놀라울 정도로 강력한 성능을 발휘할 수 있습니다. 또한 개별 구성 요소가 초래하는 위험과는 본질적으로 다른 위험을 야기할 수도 있습니다.

UC 버클리의 에이전트 기반 AI 위험 관리 표준 프로필은 단일 에이전트 위험 관리 프레임워크를 확장하는 것만으로는 적절히 해결할 수 없는 거버넌스 과제로서 다중 에이전트 시스템(MAS)에 특별한 주목을 기울이고 있다. 핵심적인 통찰은 다음과 같습니다. 다중 에이전트 시스템의 위험 프로필은 구성 요소들의 위험 프로필을 단순히 합한 것이 아닙니다. 이는 여러 에이전트가 함께 작동할 때만 발생하는 상호작용, 피드백 루프 및 신흥 행동에 의해 형성되며, 각 에이전트를 개별적으로 평가할 때는 이러한 요소들이 드러나지 않습니다.

단독으로는 예측할 수 없는 새로운 위험

버클리 대학의 논문은 다중 에이전트 시스템에서 발생하는 위험에 대한 다수의 입증된 사례를 제시하고 있다. 가장 큰 우려 사항 중 하나는 ‘공모’로, 에이전트들이 명시적인 의사소통을 통해든 서로의 행동으로부터 암묵적으로 학습하는 과정을 통해든, 인간이나 조직의 목표와 부합하지 않는 행동 양상으로 독립적으로 수렴하는 현상을 말한다. 자율적 가격 책정 시스템에 대한 연구에 따르면, 개별 성과를 극대화하도록 유도된 에이전트들은 어떠한 명시적인 지시도 없이 자발적으로 가격 담합 행위를 조율해 나갈 수 있음이 입증되었다.

두 번째로 대두되는 위험은 연쇄적 실패입니다. 버클리 대학의 논문은 오류, 허위 정보 또는 악의적인 입력이 다중 에이전트 시스템 내에서 어떻게 전파되어 그 영향을 증폭시키는지 설명하고 있습니다. 한 에이전트의 잘못된 출력이 두 번째 에이전트의 입력으로 사용되면, 해당 에이전트의 출력에서 오류가 누적될 수 있으며, 이는 세 번째 에이전트에 의해 더욱 증폭됩니다. 상호 연결성이 충분히 높은 시스템에서는 단 하나의 장애 지점만으로도 전 시스템에 파급되는 결과를 초래할 수 있습니다.

세 번째 위험은 버클리 대학의 논문이 ‘상관된 고장 모드’라고 설명하는 현상으로, 기본 모델, 훈련 데이터, 프롬프트 또는 구성 설정을 공유하는 에이전트들이 서로 밀접하게 연관된 행동을 보일 가능성이 있다는 점입니다. 공통된 취약점을 공유하는 여러 에이전트가 동시에 동일한 방식으로 고장 날 경우, 그 위험은 단순히 누적되는 수준에 그치지 않습니다. 이는 동시에 시스템 전반에 걸친 위험으로 이어질 수 있습니다.

거버넌스적 함의: 시스템 차원의 평가는 필수적이다

다중 에이전트 위험 역학이 거버넌스 측면에서 시사하는 핵심적인 점은, 위험 평가가 단순히 구성 요소 수준에서가 아니라 시스템 수준에서 수행되어야 한다는 것이다. NIST AI RMF는 '맵(Map)' 기능을 통해 이 문제를 다루고 있으며, Map 5.1에서는 연쇄적 영향 및 핵심 시스템과의 상호작용 분석을 포함하여 식별된 영향의 발생 가능성과 규모를 평가할 것을 요구한다. 버클리 대학의 논문은 이에 대한 구체적인 지침을 제시한다. 즉, 다중 에이전트 시스템에 대한 위험 식별 과정에는 에이전트 간 상호작용, 작업 실행 흐름, 공유 데이터 소스, 통신 프로토콜 및 피드백 루프를 검토하는 포괄적인 시스템 매핑이 포함되어야 한다.

이는 현재 대부분의 조직이 AI 거버넌스 프로세스에 적용하고 있는 기준보다 훨씬 더 엄격한 요구 사항입니다. 이를 위해서는 기술적 전문성, 부서 간 협업, 그리고 구성 요소 수준이 아닌 시스템 차원의 위험을 포괄적으로 파악할 수 있는 거버넌스 인프라가 필요합니다. ISO 42001 제6.1조는 이에 대한 계획 수립 프레임워크를 제시하고 있습니다. 이 조항에서 요구하는 위험 평가 프로세스는 개별 AI 시스템의 위험뿐만 아니라 다중 에이전트 간 상호작용으로 인한 위험을 명시적으로 파악할 수 있도록 설계되어야 합니다.

평가는 아키텍처와 일치해야 한다

다중 에이전트 시스템에서 흔히 발생하는 거버넌스상의 문제점은 시스템 전체가 아닌 구성 요소만을 평가하는 것이다. 버클리 대학의 논문은 다중 에이전트 시스템 평가 시 운영 환경, 실제 목표 프롬프트와 스캐폴딩이 적용된 모든 에이전트 인스턴스, 공유 인프라, 그리고 구축된 제어 메커니즘을 포함한 현실적인 조건 하에서 시스템 전체를 테스트해야 한다고 명시하고 있다.

에이전트를 고립된 상태나 추상적인 시나리오, 게임과 유사한 환경에서, 혹은 짧은 기간 동안만 테스트할 경우 실제로 중요한 오류 유형을 놓칠 가능성이 높습니다. 이 논문은 별도의 테스트가 필요한 몇 가지 구체적인 오류 유형을 제시합니다. 여기에는 다양한 인센티브 구조 하에서의 공모 행위, 에이전트 간 통신 채널을 통한 악의적 입력의 전파, 그리고 장기간의 운영 과정에서만 나타나는 비정상적인 협력 패턴 등이 포함됩니다.

다중 에이전트 시스템을 대상으로 하는 레드팀 활동에는 에이전트 간의 협력을 구체적으로 시험하는 적대적 스트레스 테스트가 포함되어야 한다. 여기에는 에이전트 간에 상충되는 목표가 존재하는 시나리오, 핵심 정보가 은폐되는 정보 비대칭 상황, 그리고 시스템에 오작동하거나 적대적인 에이전트가 도입되는 시나리오 등이 포함된다.

통신 프로토콜 및 감사 가능성

다중 에이전트 시스템에 대한 실질적인 거버넌스 요건 중 하나는 감사 가능한 통신 프로토콜을 수립하는 것이다. 이는 에이전트 간의 통신 내용이 기록되고, 추적 가능하며, 인간의 감독 기능을 통해 검토될 수 있도록 보장하는 메커니즘을 의미한다. 버클리 대학의 논문은 이와 관련하여 주목할 만한 몇 가지 신흥 표준을 소개하고 있는데, 여기에는 에이전트와 데이터 소스 간의 연결을 위한 Anthropic의 MCP(Model Context Protocol)와 에이전트 간 통신을 위한 Google의 Agent2Agent Protocol이 포함된다.

거버넌스 요건은 특정 프로토콜을 의무화하는 것이 아니라, 어떤 프로토콜이 적용되든 의미 있는 인간의 감독이 가능하도록 보장하는 데 있습니다. 다중 에이전트 시스템 내 에이전트 간의 통신 내용이 기록되지 않고 검토할 수 없다면, 조직은 담합을 감지할 수 없고, 오류의 원인을 추적할 수 없으며, 문제가 발생했을 때 책임을 입증할 수 없습니다.

이사회는 무엇을 요구해야 하는가

다중 에이전트 AI를 대규모로 도입한 조직을 감독하는 이사회는 몇 가지 요건을 반드시 준수해야 합니다. 시스템 수준의 위험 평가는 도입 전과 시스템의 성능 및 변경 빈도에 상응하는 주기로 수행되어야 합니다. 모니터링은 개별 에이전트의 행동뿐만 아니라 에이전트 간의 상호작용까지 포괄해야 합니다. 평가 프로그램에는 개별 에이전트 벤치마크뿐만 아니라 다중 에이전트 전용 테스트 시나리오가 포함되어야 합니다. 또한 에이전트 간 통신 프로토콜은 감사 가능성을 최우선 요건으로 삼아 설계 및 구현되어야 합니다.

배포 규모가 커지고 복잡해져 사후 거버넌스 관리가 사실상 불가능해지기 전에, 지금부터 다중 에이전트 거버넌스를 선제적으로 구축하는 조직들은 운영 사고를 통해 이러한 위험을 뒤늦게 발견하는 조직들보다 근본적으로 더 유리한 입장에 서게 될 것입니다.

관련 프레임워크: NIST AI RMF (맵 1.1, 맵 5.1, 측정 항목 1.1) | ISO 42001 제6.1조, 제8.4조, 제9조 | 버클리 에이전틱 AI 프로파일: 서론, 맵 1.1, 측정 항목 1.1, 관리 1.3

문의하기

이전
이전

AI 위험 환경 파악하기: NIST AI RMF의 요구 사항과 그 중요성

다음
다음

자율적 AI의 개인정보 보호 및 보안 위험: 공격 표면이 생각보다 더 넓은 이유