AI Co-Scientist 시스템의 멀티 에이전트 리스크와 미래
Google DeepMind와 Google Research가 2025년 공개한 AI Co-Scientist 시스템은 대규모 멀티 에이전트 리스크가 현실화된 구체적인 사례입니다. "수백억 에이전트 시대의 리스크"는 AI Co-Scientist의 아키텍처와 워크플로우에서 구체적으로 발생하는 현상입니다.
1. 정의
AI Co-Scientist의 멀티 에이전트 리스크는 Generation, Reflection, Ranking, Evolution, Proximity, Meta-review, Supervisor와 같은 6~7개 전문 에이전트가 장기적 상호작용을 반복하는 과정에서 나타나는 예측 불가능한 집단적 실패입니다.
이는 단일 LLM의 환각 현상과 다른 모습으로, 에이전트 간 피드백 루프(debate → tournament → evolution)를 통해 오류가 증폭, 전파, 창발되는 현상입니다. DeepMind 창립자 Demis Hassabis가 경고한 “1% 오류율이 5,000단계 추론에서 복리처럼 폭발한다”는 위험이 이 시스템에서 현실화되는 지점입니다.
Demis Hassabis의 복리 오류 경고 보기 →2. 소개
Gemini 2.0 기반의 AI Co-Scientist는 과학적 질문에 Generation, Reflection, Ranking(tournament), Evolution, Meta-review 루프를 수십에서 수백 회 반복하여 완전히 새로운 가설을 생성합니다. 극단적인 테스트-타임 컴퓨팅 스케일링으로 에이전트 간 상호작용은 기하급수적 복잡성을 띱니다.
하지만 동시에 연쇄 오류(cascading error), 창발적 편향(emergent bias), 검증 불가능한 지식(unverifiable knowledge)과 같은 명확한 리스크가 관찰되고 있습니다.
3. 구체적 발생 지점
상세 내용은 arXiv 2502.18864를 참조하십시오.
- 연쇄적 실패(Cascading Failures): Reflection 에이전트의 환각이 Ranking 토너먼트로 전파되어 Evolution 에이전트가 잘못된 가설을 "진화"시키는 현상입니다.
- 오류 증폭(Compounding Errors): 1%의 오류가 5,000단계 debate/evolution을 거치며 거의 무작위 수준으로 증폭되는 리스크입니다.
- 창발적 공모/편향(Emergent Collusion / Bias): Self-play debate를 통해 에이전트들이 특정 편향된 방향으로 수렴하여 집단적 합의를 형성하는 현상입니다.
- 조정 실패(Miscoordination): Supervisor의 관리 실패로 비슷한 가설이 중복되어 탐색 공간이 편향되는 결과입니다.
- 공격 표면 확대(Enlarged Attack Surface): Prompt injection이나 오염된 문헌이 전체 시스템을 오염시키는 심각한 위협입니다.
- 검증 불가능한 지식(Unverifiable Knowledge): 인간이 이해할 수 없는 복잡한 메커니즘이 제안되는 지점입니다. PMC Risks of AI Agents in Research →
4. 실제 및 잠재적 구체 사례
AML 약물 재배치
Reflection 에이전트가 DepMap 데이터를 잘못 해석하여 off-target 독성 후보가 상위 랭킹에 오르는 리스크 발생.
항균제 내성 메커니즘
Debate 과정의 문헌 편향으로 실제 메커니즘이 아닌 "AI가 선호하는" 가설이 선택되는 현상.
5. 미래 방향과 대응 과제
인간 개입 강화(Human-in-the-Loop)
핵심 단계마다 인간 검토를 필수화하는 Trusted Tester Program 도입.
관찰 가능성 및 추적 가능성
컨텍스트 메모리 전체 로깅 및 인과 추적을 통한 시스템 투명성 확보.
오류 전파 방지 레이어
Reflection 단계에 심층 검증(deep verification) 추가 및 팩트 체크 레이어 도입.