Research Trends

AI Co-Scientist 시스템의 멀티 에이전트 리스크와 미래

Google DeepMind와 Google Research가 2025년 공개한 AI Co-Scientist 시스템은 대규모 멀티 에이전트 리스크가 현실화된 구체적인 사례입니다. "수백억 에이전트 시대의 리스크"는 AI Co-Scientist의 아키텍처와 워크플로우에서 구체적으로 발생하는 현상입니다.

1. 정의

AI Co-Scientist의 멀티 에이전트 리스크는 Generation, Reflection, Ranking, Evolution, Proximity, Meta-review, Supervisor와 같은 6~7개 전문 에이전트가 장기적 상호작용을 반복하는 과정에서 나타나는 예측 불가능한 집단적 실패입니다.

이는 단일 LLM의 환각 현상과 다른 모습으로, 에이전트 간 피드백 루프(debate → tournament → evolution)를 통해 오류가 증폭, 전파, 창발되는 현상입니다. DeepMind 창립자 Demis Hassabis가 경고한 “1% 오류율이 5,000단계 추론에서 복리처럼 폭발한다”는 위험이 이 시스템에서 현실화되는 지점입니다.

Demis Hassabis의 복리 오류 경고 보기 →

2. 소개

Gemini 2.0 기반의 AI Co-Scientist는 과학적 질문에 Generation, Reflection, Ranking(tournament), Evolution, Meta-review 루프를 수십에서 수백 회 반복하여 완전히 새로운 가설을 생성합니다. 극단적인 테스트-타임 컴퓨팅 스케일링으로 에이전트 간 상호작용은 기하급수적 복잡성을 띱니다.

2025년 성과: AML 약물 재배치, 간 섬유증 신규 타겟, 항균제 내성 메커니즘 분야 wet-lab 검증 성공.

하지만 동시에 연쇄 오류(cascading error), 창발적 편향(emergent bias), 검증 불가능한 지식(unverifiable knowledge)과 같은 명확한 리스크가 관찰되고 있습니다.

3. 구체적 발생 지점

상세 내용은 arXiv 2502.18864를 참조하십시오.

  • 연쇄적 실패(Cascading Failures): Reflection 에이전트의 환각이 Ranking 토너먼트로 전파되어 Evolution 에이전트가 잘못된 가설을 "진화"시키는 현상입니다.
  • 오류 증폭(Compounding Errors): 1%의 오류가 5,000단계 debate/evolution을 거치며 거의 무작위 수준으로 증폭되는 리스크입니다.
  • 창발적 공모/편향(Emergent Collusion / Bias): Self-play debate를 통해 에이전트들이 특정 편향된 방향으로 수렴하여 집단적 합의를 형성하는 현상입니다.
  • 조정 실패(Miscoordination): Supervisor의 관리 실패로 비슷한 가설이 중복되어 탐색 공간이 편향되는 결과입니다.
  • 공격 표면 확대(Enlarged Attack Surface): Prompt injection이나 오염된 문헌이 전체 시스템을 오염시키는 심각한 위협입니다.
  • 검증 불가능한 지식(Unverifiable Knowledge): 인간이 이해할 수 없는 복잡한 메커니즘이 제안되는 지점입니다. PMC Risks of AI Agents in Research →

4. 실제 및 잠재적 구체 사례

AML 약물 재배치

Reflection 에이전트가 DepMap 데이터를 잘못 해석하여 off-target 독성 후보가 상위 랭킹에 오르는 리스크 발생.

간 섬유증 신규 타겟

Evolution 과정에서 "인간이 이해 못 하는" 복잡한 경로 제안으로 검증 불가능한 지식 생성.

관련 논문 보기

항균제 내성 메커니즘

Debate 과정의 문헌 편향으로 실제 메커니즘이 아닌 "AI가 선호하는" 가설이 선택되는 현상.

5. 미래 방향과 대응 과제

1
인간 개입 강화(Human-in-the-Loop)

핵심 단계마다 인간 검토를 필수화하는 Trusted Tester Program 도입.

2
관찰 가능성 및 추적 가능성

컨텍스트 메모리 전체 로깅 및 인과 추적을 통한 시스템 투명성 확보.

3
오류 전파 방지 레이어

Reflection 단계에 심층 검증(deep verification) 추가 및 팩트 체크 레이어 도입.