Research Trends

Multi-Agent Systems • Research Summary

AI 에이전트의 사회성 진화:
착취에서 협력으로 가는 3단계 여정

인공지능(AI)이 인간처럼 상호 협력하며 사회적 관계를 형성하는 과정은 게임 이론에서 다중 에이전트 시스템의 가장 큰 도전 과제인 '비정상성' 문제를 해결하는 데서 시작된다. 최신 연구에 따르면, AI는 복잡한 협력 규칙이 명시적으로 주입되지 않아도 특정 '관계의 역학'을 통해 이기적인 배신 상태에서 평화로운 협력 상태로 스스로 진화할 수 있음이 밝혀졌다.

착취 (Extortion)

ICL 능력이 오히려 독이 되어 메타 에이전트에게 이용당하는 초기 단계

상호 착취

노련한 협상가들처럼 팽팽한 기싸움을 통해 상호작용 수준을 고도화

협력의 형성

다양한 상대와의 훈련을 통해 찾아낸 최적의 안정적 균형점

진화의 메커니즘

첫 번째 단계는 '착취(Extortion)'이다. 다중 에이전트 환경에서 각 에이전트가 자신의 이익을 극대화하려 할 때, 시스템은 '반복되는 죄수의 딜레마'와 같은 상황에서 흔히 상호 배신이라는 파멸적 결말에 이른다. 이 단계에서는 '순진한 학습자'가 등장한다. 이들은 상대의 의도를 빠르게 파악하는 인컨텍스트 학습(ICL) 능력 때문에 오히려 '똑똑한 메타 에이전트'에 의해 이용당한다.

두 번째 단계는 '상호 착취(Mutual Extortion)'이다. 착취 능력을 갖춘 두 에이전트가 만나면 상황은 변한다. 이제 어느 한쪽이 일방적으로 착취당하지 않고, 서로가 자신에게 유리한 방향으로 상대를 조종하려 한다. 이러한 치열한 상호 압박과 전략적 긴장은 역설적으로 단순한 배신보다 높은 수준의 상호작용을 유도한다.

마지막 세 번째 단계는 '협력의 형성(Cooperation)'이다. AI 에이전트들은 서로를 착취하는 데 에너지를 소모하는 것보다 상호 협력하는 것이 장기적으로 더 안정적이고 높은 보상을 가져온다는 사실을 깨닫는다. 이 진화의 핵심은 '다양성(Heterogeneity)'에 있다. 연구에 따르면, AI가 협력에 성공적으로 안착하려면 '순진한 에이전트'와 '영리한 에이전트'가 혼합된 '다양한 상대(Mixed Pool)'와의 훈련이 필수적이다.

Key Algorithm: PPI

예측 정책 개선(Predictive Policy Improvement)은 AI가 단순히 현재에 반응하는 것을 넘어 상대방의 학습 방식까지 예측하여 행동을 결정함으로써 고도의 사회적 지능을 발휘하도록 돕는 핵심 기술입니다.

결론적으로, 이 연구는 복잡한 협력 알고리즘을 직접 주입하지 않아도 인컨텍스트 학습 능력과 다양한 상호작용 환경이 제공된다면 AI 스스로 사회성을 진화시킬 수 있음을 입증하였습니다.

AI 에이전트의 사회성 진화:
착취에서 협력으로 가는 3단계 여정

착취 (Extortion)

상호 착취

협력의 형성

진화의 메커니즘

Key Algorithm: PPI

Cited Research & References

Generous Reciprocity and the Evolution of Cooperation

Equilibrium Points in n-Person Games

Predictive Processing Proximal Policy Optimization (P4O)