에이전트들이 서로 다르다는 것은 단순한 차이를 넘어, 서로 다른 재능과 배경을 가진 전문가들이 협력하는 것과 같습니다. 최근 연구인 HACRL(Heterogeneous Agent Collaborative RL)은 학습 단계에서는 긴밀히 협력하고 실행 단계에서는 각자의 능력을 발휘하는 효율적인 모델을 제시합니다.
이질적 상태 (State)
가중치 값은 다르나 구조는 동일합니다. 지식 공유가 직관적이고 매끄러운 단계입니다.
이질적 크기 (Size)
파라미터 용량이 다릅니다. 작은 모델의 탐험성과 큰 모델의 추론력이 상호 보완합니다.
이질적 모델 (Model)
아키텍처 자체가 다릅니다. 고도의 번역 과정(디토크나이즈)이 필수적인 복잡한 단계입니다.