AI 아키텍처는 '더 큰 모델'을 만드는 훈련 시간 스케일링에서 추론 과정에 더 많은 자원을 투입하는 테스트 시간 스케일링(TTS)으로 패러다임이 급변하고 있다. 본 보고서는 단일 모델의 한계를 극복하고 이질적인 모델들이 협력하는 'Team-of-Thoughts(ToT)' 프레임워크를 아키텍처 관점에서 분석하며, 이것이 미래 추론 시스템의 표준이 될 것임을 제시한다.
TTS는 인간의 '시스템 2' 사고처럼 중간 사고 단계를 생성하여 정답 확률 분포를 정교하게 보정한다. 이는 AI에게 '생각할 시간'을 할당함으로써 모델 내 잠재적 능력을 깨우고 복잡한 추론 문제에서 논리적 궤적을 형성하여 정답 근처의 확률 밀도를 높이는 핵심 방법이다. 그러나 단일 모델의 TTS는 고정된 파라미터의 한계에 부딪히며, 특정 영역의 지식이 없거나 편향된 모델은 아무리 오래 숙고해도 정답 공간에 도달할 수 없는 문제가 있다.
이질적 프라이어(Heterogeneous Priors)의 결합
Team-of-Thoughts(ToT)는 서로 다른 학습 배경을 가진 모델들의 전략적 결합을 통해 사각지대를 제거합니다. 복잡한 기하학적 사고, 엄밀한 산술 계산, 코드 구조화 등 각기 다른 강점을 지닌 모델들이 정답 확률을 극대화합니다.
ToT 프레임워크는 효율적인 TTS를 위해 '오케스트레이터-툴' 패러다임을 채택한다. 첫째, 오케스트레이터 보정을 통해 고정된 비용 제약 하에서 최적의 오케스트레이터를 선발한다. 둘째, 각 도구 에이전트가 자신의 능력을 스스로 감사하는 '자가 진단 프로토콜'을 수행한다. 셋째, 오케스트레이터는 이 프로필을 바탕으로 전략적 토큰 할당을 수행하여 지연 시간을 단축하고 효율을 극대화한다.
성능 분석 결과, ToT는 AIME24 벤치마크에서 96.67%라는 최고 수준의 정확도를 기록했으며, 다수결 투표 방식보다 훨씬 적은 토큰 소모만으로 더 높은 성과를 거두는 '파레토 효율성'을 입증하였다.