FST 기반 LLM
지속적 학습 프레임워크
대규모 언어 모델의 '치명적 망각' 문제를 해결하고, 이중 경로 아키텍처를 통해 추론 역량과 도메인 적응력을 동시에 극대화하는 차세대 최적화 방법론.
현대 LLM의 근본적 병목 현상
모든 학습 데이터를 모델 파라미터(θ)에만 강제 주입하는 단일 경로 설계는 심각한 부작용을 야기합니다.
- 치명적 망각 베이스 모델의 보편적 추론 능력 훼손
- 가소성 상실 새로운 작업에 대한 후속 적응력 저하
The FST Vision
"인간의 이중 프로세스 이론(System 1 vs System 2)을 머신러닝에 투영하여, 지식의 성격에 따라 최적화 채널을 이원화합니다."
이중 경로 아키텍처: θ와 φ의 공진화
느린 가중치 (θ)
-
•
절차적 지식 (Procedural) 신경망 파라미터에 저장되는 장기적 추론 논리 및 도구 사용 역량
-
•
최적화 기제: RLVR 검증 가능 보상 및 L_cispo 목적 함수 기반 업데이트
빠른 가중치 (φ)
-
•
선언적 지식 (Declarative) 프롬프트 인구에 담긴 도메인 규칙 및 특정 제약 사항
-
•
최적화 기제: GEPA 반성적 텍스트 피드백 기반의 신속한 변이 및 적응
Interleaving Optimization
GEPA와 RLVR을 활용한 상호교차 최적화 4단계 순환 구조
GEPA 최적화
현재 정책 하에서 최상의 보상을 산출하는 프롬프트 인구(K=8) 도출
Rollout Reuse
평가 시 생성된 롤아웃 데이터를 RL 훈련 데이터로 재사용하여 연산 30% 절감
RL 업데이트
고정 주기(T=6) 동안 GRPO 및 L_cispo를 통한 θ 미세 조정
주기 반복
θ와 φ의 공진화를 위해 1단계로 회귀하여 지속적 학습 수행
실험적 성과: 데이터 효율성 및 가소성 분석
CodeIO 및 HoVer 도메인에서 목표 성능 도달 속도 기준
HoVer-hard 도메인 기준, RL 단독 최적화 대비 향상폭
베이스 모델의 범용적 언어 능력 보존 수치
가소성(Plasticity) 방어 전략
연속 학습 시나리오에서 기존 RL 전용 모델은 후속 작업 도입 시 성능이 0%에 수렴하는 '가소성 붕괴'를 겪지만, FST 모델은 베이스 모델에 근접한 수준의 그래디언트 수용력을 보존합니다. 이는 텍스트 채널(φ)이 작업별 표면적 규칙을 흡수하여 파라미터(θ)의 학습 부담을 경감시키기 때문입니다.
주의 (Polaris Caveat): 베이스 모델의 지시 이행 능력이 불충분할 경우 텍스트 제어력이 상실될 수 있습니다. 반드시 강력한 Instruct 튜닝 모델을 기반으로 사용할 것을 권장합니다.
Architecture Design
Core Principles
상호교차 주기(T=6) 및 인구수(K=8) 준수
주기가 길어질 경우(T=12) 프롬프트 노후화로 성능이 하락합니다.
Rollout Reuse 캐싱 시스템 구축
연산 효율성을 극대화하기 위해 롤아웃 데이터를 파이프라인에서 공유하십시오.
지식 분리의 원칙(Isolate Domain Logic)
작업별 규칙은 빠른 가중치(φ)로 격리하고, θ는 보편적 추론 프로세스 강화에 집중하십시오.
FST Framework Ready
LLM의 지속적 학습을 위한 차세대 기술적 토대를 귀사의 아키텍처에 도입하십시오.