기존의 강화학습이 무엇을 할지 결정했다면, RQL은 그 행동이 어떻게 만들어지는지의 과정에 집중합니다. 무작위 노이즈에서 출발해 여러 단계를 거쳐 행동을 완성하는 흐름 정책을, 복잡한 역전파 없이 안정적으로 학습시키는 방법입니다.
생성형 모델은 행동을 한 번에 내뱉지 않습니다. 무작위 노이즈에서 시작해 여러 단계의 정교화를 거치죠. 이 '과정'을 통째로 미분하려는 순간, 학습은 불안정해집니다.
강화학습의 핵심은 에이전트가 최적의 행동(Action)을 선택하도록 가르치는 것입니다. 표준 방식은 상태 s가 주어지면 행동 a를 단번에 결정합니다. 하지만 최근 각광받는 흐름 정책(Flow Policies)은 무작위 노이즈에서 시작해 여러 단계의 정교화를 거쳐 최종 행동을 완성합니다.
이처럼 과정이 복잡해지면 생성 단계를 통째로 미분하여 학습시키려 할 때 계산이 불안정해지는 역전파의 저주(BPTT instability)에 빠집니다. RQL은 이를 해결하기 위해 행동 생성의 매 순간을 별도의 RL 단계로 취급하는 '확장된 MDP' 개념을 도입했습니다.
RQL은 기존 MDP의 지평을 행동 생성 내부로 확장합니다. 구조적 차이를 비교해 보세요.
sTRQL에서 행동은 고정된 점이 아니라, 목적지로 나아가는 흐름(Flow)입니다. 조각가의 4단계 과정으로 살펴봅니다.
아무런 의미가 없는 무작위 노이즈에서 시작합니다. 조각을 시작하기 전의 커다란 돌덩이입니다.
x₀ ~ 𝒩(0, I)상태·현재 모양·단계에 따라 어디를 깎을지 결정하는 속도장. 조각가의 의도가 담긴 설계도입니다.
v(s, x, f)설계도에 따라 아주 조금씩 모양을 바꿉니다. 한 번의 정질이 하나의 오일러 단계입니다.
x_{f+1} ← x_f + vF번의 단계를 거치면 노이즈는 비로소 환경에 전달될 유효한 행동 a가 됩니다.
x_F = a기존 데이터셋에는 완성된 조각상(행동 a)만 있을 뿐, 그 과정은 기록되어 있지 않습니다. RQL은 결과값에서 거꾸로 노이즈를 찾아갑니다.
RQL은 수학적 기교를 통해 결과값에서 시작해 거꾸로 노이즈를 찾아가는 역연산을 수행합니다. 이미 알고 있는 행동 a에서 속도 v를 거꾸로 빼나가면, 이 행동이 어떤 노이즈 x₀에서 출발했어야 하는지를 역추적할 수 있습니다.
이렇게 생성된 가상 궤적(Virtual Trajectories)은 세 가지 결정적 이점을 제공합니다.
시간 지평이 F배로 늘어나면 TD 오차가 F배 누적되는 '지평선의 저주'가 발생합니다. RQL은 중간 단계를 건너뛰어 가치 함수의 목표를 직접 타격합니다.
r + γ·V(s′, x′₀, 0)을 직접 사용합니다. 여기서 x′₀은 다음 상태 s′의 새 초기 노이즈입니다.RQL은 생성형 모델의 강력한 표현력과 강화학습의 효율적 최적화를 결합한 알고리즘입니다.
행동들 사이의 우열을 가려내어, 최선의 가치를 암묵적으로 학습합니다.
학습된 가치 함수의 기울기를 따라 속도 벡터 v를 업데이트하여, 더 높은 가치를 향해 '흐르도록' 정책을 깎아나갑니다.
생성 과정을 통째로 미분하지 않아 학습이 안정적입니다.
단순 모방을 넘어, 가치 함수가 가리키는 최적의 방향으로 개선합니다.
결정론적 경로의 특성을 이용해 늘어난 학습 단계를 효율적으로 압축합니다.