핵심 개념 해설서 · 강화학습

표준 MDP에서
확장된 MDP로의 도약

기존의 강화학습이 무엇을 할지 결정했다면, RQL은 그 행동이 어떻게 만들어지는지의 과정에 집중합니다. 무작위 노이즈에서 출발해 여러 단계를 거쳐 행동을 완성하는 흐름 정책을, 복잡한 역전파 없이 안정적으로 학습시키는 방법입니다.

핵심 아이디어확장된 M̃

학습 안정성No BPTT

효율 극대화지평선 단축

왜 우리는 '확장된 MDP'를 배우는가?

생성형 모델은 행동을 한 번에 내뱉지 않습니다. 무작위 노이즈에서 시작해 여러 단계의 정교화를 거치죠. 이 '과정'을 통째로 미분하려는 순간, 학습은 불안정해집니다.

강화학습의 핵심은 에이전트가 최적의 행동(Action)을 선택하도록 가르치는 것입니다. 표준 방식은 상태 s가 주어지면 행동 a를 단번에 결정합니다. 하지만 최근 각광받는 흐름 정책(Flow Policies)은 무작위 노이즈에서 시작해 여러 단계의 정교화를 거쳐 최종 행동을 완성합니다.

이처럼 과정이 복잡해지면 생성 단계를 통째로 미분하여 학습시키려 할 때 계산이 불안정해지는 역전파의 저주(BPTT instability)에 빠집니다. RQL은 이를 해결하기 위해 행동 생성의 매 순간을 별도의 RL 단계로 취급하는 '확장된 MDP' 개념을 도입했습니다.

조각가의 비유

거대한 바위를 한 번의 망치질로 조각상으로 만드는 것이 아니라, 수천 번의 섬세한 정질로 나누어 완성하되 — 그 정질 하나하나가 올바른 방향인지 가르치는 것과 같습니다.

표준 MDP vs. 확장된 MDP (M̃)

RQL은 기존 MDP의 지평을 행동 생성 내부로 확장합니다. 구조적 차이를 비교해 보세요.

구분

표준 MDP (M)

확장된 MDP (M̃)

상태 (State)

현재 상태 s

(s, x, f) — 상태, 부분 생성 행동, 흐름 단계

행동 (Action)

환경에 가하는 직접적인 힘

속도 벡터 v — 현재 형태(x)를 변화시킬 방향과 속도

보상 (Reward)

매 단계 발생 가능

마지막 흐름 단계 (f = F−1)에서만 환경 보상 r 발생

종료 지점

다음 상태(s′)로 전이될 때

행동 생성 프로세스 (F 단계)가 완전히 끝날 때

시간 지평 (Horizon)

원래 시간 단계 T

생성 단계가 추가되어 F배로 확장 (T × F)

KEY INSIGHT

확장된 MDP는 시간적 지평을 F배로 늘리는 대신, 복잡한 '행동 생성'이라는 블랙박스를 단순한 '단계별 속도 결정' 문제로 치환합니다.

흐름 정책과 오일러 통합의 마법

RQL에서 행동은 고정된 점이 아니라, 목적지로 나아가는 흐름(Flow)입니다. 조각가의 4단계 과정으로 살펴봅니다.

STEP f=0

가공되지 않은 원석

아무런 의미가 없는 무작위 노이즈에서 시작합니다. 조각을 시작하기 전의 커다란 돌덩이입니다.

x₀ ~ 𝒩(0, I)

FIELD v

조각가의 설계도

상태·현재 모양·단계에 따라 어디를 깎을지 결정하는 속도장. 조각가의 의도가 담긴 설계도입니다.

v(s, x, f)

EULER step

섬세한 정질

설계도에 따라 아주 조금씩 모양을 바꿉니다. 한 번의 정질이 하나의 오일러 단계입니다.

x_{f+1} ← x_f + v

DONE f=F

작품의 완성

F번의 단계를 거치면 노이즈는 비로소 환경에 전달될 유효한 행동 a가 됩니다.

x_F = a

전문가의 한마디

가장 중요한 점은 “흐름의 각 단계가 하나의 독립적인 RL 행동이 된다”는 것입니다. 조각가가 정을 한 번 때릴 때마다, 가치 함수가 그 방향의 옳고 그름을 평가할 수 있게 됩니다.

RQL의 핵심 — 역방향 흐름으로
가상 궤적 생성하기

기존 데이터셋에는 완성된 조각상(행동 a)만 있을 뿐, 그 과정은 기록되어 있지 않습니다. RQL은 결과값에서 거꾸로 노이즈를 찾아갑니다.

거꾸로 흐르는 강물

RQL은 수학적 기교를 통해 결과값에서 시작해 거꾸로 노이즈를 찾아가는 역연산을 수행합니다. 이미 알고 있는 행동 a에서 속도 v를 거꾸로 빼나가면, 이 행동이 어떤 노이즈 x₀에서 출발했어야 하는지를 역추적할 수 있습니다.

역방향 오일러 · x_{f−1} ← x_f − v

이렇게 생성된 가상 궤적(Virtual Trajectories)은 세 가지 결정적 이점을 제공합니다.

01
가상 데이터 생성 — 실제 데이터셋에 없던 행동 생성 중간 단계를 스스로 만들어 학습 자료로 활용합니다.
02
BPTT 불안정성 해소 — 전체 생성 과정을 통째로 미분하지 않고 각 단계를 끊어서 학습하므로 수렴이 빠르고 안정적입니다.
03
최신 정책 반영 (On-policy 효과) — 현재 정책으로 데이터를 재해석하므로, 과거 데이터라도 현재 정책에 맞춰 효율적으로 학습합니다.

지평선 단축 — 학습 효율 극대화

시간 지평이 F배로 늘어나면 TD 오차가 F배 누적되는 '지평선의 저주'가 발생합니다. RQL은 중간 단계를 건너뛰어 가치 함수의 목표를 직접 타격합니다.

✓
중간 업데이트 생략f 단계에서 f+1 단계를 예측하는 대신, 최종 보상 지점을 직접 바라봅니다.
✓
지평선 단축 타겟현재 단계의 목표값으로 r + γ·V(s′, x′₀, 0)을 직접 사용합니다. 여기서 x′₀은 다음 상태 s′의 새 초기 노이즈입니다.
✓
결정론적 특성의 마법RQL의 행동 생성은 순수하게 수학적으로 정의된 결정론적 경로입니다. 운이나 노이즈가 끼어들 여지가 없으므로, 편향·분산 없이 100% 확신을 가지고 지평선을 단축할 수 있습니다.

가교 역할

이 기법은 늘어난 지평선을 물리적으로 가로질러, 현재의 흐름 단계를 다음 상태의 보상과 직접 연결합니다.

마무리 — RQL 학습자 가이드 요약

RQL은 생성형 모델의 강력한 표현력과 강화학습의 효율적 최적화를 결합한 알고리즘입니다.

Value Learning

가치 학습 · Expectile Regression

행동들 사이의 우열을 가려내어, 최선의 가치를 암묵적으로 학습합니다.

Policy Learning

정책 학습 · DDPG-style

학습된 가치 함수의 기울기를 따라 속도 벡터 v를 업데이트하여, 더 높은 가치를 향해 '흐르도록' 정책을 깎아나갑니다.

RQL의 3대 성공 요인

BPTT 없음

생성 과정을 통째로 미분하지 않아 학습이 안정적입니다.

가치 기울기 활용

단순 모방을 넘어, 가치 함수가 가리키는 최적의 방향으로 개선합니다.

지평선 단축

결정론적 경로의 특성을 이용해 늘어난 학습 단계를 효율적으로 압축합니다.

학습 확인 질문

확장된 MDP(M̃)에서 보상이 오직 마지막 흐름 단계(f = F−1)에서만 발생하는 이유는?

+ 정답 가이드 보기

생성 프로세스와 실제 환경 상호작용의 경계를 생각해 보세요. 중간 흐름 단계(x를 깎는 과정)는 아직 환경에 아무것도 가하지 않은 '내부 계산'일 뿐입니다. 노이즈가 완전한 행동 a로 완성된 마지막 단계에서야 비로소 환경과 상호작용하므로, 환경 보상 r은 그 지점에서만 발생합니다.

행동 생성 과정의 '결정론적 특성'이 지평선 단축을 안전하게 만드는 이유는?