Technical Report · Qwen Team

이미지에
사람의 취향을
강화학습으로 새기다

Qwen-Image-2.0-RL — 디퓨전 이미지 생성 모델의 RLHF·온폴리시 증류 후처리 파이프라인.

지도학습으로 사전학습된 디퓨전 모델의 출력과 인간의 미적 기대 사이에는 지속적인 간극이 존재한다. Qwen-Image-2.0-RL은 인간 피드백 기반 강화학습(RLHF)과 온폴리시 증류(OPD)를 적용하여 Qwen-Image-2.0 모델의 시각 품질과 지시 수행 능력을 동시에 끌어올리는 후처리 파이프라인이다.

Base

Qwen-Image-2.0

Method

RLHF · GRPO · OPD

Bench Overall

57.84 · +2.61

Edit Arena Elo

1349 · +93

SCROLL — 노이즈에서 이미지로

00 — 문제 정의

지도학습은 "좋아 보이는"을
직접 배우지 못한다

지도학습은 노이즈 제거 점수 정합(denoising score matching) 목표를 최적화할 뿐, 구성적 조화·질감·프롬프트 충실도·양식적 일관성 같은 인간의 선호를 직접 포착하지 못한다. 대규모 언어모델 정렬에서 성공한 RLHF는 이 간극을 원리적으로 메우는 접근을 제공한다.

그러나 RLHF를 디퓨전 모델로 확장하는 데는 세 가지 뚜렷한 난제가 있다. 신뢰할 수 있는 보상 신호가 텍스트-투-이미지(T2I) 생성과 이미지 편집처럼 근본적으로 다른 과제의 다양한 품질 차원을 포착해야 하고, 기존 RL 프레임워크가 주로 LoRA 미세조정 설정에서만 검증되어 전체 파라미터·대규모 학습이 미탐색 상태이며, 실제 배포에는 과제별 특화 정책을 품질 손실 없이 단일 모델로 통합하는 일이 요구된다.

세 가지 핵심 기여

01 · Reward

VLM 기반 복합 보상

Qwen 계열 VLM을 CoT 추론과 함께 미세조정하고, 페어와이즈보다 우수한 포인트와이즈 채점을 채택한다. T2I는 정렬·미학·인물의 계층적 보상, 편집은 지시 수행·얼굴 정체성 일관성.

02 · Training

확장형 GRPO 프레임워크

다중 보상 어드밴티지를 갖춘 GRPO에 하이브리드 CFG 전략, 그룹 내 보상 범위 필터링을 통한 프롬프트 선별, 카테고리별 보상 가중치 보정을 결합한다.

03 · Distillation

온폴리시 증류(OPD)

T2I·편집 전문 교사를 궤적 수준 속도 정합으로 단일 학생 모델에 통합한다. 과제 간 최적화 충돌을 피하고 보상 모델 의존을 제거한다.

파이프라인 개요

공유 베이스 모델에서 출발하여 전용 보상 조합으로 두 과제 특화 RL 정책을 학습한다. T2I는 프롬프트 충실도 → 질감 품질 → 인물 특화 최적화로 이어지는 계층 설계를, 편집은 지시 정확도와 정체성 보존에 집중한다. 그 결과 나온 두 교사를 온폴리시 증류로 하나의 통합 모델로 병합한다.

FIG 1. 베이스 → 두 과제 특화 RL 교사 → 온폴리시 증류 → 배포용 통합 모델.

01 — 배경

Flow Matching과
Flow-GRPO

디퓨전 모델은 고해상도 이미지 생성의 지배적 패러다임이다. Flow Matching 프레임워크에서 전방 경로는 깨끗한 샘플과 가우시안 노이즈의 선형 보간으로 정의되며, 신경망은 속도장(velocity field)을 근사하도록 학습된다.

전방 경로 · Forward Path

x_t = (1−t)·x₀ + t·ε, t ∈ [0,1]

x₀ ~ p_data 깨끗한 샘플, ε ~ 𝒩(0,I) 표준 가우시안 노이즈
조건부 속도장 v := ε − x₀

생성 · Reverse ODE

dx_t/dt = v_θ(x_t, t, c), x₁ ~ 𝒩(0,I)

학습 후, t=1에서 t=0으로 확률 흐름 ODE를 역방향으로 풀어 샘플을 생성한다.

Flow-GRPO · 결정론적 ODE를 확률 샘플러로

Flow-GRPO는 그룹 상대 정책 최적화(GRPO)를 flow matching으로 확장하여, 다단계 노이즈 제거 궤적을 마르코프 결정 과정(MDP)으로 정식화한다. 프롬프트 c에 대해 정책이 G개 이미지 그룹을 생성하고, 보상 모델이 각 샘플을 평가한다. i번째 샘플의 어드밴티지는 그룹 수준 정규화로 계산된다.

A(x₀⁽ⁱ⁾, c) = ( R(x₀⁽ⁱ⁾, c) − μ_c ) / σ_c

μ_c, σ_c 는 그룹 내 보상의 평균과 표준편차 · 결정론적 ODE는 등가 확률 샘플러로 대체되어 중요도 샘플링 비율 계산과 클리핑 대리 목표 최적화를 가능하게 한다.

한편 DiffusionNFT는 전방 디퓨전 과정을 정책 최적화에 사용하는 대안적 정식화를 제안한다. 현재·이전·참조 정책의 속도 예측으로 양·음 속도 예측을 구성하고, 재조정된 그룹 상대 어드밴티지 r ∈ [0,1]로 가중한다. 사전학습 참조에서 정책이 지나치게 벗어나지 않도록 KL 페널티를 더한다.

보상 신호는 인간의 선호를 포착하는
강화학습의 심장이다.

02 — 보상 모델링

과제별 복합 보상 시스템

사전학습된 생성 모델을 인간 선호에 정렬하기 위해, 평가 차원별로 과제 특화 복합 보상 모델을 구성한다. 의미·미학 평가는 VLM 기반 채점기가, 세밀한 정체성 보존은 모델 기반 채점기가 담당하며 T2I와 편집 과제 모두에 맞춰진다.

포인트와이즈 vs 페어와이즈

보상 모델 미세조정에 두 가지 학습 패러다임을 탐색한다. 페어와이즈는 같은 프롬프트에서 생성된 이미지 쌍 (x_w, x_l)에 Bradley-Terry 순위 손실을 적용하고, 포인트와이즈는 각 이미지에 절대 점수 y를 부여해 직접 회귀한다. 실무에서 보상 모델은 이산 점수 집합 S = {1,2,3,4,5} 토큰을 출력하며, VLM 확률 분포의 기댓값으로 보상 점수를 산출한다.

Pairwise · Bradley-Terry

ℒ_pair = − Σ log σ( R_φ(x_w,c) − R_φ(x_l,c) )

어느 쪽이 더 나은지(which is better)만 포착한다

Pointwise · 회귀 (채택)

ℒ_point = Σ ( R_φ(x,c) − y )²

얼마나 좋은지(how good)를 보정된 척도로 인코딩한다

동일한 평가 초점(미적 품질·시각 질감)과 동일한 모델 풀을 공유하되 주석 형식만 다른 두 데이터셋으로 비교한 결과, 포인트와이즈로 학습한 보상 모델이 일관되게 더 나은 시각 품질과 더 적은 아티팩트를 만든다. 절대 점수의 더 풍부한 지도 신호 덕분으로 해석되며, 최종 시스템의 모든 VLM 기반 보상 모델은 포인트와이즈를 기본 목표로 채택한다.

T2I 생성 보상 · 계층 설계

T2I 보상 설계는 계층 논리를 따른다. 가장 근본적인 요구는 프롬프트 충실도다 — 지정 내용을 무시한 아름다운 이미지는 실패한 생성이다. 따라서 미학을 배제한 이미지-텍스트 정렬 보상에서 시작하고, 프롬프트 준수가 확립되면 미학 보상을 얹으며, 인물 이미지에는 전용 인물 보상을 추가한다.

L1이미지-텍스트 정렬 보상. 가장 근본적. 미학을 고려하지 않고 의미 대응을 측정한다. 우선순위 계층 — (1)객체 존재·개수, (2)속성 정확도(색·크기·형태·재질), (3)공간 관계 충실도, (4)행동·포즈 정확도. 최상위 기준을 통과하지 못하면 다른 품질과 무관하게 낮은 점수로 제한된다.
L2미학 보상. 프롬프트 충실 생성 위에서, 구성적 균형·사실적 조명·질감 충실도·전반적 예술적 일관성을 평가한다. 포인트와이즈 주석 데이터셋으로 학습한다.
L3인물 보상. 얼굴 비율 정확도·정체성 보존 세부·피부와 모발 질감 사실성을 개선하는 특화 신호. 잘못된 손가락 개수·왜곡된 얼굴 특징·부자연스러운 신체 비율 같은 흔한 실패 모드를 명시적으로 점검한다. 별도의 인물 특화 데이터셋으로 학습한다.

이미지 편집 보상

T2I에서 확립한 포인트와이즈 방법론을 편집 과제로 이전하고, VLM의 한계를 넘는 세밀한 정체성 보존을 위해 모델 기반 얼굴 정체성 일관성 채점기를 추가한다.

Instruction-following

원본 이미지·편집 지시·출력 이미지를 삼중항으로 받아, 지시를 핵심·비핵심 요구로 분해한다. (1)핵심 편집 지시 이행, (2)비핵심 요구 처리, (3)전반적 시각 일관성을 구조화 루브릭으로 평가한다. 객체 교체·속성 수정·양식 전이 등을 포괄한다.

Face ID Consistency

VLM 기반 시각 일관성 보상은 전역 구조 보존을 포착하지만 미묘한 얼굴 정체성 변화 검출에는 불충분하다. 전용 모델 기반 얼굴 정체성 채점기가 임베딩 수준의 정밀한 정체성 보존 신호를 제공하여 VLM의 상위 의미 일관성 평가를 보완한다.

03 — 학습

안정성과 사전지식을
동시에 지키는 법

확립된 보상 모델과 GRPO 기반 프레임워크로 T2I·편집 정책을 각각 학습한 뒤, 두 과제 특화 모델을 온폴리시 증류로 배포 가능한 모델로 병합한다.

하이브리드 CFG 전략

디퓨전 기반 RL의 핵심 설계는 분류자 없는 안내(CFG)를 롤아웃 샘플링과 정책 최적화 중 어디에 쓸지다. 세 전략을 체계적으로 평가한다.

✕ 양쪽 모두 CFG

학습 붕괴

롤아웃·학습 양쪽에 CFG를 적용하면 심각한 학습 불안정이 발생한다. 학습이 진행될수록 이미지가 완전히 열화되어 결국 일관성 없는 출력으로 붕괴한다.

✕ 양쪽 모두 미사용

지식 소실

보상 점수는 꾸준히 오르지만, 모델이 양식화 능력과 세계 지식을 점진적으로 상실한다. 유명인 외모를 재현하지 못하고 양식 특화 생성 능력을 잃는다.

✓ 롤아웃만 CFG (채택)

안정 + 지식 보존

CFG로 안내된 롤아웃이 신뢰할 보상 신호를 낼 고품질 후보를 만들고, CFG 없는 학습 목표가 조건·무조건 분기 동시 최적화의 어려움을 피해 안정적 경사 갱신과 연산 절감을 유지한다.

하이브리드 전략을 채택한다. 베이스 모델은 추론 시 사전학습 지식을 완전히 표현하기 위해 CFG에 의존하므로, 롤아웃에서만 CFG를 써 구조적으로 일관된 이미지를 생성하고 정책 최적화 목표에서는 무조건 분기를 배제한다.

비동기 보상 파이프라인

보상 모델은 학습 과정과 분리된 원격 API 서비스로 배포된다. 보상 채점은 원격 VLM 엔드포인트로의 네트워크 I/O를 수반하므로 동기 평가는 학습 루프의 병목이 된다. 정책이 GPU 추론으로 이미지 배치를 생성·수집하면 백그라운드 스레드가 원격 보상 API로 비동기 제출하고, 응답이 돌아오면 모든 랭크가 동기화하여 원점수 수집·프롬프트 그룹별 정규화·어드밴티지 계산을 수행한다. 이 설계는 보상 지연을 추론 연산 뒤에 거의 완전히 숨겨 학습 시간의 비례 증가 없이 다중 보상 모델로의 효율적 확장을 가능하게 한다.

다중 보상 어드밴티지 계산

T2I와 편집 각각에 여러 보상 모델을 사용한다. 그룹 상대 어드밴티지는 프롬프트 그룹별 정규화를 거친 가중 합으로 계산된다.

A(x₀⁽ⁱ⁾, c) = Σ_k=1..K w_k · ( R_k(x₀⁽ⁱ⁾, c) − μ_k ) / σ_k

R_k 는 k번째 보상 모델, w_k 는 Σw_k=1 을 만족하는 가중치 · 프롬프트 그룹별 정규화가 핵심 — 보상 모델 간 절대 스케일 차이에 불변이 되어 특정 보상 차원이 수치 범위 때문에 어드밴티지 신호를 지배하는 것을 막는다.

과제별 최적화

A.타임스텝 샘플링. 롤아웃은 40스텝 ODE 솔버로 생성한다. 40스텝 전부에 RL 목표를 적용하면 빠른 보상 해킹(reward hacking)으로 몇 번의 반복 만에 열화된다. 전역 구조·의미 배치를 관장하는 고노이즈 타임스텝(t=1에 가까운)에 집중한 부분집합만 학습하여 보상 착취를 늦추고 품질 차원 전반의 개선을 보장한다.
B.프롬프트 선별. 모든 프롬프트가 정책 개선에 동등하게 기여하지 않는다. 각 후보 프롬프트에 대해 베이스 모델이 G회 롤아웃하고 그룹 내 보상 범위(최댓값−최솟값)가 임계값을 넘는 프롬프트만 남긴다. 모든 샘플에서 보상이 균일하게 높거나 낮은 프롬프트는 약한 신호만 제공하므로, 정책이 개선할 여지가 있는 프롬프트에 연산을 집중해 학습 효율을 크게 높인다.
C.카테고리별 보상 보정. 남은 프롬프트를 의미 카테고리(인물·풍경·타이포그래피·일반)로 조직하고 카테고리별 보상 가중치 벡터를 배정한다. 인물 프롬프트는 인물 충실도 보상에, 타이포그래피는 정렬 정확도에 높은 가중을 준다. 최적화가 단일 지배 양식으로 수렴하는 것을 막는다.

두 전문가를 하나로. 그러나 서로 다투게 하지 않고.

04 — 온폴리시 증류

궤적 위에서
속도를 맞추다

RL 최적화는 각 과제에서 뛰어난 품질의 모델을 만들지만 그 정책은 과제 특화되어 있다 — T2I 최적 모델은 편집 성능이 떨어지고 그 반대도 마찬가지다. 온폴리시 증류(OPD)는 여러 과제 특화 교사를 궤적 수준 속도 정합으로 단일 학생 모델에 통합한다.

학생 모델 v_θ(베이스 모델로 초기화)는 t=1에서 t=0으로 역방향 ODE를 N스텝으로 풀어 이미지를 생성하고, 자신의 전체 궤적 {x_t0, …, x_tN}을 저장한다. 학생은 자신의 추론 궤적 위 각 지점에서 과제에 맞는 교사의 속도를 맞추도록 학습한다 — 즉 자신의 예측 오류를 자신의 궤적에서 스스로 교정한다.

ℒ_OPD = 𝔼_{c, x[1:N]~π_θ} [ Σ_n=1..N ‖ v_θ(x_tn, t_n, c) − v_θ*(x_tn, t_n, c) ‖² ]

v_θ* 는 과제 관련 교사 모델 · 학생이 자기 생성 궤적 위에서 교사 속도장을 정합한다

다중 교사 증류

OPD의 핵심 장점은 여러 과제 특화 교사를 단일 학생으로 증류하는 능력이다. 미학·정렬·인물 보상으로 최적화한 T2I 교사와, 지시 수행·얼굴 정체성 보상으로 최적화한 편집 교사를 유지한다. 각 배치마다 현재 샘플의 과제 유형에 따라 적절한 교사를 선택하고, GPU 메모리 관리를 위해 활성 교사만 GPU에 올리고 비활성 교사는 CPU로 오프로드한다. 교사가 CFG로 학습되었으므로 OPD의 교사 속도 예측에는 CFG를 적용하되 학생은 CFG 없이 유지하며, OPD 이후 학생에도 CFG를 통합한다.

혼합 RL 학습과의 비교

자연스러운 대안은 T2I·편집 혼합 데이터에 단일 모델을 RL 학습하며 모든 과제별 보상을 공동 최적화하는 Mix-RL이다. 단순하지만 서로 경쟁하는 최적화 목표를 동시에 만족시키도록 강제하여 차선의 절충으로 이어진다. Mix-RL도 베이스 대비 질감 충실도·구성 일관성·사실성을 개선하지만, Qwen-Image-2.0-RL(OPD)이 일관되게 Mix-RL을 능가하여 더 선명한 세부·더 정확한 프롬프트 준수·더 나은 미학을 만든다. 편집에서도 Mix-RL은 복잡한 지시 아래 정체성 표류나 불완전 편집을 겪는 반면 OPD는 우월한 얼굴 정체성 보존과 지시 수행을 달성한다.

W2 상계로부터의 유도

OPD 목표는 분포 거리 최소화 관점에서 유도된다. 연속 공간 디퓨전에서 경로 측도 간 KL은 일반적으로 다루기 어렵고, 2-바서슈타인(Wasserstein-2) 거리의 직접 계산은 최적 수송 문제를 요구해 고차원에서 다루기 어렵다. Benton et al.(2023)의 정리를 통해 속도장 근사 오차와 흐름의 분포 거리를 연결하면, W2 상계의 최소화가 궤적 수준 속도 정합 목표의 최소화로 환원된다. 연속 적분을 학생의 이산 궤적 지점 합으로 근사하면 실용 OPD 손실이 정확히 복원된다.

05 — 평가

벤치마크와 아레나에서

자동 품질 지표부터 경쟁 아레나의 인간 선호 순위까지 평가한다. T2I는 Q-Judger(80명 전문 아티스트가 주석한 13만+ 이미지-프롬프트 쌍으로 학습한 통합 심판 모델)로 채점되는 Qwen-Image-Bench에서 평가한다.

다섯 축의 일관된 향상

RL 학습은 다섯 평가 축 전반에서 일관된 개선을 낸다. 전체 점수를 55.23 → 57.84로 끌어올렸으며, 가장 큰 향상은 창의 생성(+6.72)과 실세계 충실도(+4.29)에서 나타난다.

57.84

Overall · 전체 점수

+2.61 vs Base

64.94

Creative Gen. · 창의 생성

+6.72

51.83

Real-world Fidelity · 실세계 충실도

+4.29

54.39

Quality · 품질

+2.10

Qwen-Image-Bench 성능 비교

Model	Quality	Aesthetics	Alignment	Real-world	Creative	Overall
Qwen Image	48.44	52.25	50.72	43.16	47.30	49.23
Imagen 4.0 Ultra	50.90	54.25	54.02	45.59	51.14	51.99
GPT Image 1	52.34	55.09	56.28	48.14	55.78	54.07
FLUX 2 Max	53.64	56.85	57.35	49.35	56.50	55.33
Seedream 5.0	52.55	58.40	58.90	51.92	65.29	57.22
Nano Banana 2.0	54.77	61.08	62.40	54.28	67.05	59.82
GPT Image 2	58.65	67.53	65.85	57.38	75.23	64.69
Qwen-Image-2.0-Base	52.29	57.10	57.64	47.54	58.22	55.23
Qwen-Image-2.0-RL	54.39	58.67	59.28	51.83	64.94	57.84

TABLE 1. [0,100] 척도, 56개 3단계 facet에서 상향 집계. RL 학습이 베이스 대비 전 축에서 개선을 냈다(강조: 표 내 최고값 GPT Image 2, 하단 비교: Base → RL).

인간 선호 · 아레나 Elo

익명 이미지 쌍에 사용자가 투표하는 T2I·편집 아레나에서, RL 학습은 여덟 하위 카테고리 전반에서 상당한 Elo 향상을 낸다. T2I 전체는 1115 → 1193 (+78), 가장 두드러진 향상은 3D 모델링(+93)과 포토리얼리즘(+91)으로 구조 일관성과 세밀한 세부 렌더링 개선을 반영한다. 편집 아레나도 1256 → 1349 (+93)로 향상되어 편집 특화 RL 학습의 효과를 재확인한다.

FIG 4. RL 학습이 여덟 하위 카테고리와 전체 점수 전반에서 Elo를 일관되게 향상시킨다. 막대 길이는 상대 비교용.

06 — 결론

정리

Qwen-Image-2.0-RL은 RLHF와 OPD를 결합하여 시각 품질과 지시 수행 능력을 실질적으로 개선한 이미지 생성 시스템이다. 정성·정량 평가 모두 OPD가 모든 과제 보상을 공동 최적화하는 혼합 RL 기준선을 단지 따라잡을 뿐 아니라 능가함을 확인하여, 분해된 학습 전략의 타당성을 검증한다.

1)VLM 기반 복합 보상 시스템. T2I·편집 과제 모두에 맞춰 미적 품질·프롬프트 준수·인물 충실도·지시 수행·시각 일관성을 포괄하는 구조화 평가 루브릭.
2)적응형 GRPO 학습 프레임워크. 하이브리드 CFG 전략과 비동기 보상 파이프라인으로 flow matching 모델의 효율적 대규모 RL 학습을 가능하게 한다.
3)OPD 통합 메커니즘. 과제 특화 RL 교사를 궤적 수준 속도 정합으로 단일 배포 모델에 통합하여, 각 전문 교사의 품질 이득을 보존하면서 보상 모델 의존을 제거한다.

57.84

Qwen-Image-Bench Overall

+2.61

1193

T2I Arena Elo

+78

1349

Image Edit Arena Elo

+93

교사 → 1 통합 학생 (OPD)

no reward dep.

지도학습은 "좋아 보이는"을직접 배우지 못한다

VLM 기반 복합 보상

확장형 GRPO 프레임워크

온폴리시 증류(OPD)

Flow Matching과Flow-GRPO

과제별 복합 보상 시스템

안정성과 사전지식을동시에 지키는 법

학습 붕괴

지식 소실

안정 + 지식 보존

궤적 위에서속도를 맞추다

벤치마크와 아레나에서

정리

지도학습은 "좋아 보이는"을
직접 배우지 못한다

Flow Matching과
Flow-GRPO

안정성과 사전지식을
동시에 지키는 법

궤적 위에서
속도를 맞추다