LLM 추론의 투명성은 모델의 결정을 이해하고 오남용과 정렬 실패를 완화하며 의외의 동작을 디버깅하기 위한 핵심 조건이다. 그런데 DiffusionGemma는 연산의 상당 부분을 연속적인 잠재 공간에서 수행한다. 이 구조는 추론을 덜 투명하게 만드는가. 본 연구는 투명성을 변수 투명성과 알고리즘 투명성이라는 두 축으로 분해해 이 질문에 답한다.
현재 대부분의 프런티어 AI 시스템은 자연어 사고연쇄(CoT)를 통해 추론하는 자기회귀 모델이다. 사람이 이해할 수 있는 사고연쇄를 유지하는 일은 여러 이유에서 중요하다.
보상 해킹이나 프롬프트 주입 같은 모델의 오작동은 흔히 CoT에서만 드러난다. CoT에 접근하는 모니터는 그렇지 않은 모니터보다 모니터 가능성 평가에서 뚜렷이 앞서며, CoT를 재추출하면 모델 추론 과정의 구조를 파악할 수 있다. 사고연쇄의 투명성은 특히 AI 안전에서 핵심이다. CoT를 다른 모델에 넘겨 오남용과 정렬 실패의 징후를 탐지하도록 시킬 수 있기 때문이다. 장차 강력한 AI 시스템의 배포 안전성을 판단할 때 CoT 투명성이 결정적 근거가 될 가능성도 있으며, AI 통제(control) 안전성 논증의 기존 제안들은 배포를 효과적으로 모니터링할 수 있다는 전제에 크게 의존한다.
DiffusionGemma는 새로 공개된 텍스트 확산(text diffusion) 모델이다. 텍스트 확산 모델은 다수의 토큰으로 이루어진 큰 캔버스에 denoising 연산을 반복 적용해 점진적으로 다듬는다. 중요한 점은, denoising step 사이의 중간 상태가 순수한 자연어가 아니라는 것이다. 그 상태는 일부가 밀집된 자기조건화(self-conditioning) 벡터로 구성되며 기본적으로 사람이 해석할 수 없다. 따라서 DiffusionGemma는 하나의 토큰에 대해 여러 후보를 동시에 고려하거나, denoising 도중 토큰에 대해 "마음을 바꾸거나", 뒤쪽 토큰이 앞쪽 토큰에 인과적으로 영향을 주는 일을 자연어에 전혀 드러내지 않고 수행할 수 있다.
병목을 흐르는 정보를 해석 가능한 토큰 병목으로 사상(mapping)할 수 있으며, 그 과정에서 다운스트림 성능 저하는 없다. 중간 상태를 해석 가능하다고 취급하면 불투명 직렬 깊이가 1.1배까지 줄어든다.
잠재 추론 구조에 대한 근본적 우려는, 현행 구조보다 더 많은 비투명 추론을 잠재 공간에서 수행하게 할 수 있다는 점이다. 해석 가능한 텍스트 병목을 통과하지 않고 모델이 수행할 수 있는 직렬 연산의 양은 불투명 직렬 깊이로 형식화된다.
신경망(샘플링 절차 포함)과 동일한 함수를 계산하는 불리언 회로를 생각하고, 그중 해석 가능한 노드를 표시한다. 모델의 불투명 직렬 깊이는 대략 이 회로에서 해석 가능한 노드를 하나도 포함하지 않는 가장 긴 경로로 정의된다. 이 깊이는 구조의 함수이므로, 먼저 DiffusionGemma의 구조를 기술한 뒤 깊이의 상한을 경험적·점근적으로 계산한다.
DiffusionGemma는 Gemma 4 26B A4B 모델의 구조를 변형한다. 추론은 셋업 단계에 이어 T번의 denoising 루프 반복으로 구성되며, 각 step은 순전파와 샘플링 단계로 이루어진다. 한 번에 한 토큰을 생성하는 Gemma 계열과 달리, DiffusionGemma는 프롬프트를 입력받아 C개 토큰으로 이루어진 출력 캔버스를 만든다.
따라서 자기조건화 행렬은 직전 denoising step의 마지막 활성을 변형한 것이되, 더 가능성 높은 토큰에 대응하는 활성 공간 방향으로 가중된 형태다. 후보 토큰은 각 위치에서 형태 조정된 로짓으로부터 독립적으로 샘플링되고, 이후 엔트로피 한정(EB) 샘플링으로 낮은 엔트로피 토큰은 유지하고 높은 엔트로피 토큰은 다시 노이즈화한다. 캔버스 길이 C가 고정이므로, C보다 긴 출력은 출력 토큰을 프롬프트에 이어 붙여 새 캔버스를 뽑는 다중 캔버스 샘플링으로 생성한다.
모든 모델을 256k 시퀀스 길이에서 계산한다. DiffusionGemma는 해석 불가능 병목의 경우 T=48 step, 해석 가능 병목의 경우 T=1 step으로 본다. 자연어 입력과 출력은 해석 가능하다고 가정한다. DiffusionGemma의 사고연쇄와 응답이 자기회귀 모델과 질적으로 유사하고 난독화될 가능성이 낮기 때문이다. 다만 T=48은 DiffusionGemma의 최악 경우이며, 적응적 정지를 쓰면 실제로는 12~16 step만 사용하므로 통상적인 불투명 직렬 깊이는 표의 약 1/3 수준일 수 있다.
| 모델 | 경험적 불투명 직렬 깊이 (상한) | 점근적 불투명 직렬 깊이 |
|---|---|---|
| Gemma 4 E2B | 8,978 | O(L·(log N + log D)) |
| Gemma 4 E4B | 10,886 | O(L·(log N + log D)) |
| Gemma 4 26B A4B | 21,235 | O(L·(log N + log D)) |
| Gemma 4 31B | 13,750 | O(L·(log N + log D)) |
| DiffusionGemma 26B A4B 해석 가능 병목 | 23,571 | O(L·(log N + log D + log C)) |
| DiffusionGemma 26B A4B 해석 불가능 병목 | 608,016 | O(T·L·(log N + log D + log C)) |
해석 불가능 병목의 경험적 상한은 608,016 / 21,235 = 28.6배다. 점근적으로는 대략 T배 더 크다. 반면 병목을 해석 가능하다고 가정하면 상한은 23,571 / 21,235 = 1.1배로 떨어지고, 점근적 깊이는 O(L·log C)만큼만 더 크다.
현행 자기회귀 모델에서 긴 인지의 직렬 사슬은 반드시 해석 가능한 토큰으로 구성된 사고연쇄를 통과해야 한다. 텍스트 확산 모델의 중간 상태에도 같은 성질이 성립하기를 기대할 수 있다.
DiffusionGemma의 denoising step 사이 병목은 토큰 캔버스 o와 자기조건화 행렬 Sᵗ로 이루어진다. 토큰은 자기회귀 토큰처럼 그냥 읽을 수 있어 해석 가능하지만, Sᵗ는 그렇지 않다. 식 (1)에서 임베딩 행렬을 곱하고 소프트맥스를 취하는 연산이 Sᵗ의 정보를 해석 가능한 토큰에 대응하는 임베딩 방향으로 편향시키므로, Sᵗ를 해석 가능한 토큰으로 변환하는 일이 다룰 만하리라 기대할 수 있다.
로짓 렌즈(Logit Lens)를 사용해 Sᵗ의 정보를 시퀀스 위치마다 소수의 토큰으로 제한한다. 로짓 수정 함수 f를 적용해 다음과 같이 제한된 Sᵗ′를 얻는다.
f_p는 확률이 p 미만인 모든 로짓을 상수로 만들되 소프트맥스 후 유지 토큰의 확률이 그대로이도록 한다. f_k는 상위 k개를 제외한 모든 로짓을 같은 방식으로 상수로 만든다. Natural2Code, LiveCodeBench, AMC/AIME/IMO 변형, GPQA 등 대표 능력 벤치마크에서 비교한 결과, k와 p를 조정하면 k=8, p=0.03에서 기준선과 동일한 성능에 도달한다.
투영된 토큰이 이 개입 하에서 해석 가능하다면, 직렬 깊이를 26배만큼 줄인 셈이 된다. 따라서 다음 질문은 이 상위 k 토큰이 실제로 해석 가능한가이다.
WildChat 데이터셋의 800개 프롬프트로 롤아웃을 생성(최대 1024 토큰, 조기 정지 없음, T=48)하고, 각 denoising step과 위치에서 식 (1)의 소프트맥스 결과로부터 상위 8개(f_{k=8}) 또는 확률 0.03 초과(f_{p=0.03}) 토큰을 추출한다. 추출된 토큰은 다음 다섯 범주로 분류한다(우선순위 순).
Top K=8 필터는 후반 denoising step에서 "기타" 범주의 해석 불가능 토큰을 많이 낳는다. 확산이 진행되며 모델이 단일 고확률 토큰으로 확신을 좁히면, 상위 8개 중 나머지 7개가 저확률 노이즈가 되기 때문이다. 반면 p>0.03 임계를 적용하면 해석 불가능 토큰 비율이 급격히 줄어, 첫 denoising step부터 85% 이상이 분류된다.
결론적으로 DiffusionGemma의 부하를 지는(load-bearing) 중간 상태는 주로 현재 및 이웃 토큰에 대한 추측이며, 따라서 대체로 해석 가능하다.
모니터 가능성 평가는 모델 출력에 접근하는 모니터가 에이전트 행동의 특정 속성(예: 해로움 여부)을 예측하는 정도를 근사한다. DiffusionGemma와 Gemma를 같은 평가에 통과시켜 비교한다.
에이전트 입력에 통제된 개입을 가해 행동이 반응하는지 측정하고, 모니터가 그 행동 변화에 대응하는 추론 변화를 추론할 수 있는지 본다.
모든 풀이가 유한한 해법 경로(예: 특정 정리 사용)를 거쳐야 하는 문제를 풀게 한 뒤, 모니터가 그 해법 경로의 증거를 찾는지 검증한다.
설계상 출력 속성을 아는 문제를 주고, 모델의 의사결정이 그 속성을 활용한 증거를 찾게 한다. 공개 데이터셋에서는 DiffusionGemma가 오작동하지 않아 사례가 없다.
DiffusionGemma의 모니터 가능성은 Gemma와 유사하다. 이는 이 평가의 롤아웃이 다수 캔버스에 걸쳐 있고, 캔버스 사이 추론이 자기회귀적이기 때문일 수 있다.
그림 4 · 두 모델은 유사하게 모니터 가능하다. 비교가 불가능한 데이터셋(개입 데이터셋 일부, 결과 데이터셋 flaky_tools_charxiv)은 제외했다. 오차 막대는 95% 부트스트랩이며 G-mean²의 0과 1로 제한했다.
한 가지 잠재적 교란 요인은 DiffusionGemma의 사고연쇄가 더 짧다는 점이다(평균 8,447자 대 Gemma 24,392자). 일반적으로 긴 사고연쇄가 더 모니터 가능하므로, 이 요인은 오히려 DiffusionGemma의 모니터 가능성을 낮추는 방향으로 작용할 것으로 보인다. 그럼에도 두 모델이 유사하게 모니터 가능하다는 결과가 나온다.
자기회귀 모델은 토큰을 엄격히 좌→우로 생성하며 앞 토큰이 뒤 토큰에 조건이 되지만 그 역은 불가능하다. 텍스트 확산 모델은 이런 제약이 없어, 매 denoising step에서 다른 모든 토큰의 현재 상태에 기반해 캔버스의 어떤 토큰이든 수정할 수 있다. 이 자유를 실제로 활용하는, 확산 고유의 현상들을 사례로 살핀다.
가장 단순한 비연대순 동작 중 하나는, 모델이 무엇을 말할지 정하기도 전에 자신의 응답 길이를 먼저 예측한다는 것이다. "광합성을 2문장으로 설명하라"는 프롬프트에서, 첫 denoising step 직후 모델은 55번 위치 이후 전부에 대해 패딩(문장 종료) 토큰을 거의 100% 확률로 예측한다. 최종 응답은 50 토큰으로 수렴해, 초기 추측이 상당히 정확했음이 드러난다.
모델이 위치에 따라 패딩 토큰에 단조 증가하는 확률을 부여하므로, step t에서 i번째 토큰이 패딩일 확률을 누적분포함수의 추정으로 해석할 수 있고, 이로부터 시퀀스 길이의 기댓값을 구성할 수 있다.
요청 문장 수를 바꿔 가며 확인하면, 단 한 번의 denoising step 후 길이 추정이 실제 길이를 가깝게 추적하고, step 2에 이르면 거의 완벽한 예측이 된다.
답을 먼저 말한 뒤 근거를 대도록 시키면, 모델은 뒤쪽 추론 토큰을 생성하기 전까지 앞쪽 토큰을 불확실한 상태로 둔다. "400과 800 사이 제곱수는 몇 개인가? 답을 먼저 말하고 근거를 대라"는 질문에서, 다음 진행이 관찰된다.
step 4의 최상위 예측은 틀린 값 9였으나, 이후 세 step에서 근거(양 끝점의 제곱근 계산)를 완성한 뒤 답을 8로 교정하고 훨씬 높은 확신으로 채운다. 다만 자기교정이 항상 보장되지는 않으며, 근거가 수렴하기 전에 모델이 이른 답에 "고착(lock-in)"되어 시퀀스를 바꾸기 어려운 경우도 관찰된다.
코드를 생성할 때 DiffusionGemma는 흔히 연대순으로 추론하지 않고 문제를 이산적 덩어리로 접근한다. 먼저 구조적 골격(함수 이름, 코드 블록 구분자)을 쓰고, 그다음 핵심 논리 루프를 채우며, 마지막에 코드 본문 앞쪽에 나타나는 추적 변수와 주석·docstring을 채워 넣는 "골격 우선(skeleton-first)" 패턴이 여러 코드 프롬프트에서 반복된다. 모델은 보조 세부사항을 정하기 전에 알고리즘적 접근(핵심 논리)에 먼저 전념한다.
이는 모니터 가능성에 함의가 있다. 향후 텍스트 확산 모델이 비자기회귀적으로 광범위하게 추론하면, 사고연쇄가 자연어의 자기회귀 순서에서 벗어나 어떤 토큰이 어떤 토큰을 생성했는지 알아내는 데 더 많은 노력이 든다. 그럼에도 예측의 순서를 관찰해 모델이 답을 어떻게 조립하는지 통찰을 얻을 수 있다.
모델이 어떤 토큰을 만들지는 알지만 그것을 어디에 둘지 아직 모르는 경우, 토큰 번짐이 관찰된다. 모델이 단일 토큰의 확률 질량을 여러 인접 위치에 동시에 펼쳐 둔다. 이는 줄바꿈·쉼표 같은 기본 문법이나, 답안 중 특정 키워드에서 자주 일어난다. 예컨대 균형 괄호 분류 함수를 쓰게 하면 "bracket", "opening/closing" 같은 docstring 단어가 확정되기 전에 여러 토큰 군집에 걸쳐 예측된다.
응답이 순수하게 자기회귀적일 때는 토큰 번짐이 드물다. 각 토큰이 직전 토큰 값에 직접 의존하면 미리 펼칠 예측이 없기 때문이다. 예컨대 Collatz 수열을 채우게 하면 모델은 한 칸 이상 앞을 추측할 수 없어 토큰 번짐이 나타나지 않는다.
더 극적인 형태는 시퀀스 번짐이다. 모델이 의미상 구별되는 둘 이상의 후보 시퀀스를 동시에 유지하며 확률 질량을 양쪽에 분산했다가 결국 하나로 수렴하는 상황이다.
"400과 800 사이 제곱수" 예제의 이른 step에서, 답이 9라고 추측하기 전 모델은 두 자리 수일 확률에 높은 질량을 둔다. 한 자리 수로 추정을 바꾸면 뒤따르는 토큰 전부를 한 칸씩 당겨야 한다. step 3의 예측은 한 자리·두 자리 시퀀스가 거의 균등하게 섞인 혼합이며(두 자리 쪽의 최빈 예측은 12), step 4에 한 자리 답으로 수렴하면서 번짐이 붕괴한다.
이 사례의 함의는 다소 우려스럽다. 텍스트 확산 모델은 일종의 "빔 서치"를 수행해, 여러 다중 토큰 덩어리를 예측 공간에 동시에 보유하다 하나로 수렴할 수 있는 듯하다. 중간 예측을 보아 모델이 고려한 대안을 모니터할 수 있으나, 이를 일관된 대안 시퀀스로 연결하기는 실무상 어려울 수 있다. 다만 지금까지의 결과는 모델이 번짐을 간격 맞춤에 쓸 뿐, 의미상 다른 선택지를 동시에 저장하는 데 쓴다는 증거는 아니다.
앞의 사례들은 최종 상태가 알고리즘 이해에 대체로 충분한 경우였다. 여기서는 중간 상태에 모델의 인과적 추론 사슬을 이해하는 데 필요하지만 최종 출력에는 전혀 나타나지 않는 토큰이 담긴 사례를 제시한다.
피보나치류 점화식을 완성하되 일의 자리에 나타나는 숫자 3을 토큰 "Gold"로 치환하라고 지시한다. 각 수로 다음 항을 계산해야 하면서도 특정 숫자를 변환해야 하는 까다로운 과제로, Gemini 2.5 Pro는 사고연쇄 없이 이 과제를 수행하지 못한다.
모델은 종종 먼저 숫자 3을 생성해 후속 항 계산에 쓰고, 그 항들이 안정된 뒤에야 "Gold"로 치환해 과제를 푼다. 이때 숫자 3은 중간 추론 토큰으로 기능한다. 올바른 후속 항 생성에 인과적으로 필요하지만 최종 출력에는 결코 나타나지 않는다. 치환이 항상 성공하지는 않으며, 치환 토큰이 2·3순위 예측에 머물고 최상위로 올라오지 못하는 경우도 있다(이른 고확률 예측의 고착 때문으로 추정된다).
§4에서 최종 출력 토큰만 보아도 DiffusionGemma가 Gemma와 유사하게 모니터 가능함을 확인했으나, 중간 문맥 추론은 원리상 모니터 가능성이 denoising step 사이 중간 상태에 대한 접근을 요구할 수 있음을 보여준다.
단일 캔버스 환경으로 한정할 때 가장 흥미로운, 향후 연구 방향들을 정리한다. 다수 캔버스에서는 DiffusionGemma가 자기회귀 트랜스포머에 더 가까운 성질을 보이기 때문이다.
모델 유기체 연구는 정렬 실패·전략적 추론 은폐 같은 위험한 속성의 통제된 사례를 만든다. DiffusionGemma는 유망한 기반 모델로, 예컨대 denoising step 동안 전략적으로 추론하되 그것을 최종 답에서 숨기도록, 또는 CoT 모니터 가능성을 낮추도록 미세조정하는 방향이 흥미롭다.
액면 그대로 보면 결과는 고무적이다. DiffusionGemma는 자기회귀 짝인 Gemma 4와 유사하게 모니터 가능하고, 단순한 해석 기법만으로 불투명 직렬 깊이를 Gemma 수준에 맞출 수 있으며, 약간의 노력으로 비자기회귀 알고리즘 상당수를 이해할 수 있다.
그러나 이 결과가 현행의 비교적 초기 단계인 텍스트 확산 학습 패러다임의 산물인지, 잠재 추론 구조의 지속적 속성인지는 불분명하다. 향후 텍스트 확산 모델은 훨씬 큰 캔버스 길이로 확장되고 덜 해석 가능한 중간 상태를 가질 수 있다. 따라서 본 연구가 미래 잠재 추론 모델 평가의 본보기(template)가 되기를 바란다. 새로운 잠재 추론 모델이 공개될 때마다 개발자와 연구 공동체가 유사한 투명성 감사를 수행하기를 기대한다.
미래의 잠재 추론 모델이 이 지표들에서 후퇴하더라도 투명성을 유지하려면, 잠재 추론을 사람이 이해할 수 있는 자연어 추론으로 번역하는 새로운 기법이 필요하다. 이에 활성을 자연어로 옮기는 NLA와 활성 오라클 같은 기법의 발전을 특히 기대한다.
각 위치 i에서 출력 분포의 엔트로피 H_i를 계산하고, 위치를 엔트로피 오름차순으로 정렬한다. "선택된 엔트로피 합에서 최대값을 뺀 값"이 임계 γ=0.1 이하가 되는 가장 큰 집합 S를 고른다. S에 속한 저엔트로피 위치의 후보 토큰은 채택하고, 속하지 않은 위치는 무작위 토큰으로 다시 노이즈화한다.
# Algorithm 1 · 로짓 수정 함수 f_p (정보 병목 제한) 입력: 스케일된 로짓 Z ∈ ℝ^(C×|V|), 확률 임계 p Q ← Softmax(Z) # 원래 확률 (어휘 차원 독립 적용) for k in {1, …, C}: P_k ← { i | Q[k,i] ≥ p } # 임계 이상 인덱스 집합 S_rest ← Σ_{j∉P_k} exp(Z[k,j]) # 버려진 토큰의 비정규 질량 if |V| > |P_k|: c ← ln( S_rest / (|V| − |P_k|) ) else: c ← 0 for i in {1, …, |V|}: Z'[k,i] ← Z[k,i] if i ∈ P_k else c # 임계 미만은 균일 상수로 반환: 수정된 로짓 Z'
토큰 확정은 비단조적이다. 선택 집합 S는 위치를 영구히 잠그는 대신 매 step마다 처음부터 다시 평가된다.
각 위치의 최상위 토큰을 확신도에 따라 강조 표시한다. 옆 히트맵은 행=위치, 열=denoising step으로 수렴 시점을 색으로 보여, 생성의 전체 구조(자기회귀 편향 정도)를 한눈에 파악하게 한다.
단일 denoising step에서 시퀀스 위치별 토큰 확률을 그린다. 슬라이더로 step을 훑는다. 토큰 번짐과 응답 길이 예측 관찰에 특히 유용하다.
행=step, 열=위치인 표에서 각 칸이 top-k 토큰을 확신도 강조와 함께 보인다. 후보 토큰 간 미세 경쟁을 살피는 가장 상세한 뷰다.
개입(AIME·DAFT·GPQA·GPQA Encoded·Memory Advice·Scruples 계열·WMDP Sandbagging), 과정(Process AIME Math·GPQA Physics), 결과(Flaky Tools CharXiv)로 구성된다.