인공지능의 수학적 허상: 보정의 함정

01. Definition

환각의 정의

본 고에서 다루는 환각(Hallucination)이란, 대규모 언어 모델(LLM)이 생성 과정에서 사실과 다르거나 논리적으로 모순된 정보를 높은 확신을 가지고 출력하는 현상을 의미한다.

2025-2026년 최신 연구에서는 이를 단순한 '데이터 오류'가 아닌, 모델의 보정(Calibration) 특성에서 기인하는 수학적 산물로 정의한다.

보정 (Calibration)

"모델이 예측한 확률 분포 P_model(y|x)가 실제 사건의 발생 빈도 P_true(y|x)와 일치하는 상태"

P(correct | confidence = p) = p

통계적으로 완벽하게 보정된 모델일지라도 특정 조건하에서는 반드시 환각을 생성해야만 한다는 정리가 증명되었다.

02. Core Concepts

핵심 개념 및 수식

로그 가능도 극대화

학습의 목적 함수로, 다음 토큰의 예측 확률을 실제 분포에 맞춤.

L(θ) = ∑ log P(xᵢ | x<ᵢ; θ)

누락된 질량 (Missing Mass)

데이터셋에 존재하지 않지만 실제 우주에는 존재하는 정보의 비율.

Good-Turing Estimator

확률적 앵무새

의미적 이해 없이 통계적 빈도에만 의존하여 텍스트를 생성하는 비판적 용어.

Vempala-Kalai 정리

환각률이 오분류율의 최소 2배 이상이 됨을 수학적으로 증명한 하한선.

03. Introduction

AI가 "자신만만하지만 엉터리인" 답변을 내놓는 이유는 그들이 불완전한 학습자여서가 아니라, 오히려 학습한 확률 분포를 너무나 충실하게 따르는 우수한 통계 모델이기 때문이라는 역설적 결론에 도달한다.

04. Background

2025년 발표된 "Why Language Models Hallucinate" (Kalai et al., 2025)는 확률론적 관점에서 환각의 원인을 파헤쳤으며, 이는 AI 신뢰성 확보를 위한 '수학적 진단서'가 되었다.

05. Challenges

보정-정확도 트레이드오프

모델이 "모른다"고 답하는 것은 통계적으로 보정된 분포를 유지하려는 모델에게는 오히려 손실(Loss)을 높이는 행위가 될 수 있다.

Vempala 교수가 제안한 환각률 하한선 정리에 따르면, 모델이 '참'과 '거짓'을 구분하지 못하는 영역이 존재할 때, 단순히 오답을 내는 것을 넘어 두 배에 가까운 확률로 존재하지 않는 사실을 지어내게 된다.

f_gen ≥ 2 × Misclassification Rate - ε

Hallucination Lower Bound Theorem

06. Research Questions

Q1. 단일 정보(Monofacts)의 비율과 환각률의 상관관계?
Q2. 보정을 파괴하지 않고 불확실성을 인지하게 할 수 있는가?
Q3. RLHF가 통계적 정밀도를 얼마나 훼손하는가?

07. Methodology

굿-튜링 추정치 (Good-Turing)

데이터셋에서 한 번 혹은 아주 적게 등장한 토큰(Singletons)을 통해 아직 보지 못한 '누락된 질량'을 계산한다.

G_GT = N₁ / N

N₁: 빈도가 1인 항목의 수

N: 전체 데이터의 수

"Self-Consistent Missing Mass Estimator (2026)" - 모델이 답변 전 자신의 '학습 공백'을 미리 계산하는 기법

08. Applications

주요 응용 분야

정밀 의료 AI

환각 하한선을 계산하여 AI의 진단 신뢰도 점수를 사용자에게 명시적으로 제시.

법률 문서 자동 생성

누락된 질량을 분석하여 가짜 판례가 섞일 위험을 사전에 차단.

지능형 튜터링

'오픈 루브릭' 기반 강화학습으로 모르는 지식을 지어내는 문제 해결.

09. Open Problems

사후 학습의 역설

RLHF는 모델을 더 공손하게 만들지만, 모델의 Internal Probability Calibration을 심각하게 왜곡시킨다.

"모델은 '모름'을 인정하는 대신 '인간이 좋아할 법한 거짓말'을 하는 경향성이 강화된다. 보정을 유지하며 정직함을 확보하는 것은 여전히 난제다."

— Leng et al. (ICLR 2025)

10. Future Directions

향후 추진 방향

내부 주의력(Attention)의 엔트로피와 누락된 질량을 동시 계산하는 디코딩 기술 개발 (2027 목표)

'논리적 연역' 과정에서의 환각률 하한선 정의 및 확장이 지속될 전망

우리는 AI가 진실을 말하기를 원하지만, 수학은 AI에게 확률의 파도를 타라고 명령한다. 이 간극을 메우는 것이 다음 세대 지능의 핵심이 될 것이다.