Clinical Framework Analysis PSI-Bench

우울증 환자 시뮬레이터
신뢰성 검증 가이드

임상 훈련용 LLM 환자 시뮬레이터의 행동적 결함을 진단하고,
실제 환자와의 데이터 격차를 해소하기 위한 전략적 프레임워크

Agreement score: 0.82 (Near-perfect)

01 서론: 기술적 도전과 한계

현재의 LLM 시뮬레이터는 충실도-정교함의 트레이드오프(Fidelity-Sophistication Trade-off) 문제에 직면해 있습니다. 유창한 언어 구사 능력에 비해 임상적 실제감이 결여되어 있습니다.

Critical Risk

지나치게 협조적이고 정형화된 시뮬레이터는 예비 상담사의 실제 임상 현장 대응 능력을 마비시킬 수 있습니다.

안전 가이드라인

부정적 감정 표현 억제로 인한 실제감 저하

LLM-Judge의 한계

주관적 평가 및 실제 전문가 진단과의 괴리

PSI-Bench 프레임워크 아키텍처

Ground Truth

Eeyore Dataset

실제 우울증 환자의 대화 데이터를 기반으로 시뮬레이션 결과와 대조 분석을 수행합니다.

Patient-Ψ Roleplay-doh
01

Turn-level

개별 발화의 특성 및 심리학적 키워드 분석

02

Dialogue-level

대화의 흐름, 진행 속도 및 단계적 상태 전이 분석

03

Population-level

환자 집단 전체의 행동 다양성 및 분포 일관성 검증

신뢰성 측정 주요 지표 (0-100 Normalized)

JSD (감정 분포) Similarity Score
Wasserstein (어휘 다양성) Distribution Shape
Log-ratio (응답 길이) Verbosity Factor
Abs Diff (언어 표식) Marker Density

충실도 향상을 위한 5대 평가 차원

01

내러티브-감정 프로세스 (NEP)

발화를 Problem(고착) - Transition(성찰) - Change(해결)로 분류하여, 환자가 가지는 특유의 '심리적 저항' 구현 여부를 정밀 측정합니다.

02

감정 표현 (Emotion Trajectory)

Plutchik의 8대 기본 감정을 기반으로, 실제 환자의 감정 확산 패턴과 시뮬레이터의 왜곡 현상을 대조 진단합니다.

03

어휘 다양성 (MTLD)

AI는 일관되게 높은 어휘 다양성을 보이는 반면, 실제 환자는 우울증 특유의 공유 어휘 사용으로 인해 다양성이 급락하는 '어휘적 균질성'을 보입니다.

04

응답 길이 (Verbosity)

시뮬레이터가 상담사에게 상황을 '설명'하려 하는 장황함(Verbosity)을 측정하여, 파편화된 실제 환자의 발화 형태와의 간극을 줄입니다.

05

우울증 언어 표식 (Linguistic Markers)

절대주의적 단어(Absolutist terms), 비유창성 등의 심리학적 표식이 단순 빈도를 넘어 텍스트 내에서 가지는 '압축적 밀도'를 분석합니다.

결정적 격차: 시뮬레이터의 3대 결함

조기 해결
Premature Resolution

RLHF 편향으로 인해 대화 시작 단 3턴 만에 치료 성공을 '환각'하는 현상. 실제 환자는 40% 이상 고통을 지속합니다.

Divergence: +370% resolution speed

폭발적인 장황함
Extreme Verbosity

GPT-oss-120b 기준 실제 환자(18.24단어)보다 17.5배(318.9단어) 더 많은 단어를 사용하여 임상적 실제감이 붕괴됩니다.

Avg Word Diff: 17.5x Higher

표식의 희소 분포
Sparse Markers

우울 단어를 '분무기처럼 뿌려 놓는' 패턴. 실제 환자의 압축된 고통 신호를 포착해야 하는 상담사 훈련을 방해합니다.

Density Gap: -82% vs Real Patients

시스템 설계자를 위한 전략적 가이드

모델 규모의 역설 (Model Scale Paradox)

거대 모델(120B+)은 지나치게 논리적이고 성찰적인 답변으로 인해 충실도 점수(33.98)가 낮습니다. 중소형 모델인 Llama-3.1-8B (62.54)가 실제 환자의 파편화된 언어 패턴 재현에 가장 유리합니다.

💡 Recommended Strategy

  • 언어적 세련미보다 임상 데이터 분포 일치를 우선시
  • 8B-30B 규모의 최적화된 모델 선택 고려

PATIENT-Ψ 프레임워크 도입

단순한 페르소나 설정(Roleplay)은 한계가 명확합니다. 인지 행동 모델(Cognitive Behavioral Model)을 시스템 아키텍처에 내재화하여 심리적 저항과 행동 다양성을 구현해야 합니다.

🚀 Implementation Note

  • 내러티브 단계(Problem, Transition, Change) 상태 전이 설계
  • 임상 이론 기반의 심리적 장애물(Barriers) 주입

고충실도 시뮬레이터의 미래

미래의 시뮬레이터는 '똑똑한 AI'가 아니라, 임상적으로 불완전하고 주저하며 쉽게 변하지 않는 생생한 인간의 언어 패턴을 재현해야 합니다. PSI-Bench는 이를 위한 새로운 Gold Standard가 될 것입니다.

Focus Transition

유창한 AI → 실제와 같은 고통을 가진 환자

Scale Optimization

거대 모델의 논리성 → 중소형 모델의 파편성