디지털 트윈은 개인 행동과 건강 궤적의 모델링을 가능하게 하는 개인 맞춤 의료의 유망한 패러다임이다. 인지 건강에서 경도인지장애(MCI)의 조기 발견은 여전히 까다로우며, 언어와 대화 패턴이 비침습적 바이오마커로 기능한다.
본 연구는 대규모 언어 모델(LLM)을 활용해 노인의 대화 행동을 모사하는 언어 기반 디지털 트윈 프레임워크를 제안한다. 문체적 단서와 맥락 메타데이터를 통합하며, 충실도와 인지 일관성을 평가하기 위해 재구성 품질과 인지 점수 예측을 함께 측정하는 다중 헤드 조건부 변분 오토인코더(cVAE)를 도입한다. I-CONECT 데이터셋 실험에서 디지털 트윈은 개인 고유의 특성을 보존하고, 기저 GPT 생성 응답을 능가하면서 실제 데이터에 준하는 재구성 및 MoCA 예측 오차를 달성한다.
서론Introduction
디지털 트윈은 실세계 데이터로 지속적으로 갱신되는 물리적 개체의 가상 표현으로, 시스템 행동의 시뮬레이션·분석·예측을 가능하게 한다. 본래 공학에서 출발했으나, 임상 기록·생리 신호·행동 관찰 같은 다중 모달 데이터를 통합해 개인의 동적 계산 모델을 구축하는 의료 패러다임으로 부상했다. 대화 데이터의 가용성이 늘면서 언어와 상호작용 패턴을 통한 인지 모델링도 가능해졌다. 예측에만 집중하는 기존 기계학습 모델과 달리, 디지털 트윈은 지속적·개별화된 행동 모델링을 지원해 미묘하고 종단적인 인지 변화를 포착하기에 특히 적합하다.
경도인지장애(MCI)는 정상 노화와 치매 사이의 전이 단계로, 적시 개입을 위해 조기 발견이 결정적이다 [16]. 그러나 전통적 진단은 구조화된 평가와 신경영상에 의존하며, 비용이 높고 빈도가 낮으며 일상 행동의 점진적 변화를 포착하는 데 한계가 있다 [8]. 언어와 음성은 확장 가능하고 비침습적인 인지 저하 바이오마커로 떠올랐으며, 어휘 다양성·유창성·휴지 같은 특징이 인지 상태와 상관한다 [14]. 특히 자연스러운 대화 데이터는 제약된 임상 과제보다 풍부하고 시간적으로 정보가 많은 신호를 제공한다 [11].
이러한 진전에도 대부분의 접근은 개인화·총체적 모델링보다 예측에 집중한다. 마찬가지로 기존 의료 디지털 트윈 연구는 주로 생리적·집단 수준 표현을 겨냥하며 개인 고유의 언어적·행동적 특성에는 관심이 적었다.
제안 방식은 휴지·템포 같은 문체적 단서와 맥락 메타데이터를 통합해 언어 스타일, 시간적 동역학, 인지 서명을 포착하며, 실제 인간 행동을 닮은 개인화 응답을 생성한다. 응답 충실도와 인지 일관성을 평가하기 위해 재구성 품질을 측정하고 인지 점수를 예측하는 cVAE 기반 평가기를 도입한다. I-CONECT 데이터셋 [5] 실험은 제안 디지털 트윈이 개인 고유 특성을 보존하고 인지 관련 정보를 유지해 인지 상태를 정확히 추정함을 보인다. 본 연구는 디지털 트윈 모델링을 집단 수준 표현에서 개별화된 언어 중심 접근으로 진전시킨다.
방법Methodology
본 연구는 언어 기반 디지털 트윈을 개인의 대화 행동을 시간에 걸쳐 포착·재현하는 개인화 데이터 주도 모델로 개념화한다. 입력을 출력으로 사상하는 전통적 예측 모델과 달리, 디지털 트윈은 종단 대화 데이터와 메타데이터를 활용해 기저 행동·인지 패턴을 에뮬레이션하는 것을 목표로 한다. 참여자 고유 정보를 지속적으로 조건화함으로써 디지털 트윈의 핵심 원리 — 개인화, 동적 표현, 행동 충실도 — 에 부합한다.
3.1언어 디지털 트윈
개인의 대화 스타일과 언어 행동을 모사하기 위해 LLM으로 언어 기반 디지털 트윈을 모델링한다. 기저 모델로
GPT-4.1-mini를 채택하고 지도 미세조정(SFT)으로 적응시킨다.
데이터 전처리와 문체 증강
개인의 말하기 패턴을 포착하기 위해, 시간적 발화 동역학을 반영하는 문체 주석으로 전사문을 증강한다. 휴지와 템포를 토큰으로 인코딩해 모델이 의미 내용과 함께 인지 상태에 상관하는 시간적 특성을 학습하게 한다 [14].
지도 미세조정 (SFT)
학습 데이터는 system·user·assistant 메시지로 구성한다. system 프롬프트는 모사 과제를 정의하고, user 프롬프트는
질문과 메타데이터(참여자 ID, 나이, 성별, 인터뷰 날짜, 주제)를 포함하며, assistant 응답은 문체 토큰으로 증강된
참여자의 답변에 대응한다. 입력 x = (q, m)가 주어지면 모델은 응답 y를 생성하도록 학습된다.
3.2cVAE 기반 평가기
응답 품질과 인지 정렬을 평가하기 위해 다중 헤드 조건부 변분 오토인코더(cVAE) [20]를 도입한다. 생성 응답과 실제 응답 사이의 유사도를 평가하는 동시에 MCI 점수를 예측한다.
아키텍처와 다중 헤드 설계
cVAE는 질문 q, 메타데이터 m, 응답 y에 조건화된다. 인코더는 입력을 잠재 표현으로
사상하고(평균 μ, 로그 분산 log σ²로 매개변수화), 디코더는 응답을 재구성한다. 두 번째 헤드는 잠재 변수 z로부터
MCI 관련 점수를 예측한다.
손실 함수
학습은 재구성, KL 발산, MCI 예측 손실을 결합한다. λ는 인지 예측의 중요도를 조절하며, MCI 손실에 더 높은 가중을 부여한다.
cVAE는 생성 응답이 실제 언어·인지 패턴에 얼마나 가까운지 측정하는 도전자(challenger)로 작동한다. 표준 유사도 지표와 달리, 문체적 충실도와 인지 관련성을 결합해 함께 평가한다.
실험 결과Experimental Results
4.1데이터셋
노인(75세 이상)의 대화 참여에 관한 무작위 임상시험에서 파생된 I-CONECT 데이터셋 [5]을 사용한다. 인지 정상군과 MCI 참여자를 모두 포함한다. 제약된 과제 기반 데이터셋과 달리 I-CONECT는 자연스럽고 종단적인 대화를 담아 개인 언어 패턴 모델링에 적합하며, 전사문·상호작용 동역학·메타데이터 같은 다중 모달 데이터를 포함한다. 약 70명 중 충분한 종단 데이터를 위해 세션이 가장 많은 5명을 선별했다. 6개월마다 반복된 평가로 시간적 인지 변화를 모델링할 수 있다. MoCA(몬트리올 인지 평가)는 기억·주의·언어·실행 기능 영역을 평가하는 30점 인지 선별 도구로, 점수가 낮을수록 손상이 크다.
4.2 · 4.3전처리·미세조정·특징 추출
음성 재처리와 화자 분리
원본 전사문에 ASR 오류가 있어 Whisper [17]로 오디오를 재처리하고, pyannote 다이어라이제이션 [3]으로 화자 역할을 분리해 참여자 응답을 정확히 추출했다.
주제 기술자 생성
세션 수준 임베딩을 Sentence-BERT [18]로 생성하고 PCA로 축소해 cVAE 입력용 주제 기술자를 얻었다. 기저 모델 GPT-4.1-mini를 미세조정했으며, 손실 감소·정확도 증가로 안정적 수렴을 보였다.
임베딩 특징
all-mpnet-base-v2 [18]로 문장 수준 임베딩을 계산한다. 질문·답변이 여러 문장을 포함할 수 있으므로 문장 임베딩을 평균·표준편차로 집계해 고정 길이 표현을 얻는다.
감성 특징
distilbert [19]로 문장별 감성 점수를 추출하고, 질문·답변 양쪽에 대해 평균·표준편차로 집계한다.
4.4특징 분석 — 신원 보존
생성 응답을 올바른 참여자에게 귀속할 수 있는지 SVM 분류기로 신원 보존을 평가한다. 표 1은 임베딩·감성·결합 특징에 걸친 결과를 실제·GPT·디지털 트윈 응답별로 보여준다. 디지털 트윈은 모든 설정에서 실제 데이터에 근접한 정확도를 달성하는 반면, 기저 GPT 모델은 현저히 낮다(예: 임베딩 Mean+STD에서 44.15 vs 48.55 vs 19.90). 임베딩과 감성을 결합할 때, 특히 평균과 표준편차를 함께 사용할 때 최고 성능을 보인다.
| 특징 | 표현 | 참여자 | GPT | 디지털 트윈 |
|---|---|---|---|---|
| 임베딩 | Mean | 48.35 | 19.44 | 42.90 |
| STD | 35.64 | 21.70 | 32.99 | |
| All | 47.12 | 21.02 | 36.86 | |
| Mean+STD | 48.55 | 19.90 | 44.15 | |
| 감성 | Mean | 50.64 | 24.31 | 41.17 |
| STD | 44.62 | 23.36 | 41.27 | |
| All | 46.61 | 22.36 | 29.87 | |
| Mean+STD | 48.37 | 23.28 | 41.73 | |
| 임베딩+감성 | Mean | 49.96 | 20.87 | 43.55 |
| STD | 42.83 | 22.24 | 37.56 | |
| All | 49.27 | 22.25 | 37.54 | |
| Mean+STD | 50.95 | 21.51 | 44.42 |
4.5디지털 트윈 평가 — 재구성과 MoCA 예측
cVAE 모델을 나이·인터뷰 시점·맥락 정보를 포함한 메타데이터와 함께 실제 질문–답변 쌍으로 학습한 뒤, 세 출처의 응답을 평가한다 — ① 실제 참여자 응답, ② 기저(raw) GPT 모델, ③ 미세조정(FT) 모델인 디지털 트윈. cVAE는 두 역할을 한다. 평균제곱오차(MSE)로 재구성 품질을 측정하고, 입력 질문·생성 응답·메타데이터로부터 MoCA 점수를 예측해 언어적 충실도와 인지 일관성을 함께 평가한다. cVAE 학습은 첫 20에폭에 걸쳐 손실이 꾸준히 감소하며 안정적으로 수렴한다.
| 참여자 | P1 | P2 | P3 | P4 | P5 |
|---|---|---|---|---|---|
| 실제 응답 | 0.0094 | 0.0078 | 0.0077 | 0.0078 | 0.0086 |
| 디지털 트윈 | 0.0098 | 0.0084 | 0.0094 | 0.0094 | 0.0089 |
표 2는 다섯 참여자의 재구성 오차를 보고한다. 디지털 트윈은 실제 응답과 매우 근접하며(예: P1에서 0.0094 vs 0.0098), 오차가 좁은 범위(0.0077–0.0098)에 머물러 강한 유사성과 효과적인 언어 패턴 포착을 보인다.
MoCA 점수 예측 오차 — 트윈은 실제에 정렬, GPT는 크게 벗어남
표 3은 실제 응답·기저 GPT·디지털 트윈 출력의 MoCA 예측 오차를 제시한다. 디지털 트윈은 참여자 전반에서 실제 데이터와 밀접하게 정렬되는 반면(예: 0.94 vs 0.92), 기저 GPT는 현저히 큰 오차(3.53–5.08)를 보여 인지 정렬이 부족하다. 전체적으로 디지털 트윈은 낮은 예측 오차(0.40–1.08)를 유지해 인지 관련 정보를 보존하고 언어적·인지적으로 유의미한 패턴을 포착함을 입증한다. 이는 지속적 인지 모니터링과 인지 저하 조기 발견을 위한 비침습적 도구로서의 잠재력을 부각한다.
결론과 향후 연구Conclusion & Future Works
노인의 인지 행동을 모델링하는 언어 기반 디지털 트윈 프레임워크를 도입했다. LLM을 활용하고 휴지·템포 같은 문체적 단서를 통합함으로써 언어 스타일과 시간적 동역학을 함께 포착한다. 지도 미세조정을 통해 디지털 트윈은 실제 대화와 매우 닮은 개인화 응답을 생성한다. 응답 충실도와 인지 일관성 평가를 위해 재구성 품질과 인지 예측을 함께 측정하는 cVAE 기반 프레임워크를 제안했다. 결과는 디지털 트윈이 개인 고유의 언어 패턴을 포착하고, 기저 GPT 응답을 능가하면서 실제 데이터에 준하는 재구성·MoCA 예측 오차를 달성함을 보인다. 이는 언어 기반 디지털 트윈이 인지 건강 모니터링을 위한 신뢰할 만하고 비침습적인 도구가 될 수 있음을 입증한다.
다중 모달 디지털 트윈
I-CONECT 데이터셋의 오디오·비디오 등 추가 모달을 통합해 다중 모달 디지털 트윈으로 확장한다. 음성 특징과 표정을 통합하면 정서적·행동적 신호 모델링이 향상되어, 더 정확하고 포괄적인 디지털 트윈으로 이어진다. 이는 실세계 환경에서 인지 평가를 강화하고 인지 저하의 견고한 모니터링을 지원할 잠재력이 있다.
표본 규모와 일반화
본 연구의 한계는 상대적으로 작은 표본 규모다. 향후 연구는 더 크고 다양한 코호트에서 프레임워크를 평가해 일반화와 견고성을 높인다. 또한 참여자 간 일반화를 조사해 프레임워크의 견고성을 추가로 검증한다.