Stop Thinking, Just Do!

Sungsoo Kim's Blog

Towards Conversational Diagnostic AI

tagsTags

17 April 2024


Article Source


Towards Conversational Diagnostic AI

  • Towards Conversational Diagnostic AI
  • Speaker: Khaled Saab and Anil Palepu

Bios

Khaled Saab is a Research Scientist at Google Research. He received his PhD and MS in Electrical Engineering from Stanford in 2023 and 2019, and BS in Computer Engineering from Georgia Tech in 2017. At Stanford, he was advised by Daniel Rubin and Chris Ré. Anil Palepu is a 4th year PhD student at Harvard-MIT Health Sciences & Technology and a student researcher at Google. His research spans many topics within machine learning for healthcare, with a focus on self-supervised methods for medical images and text. He previously attended Johns Hopkins University where he received a B.S and M.S in biomedical engineering.

Abstract

At the heart of medicine lies the physician-patient dialogue, where skillful history-taking paves the way for accurate diagnosis, effective management, and enduring trust. Artificial Intelligence (AI) systems capable of diagnostic dialogue could increase accessibility, consistency, and quality of care. However, approximating clinicians’ expertise is an outstanding grand challenge. Here, we introduce AMIE (Articulate Medical Intelligence Explorer), a Large Language Model (LLM) based AI system optimized for diagnostic dialogue.

AMIE uses a novel self-play based simulated environment with automated feedback mechanisms for scaling learning across diverse disease conditions, specialties, and contexts. We designed a framework for evaluating clinically-meaningful axes of performance including history-taking, diagnostic accuracy, management reasoning, communication skills, and empathy. We compared AMIE’s performance to that of primary care physicians (PCPs) in a randomized, double-blind crossover study of text-based consultations with validated patient actors in the style of an Objective Structured Clinical Examination (OSCE). The study included 149 case scenarios from clinical providers in Canada, the UK, and India, 20 PCPs for comparison with AMIE, and evaluations by specialist physicians and patient actors. AMIE demonstrated greater diagnostic accuracy and superior performance on 28 of 32 axes according to specialist physicians and 24 of 26 axes according to patient actors. Our research has several limitations and should be interpreted with appropriate caution. Clinicians were limited to unfamiliar synchronous text-chat which permits large-scale LLM-patient interactions but is not representative of usual clinical practice. While further research is required before AMIE could be translated to real-world settings, the results represent a milestone towards conversational diagnostic AI.

의료의 핵심: 대화를 통한 진단 지원 시스템

의료의 핵심에는 환자와 의사간의 대화가 있으며, 이 대화를 통해 정확한 진단, 효과적인 치료, 그리고 지속적인 신뢰가 형성됩니다. 진단 대화를 수행하는 인공지능(AI) 시스템은 의료 서비스의 접근성, 일관성, 질을 높일 수 있습니다. 하지만 의료 전문가의 전문성을 대체하는 것은 여전히 극복해야 할 큰 과제입니다.

이 글에서는 AMIE (Articulate Medical Intelligence Explorer)를 소개합니다. AMIE는 대규모 언어 모델(LLM)을 기반으로 진단 대화에 최적화된 인공지능 시스템입니다.

AMIE는 다양한 질병, 진료 분야, 상황에서 학습 범위를 넓히기 위해 혁신적인 자기 대결 기반 시뮬레이션 환경과 자동화된 피드백 메커니즘을 사용합니다. 우리는 진단 대화 시 중요한 평가 축을 설계했습니다. 이 축에는 환경 조사, 진단 정확도, 치료 추론, 의사 소통 능력, 공감 등이 포함됩니다. 객관적 구조화 임상 시험(OSCE) 스타일의 검증된 환자 배우와 텍스트 기반 상담을 통해 AMIE의 성능을 일차 진료 의사(PCP)의 성능과 비교했습니다. 이 연구에는 캐나다, 영국, 인도의 의료 전문가가 제공한 149개 사례 시나리오, AMIE와 비교할 20명의 일차 진료 의사, 전문의 및 환자 배우의 평가가 포함되었습니다.

연구 결과, 전문의 평가에서 AMIE는 더 높은 진단 정확도를 보였으며 32개 축 중 28개에서 우수한 성능을 보였습니다. 환자 배우 평가에서도 26개 축 중 24개에서 AMIE가 더 뛰어났습니다. 물론 이 연구에는 몇 가지 한계가 있으며 신중하게 해석되어야 합니다. 의사들은 일반적인 진료 상황과는 다른 대규모 LLM-환자 상호 작용을 가능하게 하는 익숙하지 않은 동시 텍스트 채팅에 제한되었습니다.

AMIE가 실제 의료 현장에 적용되기 위해서는 추가 연구가 필요하지만, 이번 연구 결과는 대화형 진단 인공지능 개발에 중요한 이정표가 되었습니다.


comments powered by Disqus