S
Research Trends

LLM 기반 바이오메디컬 지식그래프 마이닝과 신약개발

2025년 이후의 주요 연구개발 주제와 관련 논문들을 심층 정리한 결과입니다. 이 연구들은 LLM의 지식 부족 및 환각 문제를 지식그래프로 보완하고, 신약개발 전 과정의 효율성과 설명 가능성을 높이는 데 중점을 둡니다.

Survey 2025

2025 KG-LLM 융합 서베이 (medklm.pdf)

이 서베이 논문은 LLM 기반 바이오메디컬 지식그래프(KG) 마이닝의 개념을 명확히 정의한다. 바이오메디컬 지식을 그래프 형태로 구축하고 이를 LLM이 검색, 추론, 설명에 활용하도록 결합하는 방향으로 연구가 급격히 발전 중임을 강조한다. 특히 LLM의 지식 부족과 환각 문제를 KG로 보완하는 통합 프레임워크의 중요성을 제시하며, KG 구축, KG를 통한 LLM 및 예측 강화, KG-LLM 공동 모델 응용의 세 가지 핵심 연구 관점을 소개한다.

논문 전문 보기
Nature Machine Intelligence

iKraph (Nature Machine Intelligence, 2025)

iKraph는 PubMed 전체 초록, 40여 개의 공개 데이터베이스, 유전체 데이터 등을 통합하여 대규모 KG를 자동으로 구축하는 플랫폼이다. 기존 수작업 데이터베이스의 한계를 넘어선 관계 커버리지를 제공하며, COVID-19 약물 재창출 연구에 실제 적용하여 초기 4개월 만에 1,200여 개의 후보 약물을 식별하고 그중 일부가 임상시험 및 문헌을 통해 사후 지지받았음을 입증하였다. 이는 KG 기반의 신약개발 파이프라인이 실제 효용성을 가짐을 보여준다.

논문 전문 보기
Patterns 2025

LLM×신약개발 리뷰 (Patterns, 2025)

이 리뷰 논문은 신약개발의 전 과정에 LLM이 어떻게 통합될 수 있는지를 광범위하게 요약한다. 표적-질병 연결 탐색, 약물의 효능 및 안전성 예측, 임상시험 프로세스 지원 등 다양한 단계에서 LLM의 잠재력을 조명한다. 또한, 급증하는 바이오메디컬 데이터 속에서 이질적인 정보를 통합하고 자동 지식 발견을 가능하게 하는 핵심 도구로서 KG의 부상과 LLM과의 상호보완적 결합의 필요성을 강조한다.

논문 전문 보기
EMNLP 2025

LLaDR (EMNLP 2025)

LLaDR은 LLM이 생성한 "치료 관련 엔티티 설명"과 "텍스트 임베딩"을 KG 임베딩(KGE) 모델에 결합하여 약물 재창출 성능을 향상시키는 새로운 방법을 제안한다. 특히 DRKG(Drug-Repurposing Knowledge Graph)를 기반으로 실험하여, 기존의 구조 기반 KGE 모델(TransE, DistMult, RotatE 등) 대비 링크 예측 정확도(MR, MRR, Hits@k, AUC)를 일관되게 개선하였음을 보여준다.

논문 전문 보기
NAACL 2025 Findings

GraPPI (NAACL 2025 Findings)

GraPPI는 타깃 단백질 식별 과정에서 단백질-단백질 상호작용(PPI) 신호 경로를 탐색하고 설명하는 GraphRAG 기반 에이전트 시스템이다. PPI 경로를 서브태스크(엣지 단위)로 분해하고, 검색-분석-설명 워크플로우를 통해 타깃 ID를 지원한다. 이 방법은 STRING 데이터셋 기반 KG를 활용하여 LLM의 설명 품질(BERTScore, ROUGE 지표)과 대규모 그래프 탐색의 토큰 효율성을 크게 개선하였다.

논문 전문 보기
ACL 2025

PKAG-DDI (ACL 2025)

PKAG-DDI는 약물-약물 상호작용(DDI) 예측을 단순한 라벨 분류 문제에서 벗어나 "임상적으로 해석 가능한 DDI 이벤트 텍스트 생성" 문제로 재정의한다. 약물 쌍의 생물학적 기능 지식을 선택적으로 모델에 주입하여 DDI 설명을 생성하며, MecDDI와 DDInter2.0과 같은 전문 데이터셋에서 높은 생성 품질(BLEU, METEOR, ROUGE-L)을 달성하였다. 이는 특히 길고 복잡한 DDI 텍스트 설명에서 강력한 성능을 보인다.

논문 전문 보기
IJCAI 2025

REx (IJCAI 2025; arXiv 2025)

REx는 약물 재창출 예측의 "설명 가능성"을 중점적으로 다루며, 강화 학습(RL)을 활용하여 과학적 설명의 바람직한 성질(충실성, 단순성, 관련성)을 직접 보상으로 최적화하는 경로 탐색 방법을 제안한다. Hetionet, PrimeKG, OREGANO 등의 벤치마크 KG에서 Hits@k 및 MRR 성능을 기존 최첨단 모델 대비 향상시키면서, 예측 결과에 대한 신뢰성 있는 과학적 근거를 제시하는 데 기여한다.

논문 전문 보기
OpenReview 2025-26

GoT-inspired KG-grounded LLM 재창출

이 연구는 Graph of Thoughts(GoT) 개념을 도입하여 LLM 기반 약물 재창출 파이프라인의 효율성과 환각 완화를 목표로 한다. PrimeKG에서 다수의 경로를 생성하고, LLM이 오직 이 경로 기반으로만 추론하도록 강제하는 방식을 사용한다. 이 접근법은 비제약적인 에이전트 기반 워크플로우 대비 적은 호출 수, 시간, 토큰 사용량으로도 유사한 정확도를 달성하며, LLM의 한계를 극복하는 실용적인 방법을 제시한다.

논문 전문 보기
arXiv 2025

소셜미디어 기반 부작용 KG (arXiv 2025)

이 연구는 소셜미디어(Reddit) 데이터에서 LLM(GPT-4o-mini)을 활용하여 약물 부작용 트리플을 추출하고 KG를 구축하는 방법을 제시한다. Semaglutide 약물의 사례 연구를 통해 FAERS와 같은 규제 데이터에서 포착하기 어려운 환자 중심의 경미하거나 주관적인 부작용 신호를 탐지할 수 있음을 입증한다. 이는 소셜미디어가 빠른 약물 부작용 신호 탐지에 유용하나, 비정형 데이터의 특성상 LLM 기반 추출 및 표준화가 필수적임을 강조한다.

논문 전문 보기