AI 기반 ADMET 예측 — 학술 개관

Definition정의

ADMET은 약물의 체내 동태(Absorption, Distribution, Metabolism, Excretion)와 안전성(Toxicity)을 총칭하는 약동학·독성 프로파일이다. AI 기반 ADMET 예측은 분자 구조 — SMILES 문자열, 분자 그래프, 3차원 좌표 — 로부터 이러한 특성을 데이터 주도적으로 추정하는 계산 과제이다.

전통적 QSAR(정량적 구조-활성 관계) 모델링을 넘어, 그래프 신경망, 대규모로 사전학습된 분자 기반모델, 멀티태스크·멀티모달 학습으로 확장된 것이 현 세대의 핵심 특징이다. 즉, 손으로 설계한 기술자(descriptor)에 의존하던 방식에서 표현을 스스로 학습하는 방식으로의 전환이 정의의 중심에 있다.

Problem Definition문제 정의

형식적으로, 분자 m에 대해 다수의 엔드포인트 — Caco-2 투과도, 혈장단백 결합률, CYP450 저해, hERG 심독성, DILI(약물유발 간손상) 등 — 를 동시에 예측하는 다중 회귀·분류 문제로 정식화된다.

f_θ : ℳ → ℝ^K_reg × {0,1}^K_cls
// ℳ: 분자 공간 · K_reg: 회귀 엔드포인트 · K_cls: 분류 엔드포인트

핵심 난점은 네 가지로 응축된다. 레이블 희소성(assay마다 데이터 규모가 극단적으로 불균형), 실험 측정 노이즈, 분포 이동(신규 화학공간으로의 out-of-distribution 일반화), 그리고 엔드포인트 간 상관 구조를 어떻게 활용하거나 보존할 것인가이다.

Core Concepts핵심 개념

분자 표현 학습

ECFP 지문, 분자 그래프, SMILES 토큰, 3D conformer 등 서로 다른 표현이 각기 다른 귀납 편향을 부여한다.

멀티태스크 학습

상관된 엔드포인트를 공유 표현으로 함께 예측해 데이터 부족을 상호 보완한다.

사전학습·전이

대규모 미표지 분자 코퍼스에서의 self-supervised pretraining으로 소규모 assay 성능을 끌어올린다.

불확실성 정량화

보정된 신뢰도와 도메인 적용성(applicability domain)이 실무 신뢰성의 두 축을 이룬다.

Introduction서론

신약개발 후기 실패의 상당 부분은 약효 부족이 아니라 부적절한 ADMET 프로파일에서 기인한다. 이는 "fail early, fail cheap" 원칙 아래 개발 초기의 in-silico 스크리닝을 전략적 요충지로 만든다. 값비싼 임상 후기에서 무너지기 전에, 계산으로 위험 후보를 걸러내자는 발상이다.

딥러닝 도입 이후 예측 정확도는 꾸준히 개선되었으나, 실무 채택은 여전히 신뢰성·해석성·일반화라는 벽에 부딪힌다. 그 결과 2025년 전후의 연구 흐름은 벤치마크 점수 경쟁에서 신뢰 가능한 예측(trustworthy prediction)과 기반모델화(foundation-model paradigm)로 무게중심을 옮겨가고 있다.

Motivation & Background동기와 배경

동기는 명료하다. 실험적 ADMET 측정은 비싸고 느린 반면, 탐색해야 할 화학공간은 drug-like 분자만 해도 10⁶⁰ 규모로 추정될 만큼 광대하다. 이 간극을 메우는 것이 계산 예측의 존재 이유다.

배경 기술로는 Therapeutics Data Commons(TDC)의 표준 벤치마크화, ChEMBL 등 공개 assay 데이터의 축적, 그리고 그래프·트랜스포머 기반 분자 인코더의 성숙이 맞물린다. 특히 TDC의 ADMET 그룹 벤치마크는 방법 간 공정 비교의 공통 기준점을 제공하며 이 분야의 발전을 정량화하는 척도가 되어 왔다.

Challenges도전 과제

데이터 측면. assay 이질성과 레이블 노이즈, 그리고 희귀 독성 엔드포인트에서 특히 심각한 클래스 불균형이 학습을 왜곡한다.

모델 측면. 구조가 미세하게 달라지는데 활성이 급변하는 활성 절벽(activity cliff)에서 모델이 취약하고, 분포 이동 하에서 성능이 급락하며, 벤치마크 지표가 실제 의사결정 유용성과 괴리되는 문제가 있다.

신뢰성 측면. 보정된 불확실성의 부재와 해석성 결핍은 규제 및 현장 채택의 근본적 장벽으로 남아 있다.

Research Questions연구 질문

대규모 사전학습 분자 기반모델은 소규모 ADMET assay로 얼마나 효과적으로 전이되는가?
불확실성 정량화를 어떻게 보정하고, 이를 도메인 적용성과 결합할 것인가?
활성 절벽과 out-of-distribution 상황에서 견고성을 어떻게 확보하는가?
예측 정확도가 아니라 프로스펙티브 의사결정 개선을 검증하려면 어떤 평가 프로토콜이 필요한가?

Approaches / Methods접근 방법

현 세대의 방법론은 크게 네 갈래로 수렴한다.

구조 인코더

MPNN·Graph Transformer 등 그래프 신경망으로 분자 구조를 직접 학습.

분자 기반모델

대규모 self-supervised 사전학습 후 소규모 assay에 파인튜닝하는 패러다임.

멀티모달 융합

지문·그래프·3D·assay 텍스트를 결합한 멀티태스크 표현 학습.

불확실성·에이전트

앙상블·conformal prediction, 그리고 예측 도구를 오케스트레이션하는 LLM 에이전트.

Key Applications주요 응용

응용은 hit-to-lead 최적화 단계의 다중 파라미터 최적화(MPO) 지원, 가상 스크리닝 라이브러리의 ADMET 사전 필터링, 생성모델과 결합한 ADMET-aware de novo 설계, 그리고 hERG·DILI 같은 안전성 엔드포인트의 조기 경보에 집중된다.

특히 GraphRAG·다중 에이전트 기반 hit selection 시스템의 맥락에서는, ADMET 예측이 후보 랭킹의 pruning 및 scoring 신호로 통합되어 파이프라인 전단에서 위험 후보를 조기에 배제하는 역할을 수행한다.

Open Problems미해결 과제

대부분의 성과가 retrospective 벤치마크에 국한되어 프로스펙티브 실험 검증이 부족하다는 점이 가장 근본적이다. assay 간 도메인 이동의 원리적 처리, 극희귀 독성 엔드포인트의 데이터 부족, 그리고 in-silico 예측과 in-vivo 결과 사이의 translational gap도 여전히 미결이다.

나아가 분자 기반모델이 화학적으로 타당하지 않은 예측을 생성하는 환각(hallucination) 통제 역시 신뢰성 확보의 열린 문제로 남아 있다.

Future Directions향후 방향

조건화된 멀티모달

화학·생물 정보와 assay 조건까지 조건화하는 통합 기반모델.

Lab-in-the-loop

active learning으로 예측-실험 폐루프를 돌려 데이터 효율을 극대화.

기전 기반 모델링

인과·메커니즘에 근거한 예측으로 해석성과 전이성을 강화.

프로스펙티브 평가

실제 의사결정 개선을 측정하는 표준 평가 프로토콜의 확립.

AI 기반
ADMET 예측분자가 몸을 통과하는 여정