AI · ADMET Prediction · 2025–2026

분자를 언어로 읽는 지능
신약의 성패를 미리 계산한다

신약 후보의 90% 이상이 약동학·안전성(ADMET) 문제로 실패한다. AI는 분자 구조를 '프래그먼트 언어'로 재구성해, 실험 이전에 흡수·분포·대사·배설·독성을 in silico로 예측하는 필수 파이프라인이 되었다.

A흡수
D분포
M대사
E배설
T독성
01 — 정의

ADMET, 그리고 분자를 읽는 in silico 지능

ADMET은 흡수·분포·대사·배설·독성의 약어로, 약물 후보의 약동학적·안전성 프로파일을 포괄한다. AI 기반 예측은 GNN 등 딥러닝으로 분자 구조(SMILES·그래프·3D)로부터 이 속성을 컴퓨터 내에서 예측하는 computational toxicology·chemoinformatics 접근이다.

무엇을 예측하는가

약물 후보 물질이 체내에서 어떻게 흡수되고, 퍼지고, 분해되고, 배출되며, 독성을 일으키는지를 분자 구조만으로 미리 추정한다. 실험실 이전 단계에서 후보를 걸러내는 판단 근거가 된다.

어떻게 진화했는가

최근 모델(MSformer-ADMET, OmniMol)은 단순 예측을 넘어 해석 가능성(interpretability)멀티태스크 학습을 강조한다. 분자를 프래그먼트(조각) 언어로 재구성해 화학적 의미를 더한다.

"분자를 '언어'로 본다 — 원자와 결합은 문자, 프래그먼트는 단어, 반응성은 문법이다. 모델은 이 언어를 읽어 물성을 번역한다."

02 — 문제 정의

후보 물질의 90%는 왜 실패하는가

전통 in vitro·in vivo 실험은 비용·시간·윤리 부담이 크고, 1060 이상의 방대한 화학 공간을 탐색하기 어렵다. AI 예측의 과제는 불완전 주석 데이터, 도메인 이동, 해석 가능성 부족, 일반화 한계로 요약된다.

90%+
ADMET 문제로 인한 후보 물질 실패율
01불완전한 주석 데이터 — 라벨이 희소하고 불균형하다.
02도메인 이동(domain shift) — 새로운 스캐폴드로 일반화가 어렵다.
03해석 가능성 부족 — 블랙박스 예측은 신뢰받기 어렵다.
04일반화 한계 — 학습 분포를 벗어나면 성능이 급락한다.

"주어진 분자 구조로부터 인간에게 안전하고 효과적인 약동학적 행동을, 얼마나 정확하고 설명 가능하게 예측할 것인가."

03 — 핵심 개념

표현, 아키텍처, 지표, 데이터

AI 기반 ADMET 예측을 지탱하는 네 축이다. 분자를 어떻게 표현하고, 어떤 모델로 학습하며, 무엇으로 평가하고, 어디서 데이터를 얻는가.

Molecular Representation

분자 표현

  • SMILES — 분자를 문자열로 인코딩
  • Molecular Graph — 원자-결합 그래프
  • Fragment/Meta-structure — 질량분석 영감 프래그먼트
  • Hypergraph — 분자-속성-속성 간 관계
Model Architectures

모델 아키텍처

  • GNN / GAT — 그래프 주의 기반
  • Transformer — 멀티스케일 표현
  • Multimodal & Foundation — 대규모 사전학습
  • Ensemble/Hybrid — LightGBM+XGBoost+GNN
Key Metrics

핵심 지표

  • ROC-AUC, R², MAE, RMSE — 예측 성능
  • Chirality sensitivity — 광학 이성질체 민감도
  • Uncertainty quantification — 불확실성 정량화
  • Explainability — attention·substructure 중요도
Data Sources

데이터 소스

  • Therapeutics Data Commons (TDC)
  • PubChem
  • Curated toxicity DB — 정제된 독성 데이터
04·05 — 서론 · 동기와 배경

'혁신적 도구'에서 '필수 파이프라인'으로

2025년 이후 연구는 AI를 ADMET 예측의 필수 구성 요소로 승격시켰다. MSformer-ADMET·OmniMol·ADMETPred 등이 SOTA 성능을 달성하고, generative AI와 통합되어 de novo 설계까지 확장한다.

동기는 명확하다. 수십억 달러의 개발 비용과 10~15년의 시간을 줄이고, late-stage attrition을 최소화하며, 동물 실험을 대체해 윤리·지속가능성을 높인다. 배경은 전통 QSAR/QSPR에서 머신러닝(DT·RF·SVM), 딥러닝(GNN·Transformer)으로 이어진 진화의 궤적이다.

Classical

QSAR / QSPR

구조-활성/물성 정량 상관. 규칙 기반 기술자 설계.

Machine Learning

DT · RF · SVM

통계적 학습으로 비선형 관계 포착.

Deep Learning

GNN · Transformer

구조를 직접 학습, 표현을 자동 추출.

2025–

Multimodal · Foundation

구조+omics+이미지 통합, 대규모 사전학습. small molecule에서 biologics로 확대.

06 — 도전 과제

데이터, 모델, 실용, 그리고 규제

성능만으로는 임상 현장에 진입할 수 없다. 데이터의 편향부터 규제 수용성까지 네 층위의 장벽이 존재한다.

Data · 데이터
  • 희소성 · 불균형 · bias
  • 새로운 스캐폴드로의 제한된 일반화
Model · 모델
  • 블랙박스 성격, interpretability 부족
  • domain shift, chirality/3D 처리 미흡
Practical · 실용
  • 대량 예측 scalability, uncertainty 부족
  • 규제 수용성(신뢰성 검증), 계산 비용
Others · 기타
  • Multimodal fusion의 복잡성
  • 윤리·규제적 장벽
07 — 연구 질문

이 분야가 답하려는 네 가지 물음

Q1불완전 주석 데이터에서 어떻게 robust한 multi-task representation을 학습하는가.
Q2Fragment-aware·hypergraph 접근이 atom-level 모델보다 화학적 interpretability를 어떻게 향상시키는가.
Q3Multimodal·foundation model이 biologics ADMET 예측으로 어떻게 확장되는가.
Q4XAI와 active learning이 generative chemistry 워크플로우에 어떻게 통합되는가.
08 — 접근법 (Methods)

대표 모델 — 2025~2026

프래그먼트 사전학습, 하이퍼그래프, 하이브리드 트리+GNN. 각 모델은 서로 다른 축에서 해석 가능성과 일반화를 겨냥한다.

2025

MSformer-
ADMET

Brief. Bioinform.

질량분석 영감의 멀티스케일 프래그먼트 사전학습과 cascaded Transformer를 결합한다. Meta-structure를 attention으로 융합해 우수한 generalization을 확보한다.

Fragment PretrainingCascaded TransformerMultitask
2025

OmniMol

Nature Comm.

하이퍼그래프 관점으로 molecule-property 관계를 모델링한다. Task meta-information encoder로 explainability와 chirality sensitivity를 제공한다.

HypergraphExplainabilityChirality-aware
2026

ADMETPred

Sci. China Life Sci.

하이브리드(트리 기반 + GNN)로 해석 가능한 substructure 식별을 수행한다. 12만+ 화합물과 27개 endpoint를 다룬다.

Tree + GNN120k+ compounds27 endpoints
09 — 주요 응용

스크리닝에서 개인 맞춤 의약까지

스크리닝 · 리드 최적화

대규모 라이브러리 필터링 (ADMET-AI 등).

생성형 화학

De novo 설계 시 ADMET scoring.

독성 · 안전성

Organ-specific, hERG, CYP inhibition 예측.

중개 연구

임상 후보 우선순위, 개인 맞춤 의약, TCM 안전성 평가.

10·11 — 미해결 문제 · 미래 방향

남은 벽과, 그 너머의 방향

미해결 문제

Open Problems
일반화 · 강건성
Novel chemical space, distribution shift.
해석 가능성 vs 성능
둘 사이의 trade-off.
데이터 희소성
Biologics·rare endpoint의 데이터 부족.
규제 검증
실세계 전향적(prospective) 연구 부족.
Reward Hacking
생성 워크플로우에서의 보상 해킹.

미래 방향

Future Directions
멀티모달 · 파운데이션
3D 구조·omics·LLM 통합으로 기전 이해 강화.
설명·불확실성 인식 AI
XAI + RLHF로 신뢰성 향상.
Active/Continual Learning
실험 피드백 루프.
Hybrid Human-AI
약화학자 직관 + AI.
윤리적·확장 가능 배포
규제 프레임워크, 오픈 플랫폼, edge computing.
결론

단순 예측기를 넘어,
지능형 약물 설계 파트너

2025~2026 연구는 AI가 단순 예측기를 넘어 '지능형 약물 설계 파트너'로 진화할 것을 강력히 시사한다. 이는 비용 절감과 성공률 향상, 나아가 환자 중심 의약품 개발을 가속한다.

분자를 언어로 읽고, 안전과 효능을 실험 이전에 계산한다.

주요 출처 · Key Sources