학술 분석: Summarized by Sungsoo Kim @ ETRI
데이터 중심 신약개발의 한계 극복:
ChEMBL 기반 Hit Selection의 질적 전환
현대 신약개발의 핵심인 ChEMBL 데이터의 본질을 진단하고, AI/ML 기반 탐색 과정의 8대 병목 현상을 해결하기 위한 차세대 R&D 전략을 제시합니다.
ChEMBL: 증거의 집합체
ChEMBL 37(2026.05) 기준 300만 화합물 데이터를 보유한 이 플랫폼은 단순 통계가 아닌 '복합적 증거 저장소'입니다. pIC50 수치에만 의존하는 의사결정은 데이터의 맥락을 간과할 위험이 큽니다.
8대 핵심 병목 현상
- • 어세이 이질성(Assay Heterogeneity)
- • 표적 확신도 및 매커니즘 모호성
- • 허위 양성(False Positive) 실험 방해
- • 데이터 편향성(Publication Bias)
- • 스캐폴드 누수(Scaffold Leakage)
- • ADMET/개발가능성 정보 부족
- • 최신 모달리티 대응 미흡
- • 재현성 및 Lineage 부족
차세대 R&D: Assay-Aware 전환
01. 맥락 인식
상세 메타데이터를 벡터화하여 모델 입력값의 질적 향상을 도모합니다.
02. 다중 목적 최적화
Potency를 넘어 ADMET, 합성 가능성, IP 가치를 통합 고려합니다.
03. 불확실성 관리
예측의 신뢰도를 측정하고 표준화된 Provenance 라인을 구축합니다.
04. 모달리티 인지
PROTAC 등 최신 신약 개발 역학을 반영한 학습을 수행합니다.
현장형 Hit Selection 권장 전략
| R&D 방향 | 핵심 구현 아이디어 |
|---|---|
| Assay-aware 모델 | 메타데이터(세포주, 표적 신뢰도) 통합 인코딩 |
| False-positive triage | ChemFH 기반 간섭 예측 및 직교 실험 추천 |
| Negative-data 통합 | 능동 학습을 통한 음성 데이터 확보 |
| Multi-objective 엔진 | Potency, ADMET, IP 동시 최적화 |
| Reproducible 파이프라인 | 모델 Lineage의 자동 기록 시스템 구축 |