학술 분석: Summarized by Sungsoo Kim @ ETRI

데이터 중심 신약개발의 한계 극복:
ChEMBL 기반 Hit Selection의 질적 전환

현대 신약개발의 핵심인 ChEMBL 데이터의 본질을 진단하고, AI/ML 기반 탐색 과정의 8대 병목 현상을 해결하기 위한 차세대 R&D 전략을 제시합니다.

ChEMBL: 증거의 집합체

ChEMBL 37(2026.05) 기준 300만 화합물 데이터를 보유한 이 플랫폼은 단순 통계가 아닌 '복합적 증거 저장소'입니다. pIC50 수치에만 의존하는 의사결정은 데이터의 맥락을 간과할 위험이 큽니다.

ChEMBL Data Visualization

8대 핵심 병목 현상

  • • 어세이 이질성(Assay Heterogeneity)
  • • 표적 확신도 및 매커니즘 모호성
  • • 허위 양성(False Positive) 실험 방해
  • • 데이터 편향성(Publication Bias)
  • • 스캐폴드 누수(Scaffold Leakage)
  • • ADMET/개발가능성 정보 부족
  • • 최신 모달리티 대응 미흡
  • • 재현성 및 Lineage 부족

차세대 R&D: Assay-Aware 전환

01. 맥락 인식

상세 메타데이터를 벡터화하여 모델 입력값의 질적 향상을 도모합니다.

02. 다중 목적 최적화

Potency를 넘어 ADMET, 합성 가능성, IP 가치를 통합 고려합니다.

03. 불확실성 관리

예측의 신뢰도를 측정하고 표준화된 Provenance 라인을 구축합니다.

04. 모달리티 인지

PROTAC 등 최신 신약 개발 역학을 반영한 학습을 수행합니다.

현장형 Hit Selection 권장 전략

R&D 방향 핵심 구현 아이디어
Assay-aware 모델메타데이터(세포주, 표적 신뢰도) 통합 인코딩
False-positive triageChemFH 기반 간섭 예측 및 직교 실험 추천
Negative-data 통합능동 학습을 통한 음성 데이터 확보
Multi-objective 엔진Potency, ADMET, IP 동시 최적화
Reproducible 파이프라인모델 Lineage의 자동 기록 시스템 구축