ChEMBL 데이터 기반
AI 신약 개발 전략
Hit Selection에서 Lead Optimization까지,
2026년 차세대 AI/ML 기법과 바이오 데이터의 융합 로드맵
ChEMBL 위상
수백만 건의 정제된 화합물-타겟 활성 정보와 SMILES 구조를 제공하는 신약 개발의 핵심 Bioactivity DB입니다.
전략적 AI 융합
GNN, Transformer, LLM을 활용하여 어세이 조건과 메타데이터를 통합 분석하는 실용적인 워크플로를 구축합니다.
신뢰성 및 표준
FAIR 원칙 준수 및 Scaffold Split을 통한 데이터 누수 방지 전략으로 예측 모델의 객관성을 확보합니다.
주요 단계별 프로세스
Hit Selection
초기 활성 화합물을 식별합니다. pIC50 기준의 임계값을 설정하여 방대한 ChEMBL 데이터에서 유효 후보군을 선별합니다.
- Target-specific 활성 추출
- RDKit 기반 구조 표준화
Lead Optimization & ADMET
Potency, 선택성, ADMET 프로파일을 반복적으로 개선하여 최종 후보물질을 도출하는 정교한 최적화 과정입니다.
Absorption, Distribution, Metabolism, Excretion, Toxicity 프로파일을 In Silico로 예측하여 임상 실패율을 최소화합니다.
접근 방법론 (Methodology)
Target-specific 추출 및 Scaffold Split
GNN, Transformers, ChemBERTa
LLM 기반 PharmaBench, Active Learning
FEP + ML ADMET filtering
당면 과제 (Challenges)
데이터 불균질성
어세이 조건 차이에 따른 모델 일반화 성능 저하 문제 해결 필요
화학적 편향성 (Bias)
특정 타겟에 치중된 데이터로 인한 신규 스캐폴드 예측의 어려움
다중 목표 최적화
활성도 향상과 ADMET 개선 간의 Trade-off 극복
Research Questions
"Scaffold/Temporal Split 환경에서 모델의 견고함은 어느 정도인가?"
"생성형 AI와 ADMET를 결합한 De Novo 디자인은 실현 가능한가?"
"Multi-task GNN이 Specialist 모델을 얼마나 능가할 수 있는가?"
주요 활용 사례
Virtual Screening
Eg5 kinase 타겟 히트 후보 우선순위 선정
Lead Optimization
SARS-CoV-2 Mpro 최적화 연구 (효능+투과도)
ADMET Prediction
20여 종 이상의 ADMET 엔드포인트 동시 예측
미래 전망
Therapeutic LLM (TxGemma)을 활용한 End-to-End 시스템
FEP, MD 시뮬레이션과 AI의 유기적 결합