Advanced Research Report

ChEMBL 데이터 기반
AI 신약 개발 전략

Hit Selection에서 Lead Optimization까지,
2026년 차세대 AI/ML 기법과 바이오 데이터의 융합 로드맵

ChEMBL 위상

수백만 건의 정제된 화합물-타겟 활성 정보와 SMILES 구조를 제공하는 신약 개발의 핵심 Bioactivity DB입니다.

전략적 AI 융합

GNN, Transformer, LLM을 활용하여 어세이 조건과 메타데이터를 통합 분석하는 실용적인 워크플로를 구축합니다.

신뢰성 및 표준

FAIR 원칙 준수 및 Scaffold Split을 통한 데이터 누수 방지 전략으로 예측 모델의 객관성을 확보합니다.

주요 단계별 프로세스

Phase 01

Hit Selection

초기 활성 화합물을 식별합니다. pIC50 기준의 임계값을 설정하여 방대한 ChEMBL 데이터에서 유효 후보군을 선별합니다.

Target-specific 활성 추출
RDKit 기반 구조 표준화

Phase 02

Lead Optimization & ADMET

Potency, 선택성, ADMET 프로파일을 반복적으로 개선하여 최종 후보물질을 도출하는 정교한 최적화 과정입니다.

Potency Improvement Selectivity Clearance

ADMET 예측

Absorption, Distribution, Metabolism, Excretion, Toxicity 프로파일을 In Silico로 예측하여 임상 실패율을 최소화합니다.

접근 방법론 (Methodology)

01. Data Prep

Target-specific 추출 및 Scaffold Split

02. Modeling

GNN, Transformers, ChemBERTa

03. Advanced Tech

LLM 기반 PharmaBench, Active Learning

04. Final Filter

FEP + ML ADMET filtering

당면 과제 (Challenges)

데이터 불균질성

어세이 조건 차이에 따른 모델 일반화 성능 저하 문제 해결 필요

화학적 편향성 (Bias)

특정 타겟에 치중된 데이터로 인한 신규 스캐폴드 예측의 어려움

다중 목표 최적화

활성도 향상과 ADMET 개선 간의 Trade-off 극복

Research Questions

"Scaffold/Temporal Split 환경에서 모델의 견고함은 어느 정도인가?"

"생성형 AI와 ADMET를 결합한 De Novo 디자인은 실현 가능한가?"

"Multi-task GNN이 Specialist 모델을 얼마나 능가할 수 있는가?"

주요 활용 사례

Virtual Screening

Eg5 kinase 타겟 히트 후보 우선순위 선정

Lead Optimization

SARS-CoV-2 Mpro 최적화 연구 (효능+투과도)

ADMET Prediction

20여 종 이상의 ADMET 엔드포인트 동시 예측

미래 전망

Automated Workflow

Therapeutic LLM (TxGemma)을 활용한 End-to-End 시스템

Physics + AI

FEP, MD 시뮬레이션과 AI의 유기적 결합

Scientific Foundations

In silico-driven protocol (2025) Nature Comm. (2025) ADMET Prediction Revolution (2025) TDC Critical Assessment (2026)

ChEMBL 데이터 기반 AI 신약 개발 전략