Technical Report 2026

신약 개발을 위한 최신 공개
벤치마크 데이터셋

데이터 희소성과 실험적 노이즈를 극복하고 모델의 재현성을 확보하기 위한 인공지능 기반 약물 발견의 필수 리소스 가이드

1. 개요: 데이터 기반 신약 개발의 필수요소

현대 신약 개발에서 AI 모델의 성능은 양질의 데이터셋에 달려 있습니다. 특히 다음과 같은 주요 연구 단계에서 벤치마크 데이터셋은 나침반 역할을 합니다.

Hit Selection: 초기 활성 화합물 식별 (Virtual Screening, HTS 데이터 기반)
Lead Optimization: 활성, 선택성 및 ADMET 개선을 위한 구조 최적화

핵심 가치는 데이터 희소성 및 실험적 노이즈 극복이며, 모델의 재현성과 신뢰성을 검증하는 데 필수적입니다. 주로 RDKit, DeepChem, Pandas 등 Python 생태계를 활용하여 분석이 이루어집니다.

2. MoleculeNet: 분자 머신러닝의 표준 벤치마크

MoleculeNet은 분자 특성 예측을 위한 가장 권위 있는 태스크 집합으로, 70만 개 이상의 화합물을 포함하고 있습니다.

단계별 활용

Hit Selection: PCBA, MUV, HIV 데이터셋 활용
Lead Optimization: ESOL (용해도), Lipophilicity, FreeSolv 등 ADMET 특성 최적화

Python 워크플로우 (DeepChem)

DeepChem 라이브러리를 사용하면 복잡한 데이터 로딩을 단 한 줄로 해결할 수 있습니다.

dc.molnet.load_pcba() # 데이터 즉시 로드

Scaffold Split: 단순 무작위 분할이 아닌 화학 구조적 일반화 평가에 유리한 방식 적용
표현체 생성: GraphConv, ECFP 등 다양한 분자 표현체 생성 및 학습 지원

3. Therapeutics Data Commons (TDC): ADMET 및 실전 AI 연구

TDC는 약물 발견 전 주기를 아우르는 AI-ready 데이터셋 및 리더보드를 제공하는 허브입니다.

핵심 영역: ADMET Group (Caco2, Solubility, Clearance, Toxicity 등 22개 데이터셋)
강점: Scaffold 및 Temporal split 등 실제 연구 환경을 반영한 분할 전략 지원

Python 워크플로우 (TDC SDK)

pip install tdc 설치 후 다음과 같이 활용할 수 있습니다.

admet_group()으로 데이터 접근
Pandas DataFrame 형식을 제공하여 전처리가 용이함
group.evaluate()를 통해 표준 Metric (AUC, MAE 등) 자동 계산

4. DUD-E & DEKOIS 2.0: 가상 스크리닝 성공의 척도

구조 기반 가상 스크리닝(Docking) 및 Scoring Function 성능 평가를 위한 표준 데이터셋입니다.

DUD-E: 102개 타겟에 대해 활성 물질과 물리화학적으로 매칭된 Decoy 제공
DEKOIS 2.0: 잠재적 편향성을 보완한 81개 타겟 데이터셋

분석 절차

RDKit으로 SDF 파일 로드 및 Conformer 생성
Docking 수행 후 활성 물질 vs Decoy 랭킹 분석
Enrichment Factor(EF), ROC-AUC, BEDROC 지표로 평가

5. ChEMBL: 최대 규모의 Open Bioactivity 데이터베이스

수백만 건의 큐레이션된 약리 활성(IC50, Ki 등) 및 화합물-타겟 쌍 정보를 포함하는 방대한 자원입니다.

용도: HTS-like 어세이 분석 및 구조-활성 관계(SAR) 최적화 연구
활용 방법: chembl_webresource_client를 통한 API 기반 필터링 및 추출

참고: ChEMBL 데이터를 사용할 때는 pIC50 변환 및 RDKit 표준화(Standardization)를 포함한 전처리가 필수적입니다.

6. 실전 활용 팁 및 결론

성공적인 모델링을 위해서는 단순한 알고리즘 경쟁을 넘어 데이터의 본질을 이해해야 합니다.

성공 전략

Multi-objective Optimization (Potency + ADMET)
실험적 검증(Validation) 결합

공통 도구: RDKit, Pandas, scikit-learn, XGBoost, PyTorch Geometric, DeepChem, Optuna

주의사항: 데이터 품질 확인, 편향(Bias) 최소화, 다중 목표 최적화를 항상 고려해야 합니다.

신약 개발을 위한 최신 공개 벤치마크 데이터셋