2025년 이후 약물-표적 단백질 상호작용 및 결합 강도 예측 기술의 혁신적인 발전을 벤치마크 데이터셋을 중심으로 탐구합니다.
약물이 특정 표적 단백질에 결합하는지 여부를 예측하는 이진 분류 모델입니다. 신약 후보 물질의 유무를 판별하는 첫 단계입니다.
약물과 표적 간의 결합 강도를 Kd, Ki, IC50 등의 수치로 예측하는 회귀 문제입니다. 약효의 정량적 평가를 가능하게 합니다.
키나아제 단백질 442개와 68개 억제제 간의 Kd 기반 데이터. 30,056건의 고품질 상호작용 포함.
Kinase FocusIC50, Kd, Ki 통합 스코어링. 118,254건 상호작용 제공.
Multi-Metric290만 건 이상의 대규모 데이터베이스. ChEMBL, PubChem 통합.
Large ScaleBindingDB 및 KIBA의 주요 원천 데이터 공급원. 수백만 건의 생체 활성 기록.
전통적인 신약 개발은 15년 이상의 긴 시간과 막대한 비용이 소요됩니다. AI는 SMILES 문자열이나 분자 그래프, AlphaFold 구조 정보를 활용하여 이 과정을 획기적으로 단축하고 있습니다.
| 카테고리 | 대표 모델 | KIBA MSE |
|---|---|---|
| Sequence-based | DeepDTA | 0.143 |
| Graph-based | GraphDTA | 0.124 |
| Multi-modal | 3DProt-DTA | 0.117 |
대부분의 데이터가 키나아제에 편중되어 있어 GPCR 등 타 단백질군 적용 시 성능 저하가 발생합니다.
분자의 유연성(Conformation) 및 실제 생체 내 동적 환경을 정확하게 반영하는 데 한계가 존재합니다.
"결합하지 않음"을 나타내는 데이터의 품질과 임계값 설정 문제로 모델 신뢰도가 저하될 수 있습니다.
모델의 Attention 가중치가 실제 생물학적 결합 부위를 얼마나 정확히 설명하는지에 대한 검증이 필요합니다.
AlphaFold3, ESM-3와 Graph Transformer를 결합한 범용 생명과학 AI 구축.
3D 도킹 기반 데이터 증강 및 자동 필터링을 통한 데이터 품질 극대화 (DrugForm-DTA).
ADMET 예측 및 합성 가능성 연계, FDA 규제 준수 AI 모델 개발.
GPCR, 이온 채널 등 광범위한 단백질을 포함하는 SCOPE 데이터셋 확대.
수백만 개의 화합물 라이브러리에서 잠재적 후보 약물을 광속으로 선별합니다.
이미 승인된 약물을 암, 알츠하이머 등 신규 질병 치료에 활용하는 경로 탐색.
특정 키나아제 선택성을 예측하여 부작용을 최소화하는 정밀 설계 지원.
환자 맞춤형 질병 모델 데이터를 활용한 개인화된 약물 발굴 지원.
하나의 약물이 여러 표적에 미치는 복합적인 영향을 예측하여 신약 가치 증대.
KIBA 사전 학습 후 특정 암 세포주(GDSC) 데이터로 튜닝하여 선도 화합물 도출.
2025년 이후, AI 모델은 키나아제 영역에서 실험 데이터에 필적하는 정확도를 확보했습니다. 이제는 일반화(Generalization)와 해석 가능성(Interpretability)을 확보하여 실제 임상 및 신약 개발 현장에 통합되는 것이 핵심 과제입니다.