Artificial Intelligence in Precision Medicine

AI 기반
신규 치료 모달리티
신약 후보 발굴

저분자 화합물, PROTAC, 펩타이드, 백신에 이르는 다양한 치료 모달리티에서 인공지능과 물리 기반 시뮬레이션이 신약 후보 발굴을 가속하는 방법을 다룬다.

Summarized By

Sungsoo Kim

Affiliation

Artificial Intelligence Reseach Lab @ ETRI

Scope

4 Topics · AI Drug Discovery

SCROLL TO EXPLORE

00 — 배경 · 왜 AI인가

제약 산업의 생산성은
수십 년간 감소해 왔다

반도체 산업은 무어의 법칙(Moore's Law)에 따라 2년마다 집적도가 두 배로 향상되어 왔다. 그러나 제약 산업의 R&D 생산성은 정반대의 궤적을 그린다. 이를 무어의 법칙을 거꾸로 뒤집은 이룸의 법칙(Eroom's Law)이라 부른다.

FIG. 반도체 집적도는 지수적으로 증가한 반면, 안전 규제 강화 등으로 제약 R&D 효율은 지속 하락했다. 出處: Scannell et al., Nat. Rev. Drug Discov. 11, 191–200 (2012)

신약 하나에 드는 시간과 비용

타깃 발굴(Target-to-hit)에서 출시(Launch)까지, 신약 개발은 8단계에 걸친 확률의 곱으로 이루어진다. 각 단계의 성공률 p(TS)과 소요 시간, 분자당 비용이 누적되면서 최종 자본화 비용은 기하급수적으로 커진다.

~13년

타깃 발굴부터 시장 출시까지의 평균 개발 기간

~$10억

신약 하나당 필요 개발 비용 (약 1조 4천억 원)

$1,778M

자본 비용(이자 등)까지 고려한 출시당 총 투자비용

出處: Paul, S. M. et al., Nat. Rev. Drug Discov. 9, 203–14 (2010)

차세대 신약 개발 전략의 방향

2012년 이후 신약 개발 생산성이 소폭 반등했다. 이는 유전체 분석을 통한 희귀질환 및 개인 맞춤형 치료제의 발달에 따른 것으로 해석된다. 효율성을 근본적으로 끌어올리기 위한 두 축은 다음과 같다.

A.인공지능 기반 신약 탐색 및 설계. 방대한 화학·단백질 공간을 학습된 모델로 탐색하여 유망 후보를 선별한다.
B.물리 기반 시뮬레이션을 통한 신약 설계. 분자동역학(MD)과 자유에너지 계산으로 결합 친화도를 정량적으로 예측한다.

2024년 노벨 화학상은 단백질 구조 예측 및 디자인에 기여한 업적에 수여되었다.

David Baker

University of Washington · 계산 기반 단백질 디자인(computational protein design)에 대한 공로.

Demis Hassabis

Google DeepMind · 단백질 구조 예측(protein structure prediction) 공로.

John M. Jumper

Google DeepMind · AlphaFold를 통한 단백질 구조 예측 공로.

단백질 신약 디자인을 위한 세 가지 생성 AI 모델

01 · Structure Generation

RFdiffusion

확산 모델(diffusion model)로 단백질 구조를 de novo 생성한다. Watson et al., Nature (2023)

02 · Structure → Sequence

ProteinMPNN

주어진 백본 구조에 맞는 아미노산 서열을 설계한다. Dauparas et al., Science 378 (2022)

03 · Structure Prediction

AlphaFold

서열로부터 3차원 구조를 고정밀 예측한다. Jumper et al., Nature (2021)

확산 모델과 AlphaFold의 등장

확산 모델은 순방향으로 이미지에 노이즈를 점진적으로 더하고, 역방향으로 이를 제거하도록 학습하여 고해상도 이미지를 생성한다. 동일한 원리가 단백질 구조 생성에 적용된다. 2020년 12월 구글 딥마인드가 발표한 AlphaFold2는 CASP 대회에서 차순위 모델을 압도적으로 능가하며 단백질 3차원 구조를 실험 결과에 근접하는 정밀도로 예측했다(예: T1037 90.7 GDT, T1049 93.3 GDT).

노벨상 기술이 산업계의 주목을 받다

Xaira Therapeutics

미국 AI 신약개발 기업 자이라 테라퓨틱스가 10억 달러(약 1조 3,800억 원) 규모의 자금을 조달하며 공식 출범했다. 헬스케어 투자 위축 국면에서 이례적인 대규모 펀딩으로 평가된다.

Isomorphic Labs

Eli Lilly, Novartis 등 세계적 제약사와 전략적 협력을 체결했다. 두 협력은 로열티를 제외하고도 약 30억 달러 가치에 달할 수 있으며, 다중 타깃 저분자 프로그램에 집중한다.

AI 발굴 후보물질의 임상 성공률

AI로 발굴·설계된 분자는 타깃 발굴, 저분자, 항체, 백신, 재창출 등 다양한 응용에서 임상 시험에 진입하고 있다. 2014년 1건에서 2023년 67건으로 급증했으며, 임상 1상(Phase I) 성공률은 80~90%로 역사적 평균을 상회한다.

1 → 67

임상 진입 AI 발굴 분자 수 (2014 → 2023)

80–90%

임상 1상 성공률 (역사적 평균 상회)

응용 모달리티 (타깃·저분자·항체·백신·재창출)

出處: Drug Discovery Today (2024) 29, 6, 104009

TOPIC 01

01 — 단백질–리간드 결합 친화도 예측

AK-Score

그래프 신경망(GNN)으로 단백질–리간드 결합 친화도를 정밀 예측하는 스코어링 모델. 가상 스크리닝에서 정확한 결합 친화도 예측은 유망 후보를 골라내는 핵심 요소다.

가상 스크리닝 · Virtual Screening

가상 스크리닝은 방대한 "가상" 분자 라이브러리에서 표적 단백질과 높은 결합 친화도를 갖는 분자를 골라내는 과정이다. 실제 라이브러리(WuXi HTS 300K, Mcule 6.5M)와 가상 라이브러리(Enamine REAL 1.36B, GalaXi 3.4B)를 도킹·약리작용단·형상·지문·머신러닝 필터로 좁혀 최종 히트 후보를 도출한다. 정확한 결합 친화도 예측이 전 과정의 성패를 좌우한다.

구조 기반 머신러닝 스코어링 함수

다층 퍼셉트론(MLP), 합성곱 신경망(CNN), 그래프 신경망(GNN) 기반의 다양한 스코어링 모델이 제안되어 왔으며, 실험 결합 친화도와 높은 상관계수를 보인다. GNN은 원자를 노드, 결합을 엣지로 표현하여 병진·회전 불변성(translational/rotational invariance)을 만족하고, 다양한 특성을 노드·엣지 특징으로 유연하게 임베딩할 수 있다.

MLPCNNGNN · Graph Attention TransformerPafnucyOnionNetSIGNAK-Score

데이터셋 · PDBbind

·23,500개 단백질–리간드 복합체 (결합 친화도 + 결정 구조 동시 보유).
·3,767개 refined set을 학습 세트로 사용 (고품질 X선 구조만).
·285개 core set을 테스트 세트로 사용 (CASF-2016, 결합 스코어 검증용 표준 세트).

모델 아키텍처 · 두 갈래 접근

Dock-C · 이진 분류

활성/비활성 판별. 임계값은 −6.8 kcal/mol (≈ 1 μM IC50). Native set은 참(true), Decoy set은 거짓(false)으로 학습한다.

L = BCE(p_true, p_pred)

Dock-R · 회귀 (조건부 손실)

세트별 독립 손실을 적용한다. Decoy의 결합 자유에너지는 RMSD로 페널티를 부여하고, 교차 도킹 형태는 −5 kcal/mol보다 낮은 친화도를 갖도록 제약한다.

L_native = MSE(E_pred, E_true)
L_conf = MSE(E_pred, E_true + r_true)
L_cross = max(−E_pred − 5, 0)
L = L_native + L_conf + L_cross

분류 + 회귀 + 물리 모델의 앙상블

분류 모델과 회귀 모델을 앙상블하면 스크리닝 정확도가 향상되고, 여기에 물리 기반 함수를 결합하면 상위 1% 농축 계수(Enrichment Factor)가 더욱 높아진다. AK-Score 조합은 AutoDock, GlideXP 등 기존 함수를 능가한다.

FIG. 앙상블과 물리 기반 함수 결합 시 농축 계수가 증가한다. 出處: Shen et al., J. Med. Chem. 2022, 65; Hong, Ko, Lee, J. Cheminfo 2024, 16, 121

응용 사례 · Autotaxin 저해제 스캐폴드 최적화

Autotaxin은 대사이상 관련 지방간염(MASH)을 치료하기 위한 표적이다. 간에 과도한 지방이 축적되는 질환으로, 첫 MASH 치료제 Rezdiffra(resmetirom)가 2024년 3월 승인되었다. 시작 스캐폴드에서 MolFinder와 AK-Score2로 1만 개 이상의 분자를 생성·최적화하는 파이프라인을 구축했다.

STEP 01

스캐폴드 제약 생성

MolFinder로 스캐폴드 유지 분자 생성 · >100,000 후보

STEP 02

도킹 · 상위 선별

AK-Score2로 상위 1,000 분자 선정

STEP 03

합성 · 결합 분석

63개 화합물 합성 및 결합 어세이

23/63

활성으로 확인된 분자 (pIC50 > 6.0)

8 nM

최고 IC50 (알려진 최고 저해제 ~1 nM에 근접)

AUC 0.76

AK-Score ROC (AutoDock 0.70, GlideXP 0.56, GlideSP 0.44 대비 우위)

出處: Kwon, Y., Lee, J., J. Cheminform 13, 24 (2021) · KRICT 오광석·임채조 박사 협력

PROTAC은 기존 저분자로 접근 불가능하던 "undruggable" 표적을 분해로 공략하는 새로운 모달리티다.

TOPIC 02

02 — 표적 단백질 분해

PROTAC 발굴

스크리닝과 자유에너지 계산을 결합하여 근육 특이 E3 리가아제 KLHL41의 리간드를 발굴한다. 표적 단백질 분해제(TPD)는 기존 저분자를 보완하는 치료 모달리티로 주목받는다.

PROTAC · Proteolysis Targeting Chimera

PROTAC은 표적 단백질과 E3 리가아제를 동시에 결합시켜 유비퀴틴화(ubiquitination)를 유도하고, 세포의 분해 기구가 표적을 제거하도록 만든다. 표적에 촉매적으로 작용하며 결합만으로는 기능을 억제할 수 없던 단백질도 분해로 제거할 수 있다.

FIG. PROTAC이 리가아제–표적 삼원 복합체를 형성 → 유비퀴틴화 → 프로테아좀 분해로 이어지는 촉매적 순환.

KLHL41 · 근육 세포 특이 E3 리가아제

AlphaFold로 예측한 KLHL41 구조와 리간드 결합 부위를 기반으로, Enamine 23만 개 분자 라이브러리에서 도킹 가상 스크리닝을 수행한 뒤 절대 결합 자유에너지 계산으로 최종 후보를 도출했다.

INPUT

표적 구조 + 라이브러리

AlphaFold 예측 구조 · Enamine 230K 분자

DOCK

가상 스크리닝

AutoDock-GPU → Glide SP 상위 10K → Glide XP 상위 1K

FEP

자유에너지 계산

상위 60개 분자동역학(MD) 기반 절대 결합 자유에너지

HIT

최종 후보

상위 30개 히트 후보 선별

절대 결합 자유에너지 계산의 정확도

벤치마크에 따르면 절대 결합 자유에너지 계산의 평균 오차는 1.5~2.0 kcal/mol로, 신약 개발에 충분한 수준이다. 열역학 순환(thermodynamic cycle)을 통해 단백질·리간드·복합체의 상태 간 자유에너지 차이를 정량한다.

出處: Cournia et al., JCIM 2017, 57, 2911 · Gapsys et al., Commun Chem 4, 61 (2021) · Bhati et al., JCTC 2022, 18, 2687

결과 · EN10과 cKBD-1

EN10

CETSA 스크리닝에서 KLHL41과 결합하는 신규 바인더로 확인. 열 안정성 이동(thermal shift)이 뚜렷하게 관측되었다.

cKBD-1

EN10 기반으로 설계된 BRD4 분해제. DC50 = 0.64 nM의 강력한 분해 활성을 나타낸다.

cKBD-1은 KLHL41을 높게 발현하는 근육 세포(RD, RH30)에서 선택적으로 BRD4를 분해하는 반면, KLHL41 발현이 낮은 세포주(OV90, A549, SW480, HeLa)에서는 분해가 관측되지 않는다. 분화된 C2C12 근육 세포에서도 근육 특이적 분해가 확인되어, 조직 특이적 표적 분해 전략의 가능성을 보인다.

出處: Lim et al., "Discovery of a KLHL41 Ligand for Muscle Specific Protein Degradation", Nat. Comm. accepted · 최지은·김보민 · 경북대 박종민 교수 협력

TOPIC 03

03 — 단백질 생성 모델 기반 펩타이드 설계

GLP1R/GIPR
이중작용제 설계

단백질 생성 모델을 활용하여 GLP1R과 GIPR 두 수용체에 동시에 작용하는 신규 이중작용제 펩타이드를 설계한다. 이중작용제는 각 호르몬의 이점을 결합하여 치료 효과를 극대화한다.

GLP-1 / GIP Dual Agonist

GLP-1과 GIP는 각각 뇌(식욕·음식 섭취 감소, 체중 감소), 췌장(인슐린 분비·합성 증가, 베타세포 생존), 백색 지방조직(지방 분해·합성 조절)에 작용한다. Tirzepatide처럼 두 경로를 동시에 활성화하는 이중작용제는 단일 작용제 대비 치료 효과를 극대화한다. 다만 GLP-1과 GIP는 반감기가 1~2분으로 매우 짧아, Semaglutide(165h)·Tirzepatide(120h)처럼 지방산 결합 등으로 반감기를 연장한 유도체가 개발되어 왔다.

신규 이중작용제 발굴 파이프라인

목표는 GLP1R과 GIPR 모두에 작용하는 신규 이중작용제 펩타이드를 설계하는 것이다. 설계 → 필터링 → 최종 후보 선정 → 실험 검증의 4단계로 구성된다.

DESIGN

설계

신규 펩타이드의 구조와 서열 결정

FILTER

필터링

설계 서열의 GIPR·GLP1R 결합 여부 예측

SELECT

최종 후보 선정

필터링 후 서열 순위화

VALIDATE

실험 검증

이중작용제 기능 여부 실험 검증

펩타이드 후보 설계 세부 파이프라인

입력 구조(GIPR–Tirzepatide 복합체: 7FIY, 7RBT, 7VAB)로부터 펩타이드 백본을 생성하고 서열을 생성한다. 이후 각 수용체와의 복합체를 AlphaFold2 → Rosetta relax → 특징 추출(featurize) 순으로 모델링하여, GIPR·GLP1R 결합 예측 모델로 최종 서열을 선별한다.

FIG. GIPR–Tirzepatide 입력 구조에서 백본·서열을 생성하고 두 수용체 복합체를 모델링·평가하여 최종 이중작용제 서열을 도출한다.

出處: Hakyung Lee & Juyong Lee · 준비 중인 원고(Manuscript in preparation)

영유아를 위한 RSV 백신은 아직 존재하지 않는다.
단백질 디자인으로 신규 항원을 설계한다.

TOPIC 04

04 — 단백질 생성 모델 기반 항원 설계

백신 디자인

단백질 생성 모델을 활용하여 호흡기세포융합바이러스(RSV)의 신규 항원을 de novo 설계한다. 목표는 영유아 및 어린이를 위한 RSV 백신 항원을 개발하는 것이다.

RSV · Respiratory Syncytial Virus

RSV는 호흡기 감염을 일으키는 전염성 바이러스로, 영유아 호흡기 입원의 주요 원인이다. 전 세계적으로 약 6,400만 명에게 영향을 미치고 매년 16만 명이 사망한다. 2023년 5월 FDA가 고령자·임산부용 첫 RSV 백신(Arexvy·Abrysvo·Mresvia)을 승인했으나, 미성숙한 영아 면역계로 인해 영유아용 백신은 아직 존재하지 않는다.

RSV 융합(F) 단백질

·융합 단백질은 단백질 분해 활성화 이후 구조 변화(conformational change)를 겪는다.
·전융합(prefusion) 형태는 준안정(meta-stable) 상태로 재접힘 에너지 장벽이 낮다.
·재접힘 과정은 비가역적이며, 후융합(postfusion) F는 녹는점 > 90℃로 매우 안정하다.

에피토프 스캐폴딩을 통한 신규 항원 설계

전융합 특이적 항체 에피토프 중 Site Ø와 Site V는 전융합 형태에만 존재한다. 이 두 부위를 스캐폴드로 사용하여 신규 항원을 de novo 설계했다(결정 구조 PDB: 5W23 참조).

계산 기반 합성 항원 설계

전융합 F 에피토프에서 출발하여 스캐폴드 설계 → 스캐폴드 영역 서열 설계 → in silico 검증의 순으로 진행한다. 내부/외부 프로토머 반발(intra/inter-protomer repulsion)을 고려한 구조 유지(structural maintenance)를 통해 안정적인 항원을 확보한다.

MD와 MM-PBSA를 통한 최종 항원 선별

Rosetta 점수 기준 상위 100개 설계에 대해 분자동역학 시뮬레이션을 수행했다. ff14SB 힘장(force field)과 TIP3P 물 모델로 100ns 3회 실행 후 MM-PBSA 계산을 진행했다. 실험을 위해 N-말단과 C-말단이 노출되어야 하므로, 말단 영역이 노출된 10개 설계를 최종 후보로 선정했다.

결과 · aRF6

면역 반응 비교

설계된 항원 aRF6는 기준 항원 DS-Cav1과 유사한 수준의 면역 반응을 유도한다.

부위 특이성

aRF6는 Site Ø·II 등 전융합 특이 부위에 대해 부위 특이적(site-specific) 면역 반응을 유도한다.

出處: Hwang et al., bioRxiv 2026.01.28.702448 · 한국화학연구원 권영찬 박사 · 생명공학연구원 신호철 박사 협력

차세대 백신 디자인 플랫폼

Viral vector, mRNA, 단백질 서브유닛 등 최신 백신 플랫폼과 단백질 구조 분석 기반 항원 개발을 결합하여, 미해결 병원성 감염병의 예방·치료를 위한 백신 디자인 플랫폼을 구축한다. 항원은 바이러스 표면 단백질을 대상으로 하며, 구조 분석을 통해 신속하게 항원을 개발한다.

05 — 결론

정리

01AI 모델은 다양한 모달리티에서 신약 후보 발굴을 가속한다. 저분자, PROTAC, 단백질, 백신에 이르는 전 영역에 적용된다.
02AK-Score2는 기존 에너지 함수보다 히트 후보를 더 정확하게 판별하는 신규 단백질–리간드 결합 친화도 모델이다.
03단백질 디자인 AI 모델은 신규 나노바디(nanobody)를 설계할 수 있으며, 이중작용제 펩타이드 설계로 확장된다.
04단백질 디자인 모델은 백신 설계에도 적용되어, 기존에 백신이 없던 표적에 대한 신규 항원을 만들어낸다.

제약 산업의 생산성은수십 년간 감소해 왔다

AK-Score

PROTAC 발굴

GLP1R/GIPR이중작용제 설계

백신 디자인

정리

제약 산업의 생산성은
수십 년간 감소해 왔다

GLP1R/GIPR
이중작용제 설계