TxGemma 기반 Agentic AI &
Hyper-Relational KG 신약 개발
ChEMBL 및 TDC 데이터를 통합한 초고밀도 지식 그래프와 TxGemma의 추론 능력을 결합하여, Hit Selection부터 Lead Optimization까지의 전 과정을 혁신하는 지능형 워크플로를 제안합니다.
🚀 1. 개요 및 배경
ChEMBL 및 TDC 데이터를 통합하여 프로세스 고도화. 데이터 기반의 지능적 추론과 다목적 최적화를 통한 연구 효율성 극대화.
Core Technology
🧬 2. Hyper-Relational KG 구축
데이터 통합 전략
- • ChEMBL 36: Bioactivity 사실 및 화합물 구조 정보
- • TDC ADMET: 22개 표준 벤치마크 데이터셋 연계
(Compound) --[INHIBITS {pIC50: 7.2, assay_id: "...", confidence: 9}]--> (Target)
단순 이진 관계를 넘는 Multi-dimensional Property 구조
🧠 3. Agentic-Tx 아키텍처
TxGemma-Predict/Chat 모델을 핵심 도구로 사용하는 자율 에이전트. ReAct 프레임워크를 기반으로 PubMed 검색, 분자 계산기 등 18개 이상의 분석 도구와 연계되어 단계별 의사결정을 수행합니다.
4. 단계별 수행 전략
Hit Selection
HKG 내 고신뢰도 활성 엣지 쿼리 및 TxGemma 기반 지능형 우선순위화.
Lead Optimization
TxGemma-Chat 기반 구조 개선 제안 및 ADMET Trade-off 최적화.
from tdc.benchmark_group import admet_group
group = admet_group(path='data/')
# hERG Toxicity Dataset
benchmark = group.get('hERG')
df_tdc = benchmark['train']
# TxGemma Inference...
상세 기술 구현
ChEMBL의 방대한 사실 데이터와 TDC ADMET의 표준화된 벤치마크를 통합하여 multi-hop 추론이 가능한 신약 개발 루프를 완성합니다.
Data Extraction
SQLite 덤프를 활용한 정밀 데이터 필터링
Scaffold Analysis
Tanimoto 유사도 기반의 구조 유사성 검색
1. 데이터 연계 및 HKG 구성
단순한 RDF 트리플 구조를 넘어, Assay 조건과 실험적 불확실성(Confidence Score)을 포함하는 Hyper-Relational 그래프를 구축합니다. 이는 Hit Selection 시 False Positive를 획기적으로 줄이는 핵심 요소입니다.
"Inhibits" 관계에 pIC50, assay_type, year 등 다차원 속성 부여
2. TxGemma Agentic Loop
Agentic AI는 "예측 -> KG 검증 -> 문헌 확인 -> 수정 제안"의 자율 순환 구조를 가집니다. Mac M3 MPS 가속 등을 통해 로컬 환경에서도 강력한 추론 성능을 보장합니다.
ReAct 프레임워크 기반의 논리적 사고 과정 시각화
후보 물질 선정 근거에 대한 고품질 자연어 생성
결론 및 미래 비전
본 워크플로는 표준화된 TDC 벤치마크를 통한 모델 신뢰도 확보와 시뮬레이션-검증 자동화 루프를 통해 개발 주기를 획기적으로 단축합니다.
Key References
- • TxGemma: Efficient and Agentic LLMs for Therapeutics (2025)
- • TDC ADMET Benchmark Group Overview
- • ChEMBL 36 SQLite Database Schema
Documentation
- • Hyper-relational KG Inference (arXiv:2104.08167)
- • Artemis: Knowledge Graphs in Drug Discovery
- • Neo4j Graph Data Science Library