Learning Guide: Bio AI Technology

TxGemma로 이해하는
바이오 AI 핵심 가이드

구글이 개발한 치료제 개발 특화 AI 모델을 통해 신약 개발의 디지털 혁신과 핵심 개념을 탐구합니다.

바이오 AI의 새로운 지평: TxGemma

TxGemma는 구글의 'Gemma'를 기반으로 치료제 개발(Therapeutic Development)에 최적화된 전문 AI 모델입니다. 단순한 언어 모델을 넘어 분자 및 단백질 상호작용을 깊이 있게 이해하도록 미세 조정되었습니다.

Fine-tuned Molecular Reasoning Open Weights

모델 규모 및 요구사항

2B (20억) VRAM 10.5GB+

9B (90억) 정교한 예측/대화

27B (270억) 기업용/고도화 추론

AI의 교과서: TDC 데이터셋

Therapeutics Data Commons (TDC)는 단순한 데이터 모음이 아닌, AI가 치료제 개발 지침을 학습할 수 있도록 정제된 'Curated Instruction Data Sets'입니다.

소분자 (Small Molecules)
단백질 (Proteins)
핵산 (Nucleic Acids)
세포주 (Cell Lines)

training_process.log

> Loading TDC dataset...

> Applying Instruction Tuning

> Learning molecule interactions [OK]

> Fine-tuning drug properties [OK]

> Model training complete.

⌬ 분자의 언어: SMILES

컴퓨터가 3차원 분자 구조를 이해할 수 있도록 텍스트로 변환한 형식입니다. 마치 분자의 '디지털 주민등록번호'와 같습니다.

Example: Tylenol (Acetaminophen) CC(=O)NC1=CC=C(C=C1)O

프롬프트 구조의 중요성

TxGemma는 TDC 데이터로 엄격하게 훈련되었기 때문에 작업명, 입력 유형, TDC 정보가 포함된 특정 템플릿을 준수해야 최상의 결과를 도출합니다.

Task: Drug Property Prediction

Context: Answer the following question...

Question: Given a drug SMILES string...

Drug SMILES: CC(=O)NC1=CC=C(C=C1)O

실전 활용: 3가지 핵심 예측 지표

약물-타겟 상호작용

후보 약물이 목표 단백질에 효과적으로 결합하는지 예측합니다.

#비용절감 #효율성

BBB 투과성

약물이 뇌를 보호하는 혈뇌장벽을 통과할 수 있는지 사전에 판단합니다.

#부작용방지 #중추신경계

P-당단백질 기질

세포 펌프에 의해 약물이 배출되는지 예측하여 수송 효율을 파악합니다.

#Efflux #배출예측

예측과 추론의 조화:
대화형 모델

9B 및 27B 모델은 단순한 결과값을 넘어, 멀티턴 상호작용을 통해 '왜' 그런 결과가 나왔는지 이유(Explanation)를 설명해줍니다.

Note: 설명 가능성(Explainability)을 높이는 튜닝 과정은 순수한 정답률과 미세한 트레이드오프가 발생할 수 있습니다.

이 약물이 왜 BBB를 통과하지 못하나요?

분자의 친수성(Hydrophilicity)이 높고 분자량이 커서 수동 확산(Passive Diffusion)을 통한 혈뇌장벽 통과가 어려울 것으로 예측됩니다. 또한 특정 구조가 P-당단백질의 기질로 작용할 가능성이 큽니다.

누가 사용하나요?

🧪

약학 화학자

Medicinal Chemists

🧬

약리학자 / 생물정보학자

Pharmacologists & Bioinformaticians

오늘의 핵심 요약

1
TxGemma는 2B~27B 규모의 신약 개발 특화 AI입니다.
2
TDC는 AI를 똑똑하게 가르치는 전문 교과서 데이터셋입니다.
3
SMILES는 분자의 디지털 언어로, 전용 프롬프트와 함께 사용됩니다.

Available on Hugging Face, Google Model Garden, Vertex AI, and Kaggle