TxGemma로 이해하는
바이오 AI 핵심 가이드
구글이 개발한 치료제 개발 특화 AI 모델을 통해 신약 개발의 디지털 혁신과 핵심 개념을 탐구합니다.
바이오 AI의 새로운 지평: TxGemma
TxGemma는 구글의 'Gemma'를 기반으로 치료제 개발(Therapeutic Development)에 최적화된 전문 AI 모델입니다. 단순한 언어 모델을 넘어 분자 및 단백질 상호작용을 깊이 있게 이해하도록 미세 조정되었습니다.
모델 규모 및 요구사항
AI의 교과서: TDC 데이터셋
Therapeutics Data Commons (TDC)는 단순한 데이터 모음이 아닌, AI가 치료제 개발 지침을 학습할 수 있도록 정제된 'Curated Instruction Data Sets'입니다.
- 소분자 (Small Molecules)
- 단백질 (Proteins)
- 핵산 (Nucleic Acids)
- 세포주 (Cell Lines)
> Loading TDC dataset...
> Applying Instruction Tuning
> Learning molecule interactions [OK]
> Fine-tuning drug properties [OK]
> Model training complete.
⌬ 분자의 언어: SMILES
컴퓨터가 3차원 분자 구조를 이해할 수 있도록 텍스트로 변환한 형식입니다. 마치 분자의 '디지털 주민등록번호'와 같습니다.
CC(=O)NC1=CC=C(C=C1)O
프롬프트 구조의 중요성
TxGemma는 TDC 데이터로 엄격하게 훈련되었기 때문에 작업명, 입력 유형, TDC 정보가 포함된 특정 템플릿을 준수해야 최상의 결과를 도출합니다.
Task: Drug Property Prediction
Context: Answer the following question...
Question: Given a drug SMILES string...
Drug SMILES: CC(=O)NC1=CC=C(C=C1)O
실전 활용: 3가지 핵심 예측 지표
약물-타겟 상호작용
후보 약물이 목표 단백질에 효과적으로 결합하는지 예측합니다.
#비용절감 #효율성BBB 투과성
약물이 뇌를 보호하는 혈뇌장벽을 통과할 수 있는지 사전에 판단합니다.
#부작용방지 #중추신경계P-당단백질 기질
세포 펌프에 의해 약물이 배출되는지 예측하여 수송 효율을 파악합니다.
#Efflux #배출예측예측과 추론의 조화:
대화형 모델
9B 및 27B 모델은 단순한 결과값을 넘어, 멀티턴 상호작용을 통해 '왜' 그런 결과가 나왔는지 이유(Explanation)를 설명해줍니다.
Note: 설명 가능성(Explainability)을 높이는 튜닝 과정은 순수한 정답률과 미세한 트레이드오프가 발생할 수 있습니다.
이 약물이 왜 BBB를 통과하지 못하나요?
분자의 친수성(Hydrophilicity)이 높고 분자량이 커서 수동 확산(Passive Diffusion)을 통한 혈뇌장벽 통과가 어려울 것으로 예측됩니다. 또한 특정 구조가 P-당단백질의 기질로 작용할 가능성이 큽니다.
누가 사용하나요?
약학 화학자
Medicinal Chemists
약리학자 / 생물정보학자
Pharmacologists & Bioinformaticians
오늘의 핵심 요약
-
1
TxGemma는 2B~27B 규모의 신약 개발 특화 AI입니다.
-
2
TDC는 AI를 똑똑하게 가르치는 전문 교과서 데이터셋입니다.
-
3
SMILES는 분자의 디지털 언어로, 전용 프롬프트와 함께 사용됩니다.