1. ChemBERTa: 화학 특화 트랜스포머
ChemBERTa는 SMILES 문자열을 텍스트 데이터처럼 처리하는 RoBERTa 기반의 화학 특화 모델입니다. 수백만 개의 PubChem 및 ZINC 화합물 데이터를 통해 Masked Language Modeling(MLM) 방식으로 사전 학습되었습니다.
핵심 특징
- RoBERTa 아키텍처 기반의 SMILES 학습
- 77M ~ 100M 파라미터의 경량 모델
- 분자 물성 및 생물학적 활성 예측 특화
실무 활용
- QSAR 모델링 및 가상 스크리닝
- ADMET 독성 예측 베이스라인 구축
- Mac M3 MPS 가속을 통한 초고속 파인튜닝
"ChemBERTa는 경량화된 구조 덕분에 Mac M3와 같은 로컬 환경에서도 대규모 데이터셋을 매우 빠르게 처리할 수 있는 최고의 가성비 모델입니다."
2. TxGemma: 치료학 특화 제너럴리스트 LLM
Google DeepMind의 Gemma-2를 기반으로 탄생한 TxGemma는 700만 개 이상의 치료학적 멀티모달 데이터를 학습한 전문 언어 모델입니다. 단순 수치 예측을 넘어 신약 개발 전 과정에 대한 자연어 설명력을 갖추고 있습니다.
강점 및 성능
- S TDC 벤치마크 66개 태스크 중 대다수에서 SOTA 성능 달성
- E 결과에 대한 자연어 근거 제시 (Explainability)
- V 2B, 9B, 27B 등 다양한 모델 스케일 제공
"TxGemma는 단순히 활성을 예측하는 것을 넘어, 왜 특정 화합물이 독성을 가질 가능성이 높은지 전문가 수준의 설명을 제공합니다."
Mac M3 Recommendation
9B 이하 모델 혹은 양자화(Quantized) 버전 사용 시 로컬 환경에서도 우수한 성능을 발휘합니다.
3. Agentic-Tx: 지능형 연구 에이전트 시스템
Agentic-Tx는 단일 모델을 넘어선 프레임워크입니다. Gemini 오케스트레이터가 TxGemma를 도구로 사용하여 스스로 사고하고 문제를 해결하는 멀티스텝 추론 시스템을 지향합니다.
에이전틱 연구 프로세스
18개 이상의 외부 도구(PubMed, SMILES Analyzer 등)를 연동하여 인간 연구원의 워크플로우를 모사합니다. ChemBench 및 Humanity’s Last Exam에서 SOTA를 기록하며 고난이도 추론 능력을 입증했습니다.
종합 비교: Hit Selection & Lead Optimization
| 항목 | ChemBERTa | TxGemma | Agentic-Tx |
|---|---|---|---|
| 주요 초점 | SMILES 기반 물성 예측 | 치료학 통합 예측 및 설명 | 연구 워크플로우 자동화 |
| 모델 규모 | 경량 (~100M) | 중대형 (2B ~ 27B) | 시스템 레벨 (멀티 모델) |
| 설명 가능성 | 보통 (어텐션 분석 가능) | 높음 (자연어 설명 제공) | 매우 높음 (수행 과정 추적) |
| Mac M3 적합성 | 최적 (매우 빠름) | 좋음 (9B 이하 권장) | 보통 (API 연동 권장) |
단계별 도입 로드맵
Step 1: 데이터 학습 환경 구축
ChemBERTa를 활용하여 QSAR 베이스라인을 구축하고 대규모 화합물 라이브러리의 특징을 빠르게 추출합니다.
Step 2: 예측 정교화 및 해석
TxGemma를 도입하여 ADMET 등의 복합적인 물성을 정밀하게 예측하고, 예측 결과에 대한 전문적인 해석 근거를 확보합니다.
Step 3: 연구 파이프라인 자동화
Agentic-Tx 구조를 설계하여 타겟 탐색부터 독성 평가, 최종 보고서 작성까지 이어지는 연구 파이프라인을 지능화합니다.
ChemBERTa
"화학의 언어를 이해하는 전문 번역가"
TxGemma
"치료학의 모든 지식을 섭렵한 지식인"
Agentic-Tx
"지식을 활용해 문제를 해결하는 연구 조수"