1. 3D 분자 구조의 '토큰화'와 현대적 정의
3D 분자 구조를 1차원 이산 토큰 시퀀스로 변환하는 '토큰화(Tokenization)' 기술은 2025-2026년 Mol-LLM 혁신의 핵심 동력입니다. 이는 복잡한 분자 공간을 거대 언어 모델이 이해할 수 있는 형식으로 재정의합니다.
"3D 분자 구조의 토큰화는 분자 데이터를 단순한 문자가 아닌, 기하학적 정보가 보존된 언어로 탈바꿈시킵니다."
- 패러다임 전환: SMILES/SELFIES 등 2D 표현을 넘어 결합 친화도에 결정적인 3D 컨포메이션 직접 학습
- 기술 트렌드: Geo2Seq(2025), Token-Mol(2025) 등 SE(3)-불변성을 유지하며 결합각을 인코딩하는 기술 등장
- 통합 모델링: BioMedGPT와 같은 멀티모달 LLM과 결합하여 단백질 포켓 기반의 de novo 설계 가능