AlphaGenome: 게놈 이해 증진을 위한 AI 모델
규제 변이 영향 예측을 발전시키고 게놈 기능에 대한 새로운 통찰력을 약속하는 통합 DNA 서열 모델의 공개.
게놈은 세포의 지침 매뉴얼입니다. 생명체의 외형, 기능, 성장, 번식 등 거의 모든 부분을 지시하는 완전한 DNA 세트입니다. 게놈 DNA 서열의 작은 변이는 유기체의 환경 반응이나 질병 감수성을 변화시키는 요인이 됩니다. 그러나 분자 수준에서 게놈 지침이 어떻게 읽히는지, 그리고 작은 DNA 변이가 발생할 때 어떤 일이 일어나는지에 대한 해독은 여전히 생물학의 최대 미스터리 중 하나입니다.
AlphaGenome은 인간 DNA 서열 내 단일 변이 또는 돌연변이가 유전자 조절의 광범위한 생물학적 과정에 미치는 영향을 더욱 포괄적이고 정확하게 예측하는 새로운 인공지능(AI) 도구입니다. 이는 모델이 긴 DNA 서열을 처리하고 고해상도 예측을 출력하도록 하는 기술 발전의 결과입니다.
AlphaGenome 작동 방식
AlphaGenome 모델은 최대 1백만 염기쌍의 긴 DNA 서열을 입력받는 구조로 설계되었습니다. 규제 활동을 특징짓는 수천 가지 분자 특성을 예측하며, 변이된 서열과 변이되지 않은 서열의 예측을 비교하여 유전 변이의 영향을 평가합니다.
- 데이터 통합 ENCODE, GTEx, 4D Nucleome 등 대규모 공공 컨소시엄의 데이터를 기반으로 훈련되었습니다.
- 하이브리드 아키텍처 컨볼루션 레이어(패턴 감지)와 트랜스포머(장거리 정보 전달)를 결합하여 처리합니다.
이 모델은 이전 게놈 모델인 Enformer를 기반으로 발전했습니다. 단백질 코딩 영역(2%)에 특화된 AlphaMissense를 보완하여, 나머지 98%인 비코딩 영역의 유전자 활동 조율을 해석하는 새로운 관점을 제공합니다.
AlphaGenome의 독특한 특징
고해상도 긴 서열 분석
최대 1백만 DNA 염기를 분석하며 개별 염기 해상도로 미세한 생물학적 세부 정보를 포착합니다.
효율적인 변이 점수화
유전 변이가 분자 특성에 미치는 영향을 단 1초 만에 점수화하여 요약합니다.
새로운 스플라이스 접합 모델링
희귀 유전 질환의 원인이 되는 RNA 스플라이싱 오류를 직접 모델링하는 최초의 사례입니다.
AlphaGenome은 24개 평가 중 22개에서 최고의 외부 모델을 능가하는 성과를 거두었습니다. 더 자세한 내용은 프리프린트 Nature 논문을 통해 확인할 수 있습니다.
강력한 연구 도구로서의 활용
질병 이해
유전적 교란을 정밀하게 파악하여 암 관련 돌연변이나 희귀 멘델 유전 질환의 기능적 영향을 해석합니다. (예: 백혈병 환자의 TAL1 유전자 활성화 예측)
합성 생물학
특정 세포 유형(예: 신경 세포)에서만 활성화되는 합성 DNA 설계 가이드를 제공합니다.
한계 및 커뮤니티 협력
현재 AlphaGenome은 100,000 염기 이상 떨어진 매우 먼 조절 요소의 영향을 포착하는 데 과제가 남아있으며, 개인 게놈 예측보다는 일반적인 유전 변이 성능 특성화에 집중하고 있습니다.
알림: 본 모델의 예측은 연구용으로만 사용되며, 직접적인 임상 목적을 위해 설계되거나 검증되지 않았습니다. 전 세계 연구자들의 피드백을 환영하며 학계 및 전문가들과의 협력을 약속합니다.