Article Source
EVO - DNA Foundation Models
- Episode 96 of the Stanford MLSys Seminar Series!
- Sequence Modeling and Design from Molecular to Genome Scale with EVO
- Speaker: Eric Nguyen
Bios:
Eric Nguyen is a PhD student at Stanford in the BioEngineering department. He’s advised by Steve Baccus in neurobiology, Chris Ré in computer science, and Brian Hie in chemical engineering, and is a part of Hazy Research and Evo Design labs.
Abstract
We report Evo, a genomic foundation model that enables prediction and generation tasks from the molecular to genome scale. Using an architecture based on advances in deep signal processing, we scale Evo to 7 billion parameters with a context length of 131 kilobases (kb) at single-nucleotide, byte resolution. Trained on whole prokaryotic genomes, Evo can generalize across the three fundamental modalities of the central dogma of molecular biology to perform zero-shot function prediction that is competitive with, or outperforms, leading domain-specific language models. Evo also excels at multi-element generation tasks, which we demonstrate by generating synthetic CRISPR-Cas molecular complexes and entire transposable systems for the first time. Using information learned over whole genomes, Evo can also predict gene essentiality at nucleotide resolution and can generate coding-rich sequences up to 650 kb in length, orders of magnitude longer than previous methods. Advances in multi-modal and multi-scale learning with Evo provides a promising path toward improving our understanding and control of biology across multiple levels of complexity.
이번 논문에서는 Evo라는 게놈 기반 모델을 소개합니다. 이 모델은 분자 수준에서 게놈 수준까지 예측 및 생성 작업을 수행할 수 있게 해줍니다. 딥 신호 처리 분야의 발전을 기반으로 하는 아키텍처를 사용하여 Evo는 단일 뉴클레오티드, 바이트 해상도에서 컨텍스트 길이 131kb (킬로베이스)를 가진 70억 개의 파라미터로 확장했습니다.
전체 원핵생물 게놈으로 훈련된 Evo는 분자 생물학의 중심 교리인 세 가지 기본 양식 (DNA, RNA, 단백질) 전체에서 일반화하여 최첨단 영역별 언어 모델과 경쟁하거나 능가하는 제로샷 기능 예측을 수행할 수 있습니다. 또한 Evo는 다중 요소 생성 작업에도 뛰어나며, 처음으로 합성 CRISPR-Cas 분자 복합체 및 전체 이동 가능 시스템을 생성한다는 것을 보여줍니다. Evo는 전체 게놈에서 학습한 정보를 사용하여 뉴클레오티드 분해능으로 유전자 필수성을 예측하고 최대 650kb 길이의 코딩이 풍부한 시퀀스를 생성할 수 있으며, 이는 기존 방법보다 몇 배 더 긴 길이입니다. Evo를 통한 다중 모달 및 다중 규모 학습의 발전은 다양한 복합성 수준에서 생물학에 대한 이해와 제어를 향상시키는 유망한 길을 제시합니다.