Article Source
The brilliance of AlphaFold 3
알파폴드 3 핵심 요약:
- 알파폴드 2 대비 강력하고 단순화: 단백질 접힘뿐 아니라 단백질 복합체, DNA, RNA, 리간드까지 예측 가능하며, 구조적으로 더 단순해짐.
- 일반화된 확산 모델 활용: 모든 분자 유형에 동일하게 적용 가능한 확산 기반 원자 위치 예측 방식 채택.
- 다중 모드 모델의 장점: 다양한 데이터 형태(분자 구조)를 통합하여 순수 단백질 접힘 예측 성능까지 향상.
- MSA 역할 축소 및 쌍 표현 중요도 증가: 진화적 데이터인 MSA보다 단백질 쌍의 상호작용을 나타내는 쌍 표현에 더 집중하여 예측 정확도 향상.
- 미래 전망: 더 다양한 입력 및 출력을 처리하는 더욱 일반적인 분자 모델로 발전할 가능성 제시.
새로운 알파폴드 3 알고리즘은 단순히 단백질 접힘만을 해결했던 알파폴드 2보다 훨씬 더 강력하다. 그 이유는 알파폴드 3가 단일 단백질이 어떻게 접힐지에만 관여하는 것이 아니라, 서로 다른 단백질들의 조합 또는 복합체, 그리고 DNA, RNA, 리간드까지 다룰 수 있기 때문이다. 특히 리간드는 잠재적인 신약 후보 물질인 작은 분자로서, 특정 단백질에 특정한 방식으로 결합하여 오작동하는 단백질을 교정할 수 있기 때문에 매우 흥미롭다.
많은 사람들이 알파폴드 3에 큰 기대를 걸고 있지만, 정말 놀라운 점은 알파폴드 2보다 훨씬 강력한 모델임에도 불구하고 구조가 훨씬 더 단순하다는 것이다. 이는 몇 가지 이유 때문이다. 첫째, 단백질뿐만 아니라 DNA, RNA, 리간드와 같은 다양한 데이터 형태를 수용하기 위해 이전 모델의 구조를 단순화해야 했다. 예를 들어 이전 알고리즘에는 단백질의 기본 골격을 형성하는 다양한 삼각형들의 상대적인 위치, 각도, 거리 등을 파악하는 구조 구성 요소가 있었지만, 단백질을 넘어 일반화하려고 할 때는 이러한 삼각형에 대해 더 이상 이야기할 수 없다. 따라서 삼각형, 각도, 회전 등에 대한 고려 대신 모든 원자의 위치만 다루게 된 것이다.
이러한 접근 방식은 되돌아보면 매우 합리적이다. 그들은 확산(diffusion)을 사용했는데, 이는 미드저니와 같은 AI 그림 알고리즘의 핵심 기술이다. 훈련 과정에서 알려진 다양한 원자들의 위치에 노이즈를 추가하고, 알고리즘이 그 원자들이 있어야 할 위치를 예측하도록 하는 것이다. 이 방법은 매우 강력하며, 어떤 종류의 분자 구조든 파악하는 데 동일하게 적용될 수 있다.
뿐만 아니라, 모든 유형의 분자에 대한 특별한 경우를 다루는 대신 모든 분자에 동일하게 잘 작동하는 일반화된 프레임워크를 사용하기 때문에 훨씬 더 단순하다. 또한, 그림과 텍스트처럼 서로 다른 데이터 형태를 다룰 수 있는 다중 모드(multimodal) 알고리즘이 개별 모델보다 더 강력하다는 믿을 만한 근거가 있다. OpenAI 연구의 예에서 볼 수 있듯이, 텍스트와 이미지를 동일한 방식으로 이해하도록 훈련된 특정 모델은 순수한 텍스트 기반 모델보다 텍스트 관련 작업에서 더 나은 성능을 보였다. 이는 모델이 이미지를 이해하도록 강제함으로써 세상이 어떻게 작동하는지에 대한 새로운 지식을 학습하고, 그 지식을 텍스트 작업에도 전이할 수 있기 때문이다. 알파폴드 3에서도 비슷한 현상이 일어나 단백질에 대해 학습한 내용이 다른 분자에도 적용될 수 있을 것이다. 이를 위해서는 모든 다양한 유형의 분자를 동등하게 취급하는 모델, 즉 모든 분자를 동일한 공간에 임베딩하는 모델이 필요하다. 알파폴드 3가 이러한 방식으로 더 일반적이라는 사실이 순수한 단백질 접힘 작업에서도 알파폴드 2를 능가하는 이유일 가능성이 높다.
알파폴드 3 알고리즘의 또 다른 주요 단순화는 MSA(Multiple Sequence Alignment, 다중 서열 정렬)의 역할을 크게 축소했다는 점이다. 알파폴드 2 관련 이전 영상에서 설명했듯이, 모델을 거쳐 업데이트되는 단백질 정보가 담긴 두 가지 다른 객체가 있다. 일반적으로 모든 정보를 하나의 객체에 넣지만, 알파폴드 2에는 단백질 정보의 서로 다른 부분을 인코딩하는 두 개의 다른 객체 사이의 이상한 긴장감이 존재했고, 결국 둘 다 구조를 파악하는 데 기여했다. 그 두 가지는 MSA와 쌍 표현(pair representation)이다.
MSA는 해당 단백질의 진화적 데이터를 포착한다. 예를 들어 특정 종의 특정 단백질이 어떻게 접히는지 이해하고 싶다고 가정해보자. 다양한 데이터베이스에서 해당 단백질을 검색하면 다른 종에서도 매우 유사한 단백질, 즉 동물 내부에서 동일한 기능을 수행하는 단백질을 많이 발견할 수 있다. 이는 단백질의 기능에 중요한 일부 영역과 중요성이 덜한 일부 영역이 있다는 것을 알려준다. 예를 들어 특정 영역이 항상 보존되어 모든 다른 단백질이 해당 부분에 정확히 동일한 것을 가지고 있다면, 그 부분은 아마도 중요한 부분일 것이다. 반면에 일부 다른 부분이 무작위로 변이되는 경우, 그 변이가 단백질의 기능에 큰 영향을 미치지 않을 가능성이 높다. 따라서 MSA는 해당 단백질의 진화적 역사에 대한 정보를 제공한다.
하지만 쌍 표현이라는 또 다른 중요한 표현 방식이 있다. 이는 우리가 관심을 갖는 단일 단백질을 가져와 쌍을 이루고 서로 어떻게 상호 작용하는지 살펴본다. 다시 말해, 각 항목이 쌍을 나타내고 아마도 그들에 대한 일부 정보를 인코딩하는 행렬이다. 예를 들어 그들이 얼마나 떨어져 있는지, 서로에 대해 어떤 각도를 이루고 있는지 등이다. 알파폴드 2에서는 이러한 두 표현 방식 모두 알고리즘 전체에서 업데이트되지만, 하나가 다른 하나보다 더 중요하다는 것은 분명하다. 알파폴드 2의 두 번째 부분인 구조 모듈에서 쌍 표현은 거의 참조되지 않는 반면, MSA는 매우 중요하며 반복적으로 사용된다.
알파폴드 3에서 상황이 완전히 뒤바뀌었다는 것은 정말 이상하다. MSA의 중요성은 훨씬 줄어들었고, 대신 MSA의 정보를 쌍 표현으로 밀어넣으려고 시도한다. 그런 다음 기본적으로 쌍 표현이 대부분의 정보를 인코딩하고 나중에 사용된다. 이는 MSA 모듈이라는 모듈에서 확인할 수 있다. 이 모듈의 임무는 전체 MSA를 볼 수 있는 유일한 모듈로서, 그 정보를 쌍 표현으로 압축하려고 하는 것이다. 하지만 이 모듈 자체에서 MSA에 대해서는 거의 아무것도 하지 않는 반면, 쌍 표현에 대해서는 이러한 모든 주의(attention)와 유사한 메커니즘을 적용한다. 실제로 이 전체 알고리즘에서 MSA에 적용되는 주의와 유사한 메커니즘은 단 하나, 즉 MSA 내부를 살펴보고 서로 다른 아미노산 쌍이 어떻게 관련되어 있는지 확인하는 행 주의(row attention)를 대체하는 것이다. 그들이 사용한 방법은 매우 영리하다. 쌍 표현을 사용하여 주의 점수를 결정한다. 이는 매우 영리했지만, 내가 이해가 안 됐던 부분은 MSA의 열 주의(column attention)에 무슨 일이 일어났느냐는 것이다. 열 주의는 단백질의 특정 위치를 살펴보고 다른 단백질에서는 어떻게 보이는지 비교함으로써 진화적 데이터를 처리하는 데 사용되었지만, 이제는 이러한 작업을 수행하는 주의 메커니즘이 없다. 대신 열을 따라 평균을 내리는 것과 같은 방식이 사용되어 쌍 표현에 입력된다. MSA 자체에서는 직접적으로 업데이트되지 않는다. 기본적으로 유용한 모든 정보가 쌍 표현에 도달해야 하는 병목 지점을 만들려고 시도한 것이다.
특히 리간드와 같이 MSA가 없는 특정 유형의 분자가 있기 때문에 MSA가 여전히 필요하다는 점이 흥미롭다. 리간드는 단순히 분자일 뿐이며 진화적 역사가 없다. 아마도 MSA가 덜 강조된 이유일 것이다. 진화적 데이터를 보조 수단으로 사용하는 대신, 모델이 이러한 분자들이 서로 상호 작용하도록 만드는 화학 및 물리학을 직접 학습하는 것이 더 나을 수도 있다. 이러한 모델의 미래에 대한 나의 추측은 단순히 더 일반화될 것이라는 것이다. 첫째, 더 많은 유형의 입력을 받을 것이고, 구조와 같이 매우 제한적인 문제 대신 다양한 분자에 대한 모든 종류의 것을 예측하는 데 좀 더 개방적인 LLM과 유사한 더 많은 유형의 출력을 가질 것이라고 생각한다. 적어도 내가 보고 싶은 것은 그렇다. 알파폴드 2 알고리즘에 대한 내 영상을 보고 싶다면 여기에서 찾을 수 있다.