Article Source
A brief history of protein structure prediction and design
Abstract
In this talk, Mohammed AlQuraishi provides an overview of the history and recent advancements in protein structure prediction and design. Topics include:
- The evolution from physics-based methods to data-driven approaches.
- Key milestones like AlphaFold’s impact on structure prediction.
- How generative AI, including RF Diffusion, is being used to design proteins with specific properties.
This presentation highlights the progress in computational methods and their role in addressing long-standing challenges in protein science. It is perfect for anyone interested in the intersection of AI and structural biology.
단백질 구조 예측 및 설계의 역사와 최신 동향
오늘 행사에 초대해 주신 주최 측과 샘, 그리고 다른 분들께 감사드립니다. 2년 만에 직접 하이델베르크 AI 행사에 참여하게 되어 정말 기쁩니다. 저는 이 분야의 역사를 개괄적으로 설명해 달라는 요청을 받았는데, 이는 다소 방대한 주제입니다. 따라서 앞으로 15분 정도 동안 빠르게 개요를 설명해 드리겠습니다. 이 분야는 수십 년 동안 존재해 왔지만, 지난 몇 년간은 정말 놀라운 르네상스를 맞이한 것 같습니다. 단백질 구조 예측, 설계 등의 역사를 제 발표에서 간략하게 다루겠습니다.
발표의 대부분은 단백질 구조 예측이라는 순방향 문제에 집중하겠지만, 역방향 문제인 설계 문제에 대해서도 계속 언급할 것입니다. 모두 잘 들리시나요? 목소리를 더 크게 해야 할까요? 좋습니다. 순방향 문제, 즉 기본적인 물리적 문제는 세포 내에서 일반적으로 리본 형태, 즉 사슬에 꿰인 구슬과 같은 형태로 합성된 단백질이 물리적 과정, 즉 자기 조립의 물리학을 통해 3차원 구조, 즉 잘 정의된 3차원 형태로 조립된다는 것입니다. 그리고 그 형태가 단백질의 기능을 결정합니다. 특히 설계의 맥락에서, 규정된 기능을 가진 단백질을 설계하려고 할 때, 종종 규정된 형태를 가진 단백질을 설계하는 것으로 귀결되는데, 이는 형태가 주어진 기능을 부여한다는 암묵적인 가정에 기반합니다. 따라서 순방향 예측 작업에서는 구조와 기능 사이에 밀접한 연관성이 있습니다. 이것이 물리적 과정이지만, 계산 과정에서 저희가 하려고 하는 것은 주어진 단백질 서열로부터 그 단백질의 구조, 즉 그 형태를 예측하는 것입니다. 형태와 구조라는 용어를 번갈아 사용할 것입니다. 그리고 역방향 과정, 즉 설계 과정은 여러분이 상상하시듯이 주어진 형태로부터 그 형태를 구현할 서열을 생성하는 것입니다. 이것이 설계이지만, 저희는 그 첫 번째 방향에 좀 더 많은 시간을 할애할 것입니다. 왜냐하면 순방향 방향이 역방향 방향에서 발생한 많은 발전에 실제로 기반이 된다고 생각하기 때문입니다. 단백질은 자연 단백질뿐만 아니라 인간이 설계한 단백질까지 모든 모양과 크기로 존재합니다. 그리고 이것이 역사적으로 어려웠던 이유는 이러한 단백질의 구조를 실험적으로 결정하는 것이 간단하지 않기 때문입니다. 존재하는 많은 방법들이 있으며, 각각 다른 장단점을 가지고 있지만, 결론적으로 여전히 상당히 비용이 많이 듭니다. 과거에는 훨씬 더 비쌌지만, 상당히 저렴해졌음에도 불구하고, 적어도 어려운 단백질 표적의 경우 구조 결정에 수천에서 수만 달러가 쉽게 소요됩니다. 따라서 이것은 일종의 불균형을 초래했습니다. 서열 측면에서 DNA 염기서열 분석 기술의 발전으로 인해 오늘날 잠재적으로 수십억 개의 단백질 서열이 결정되었습니다. 그 공간은 믿을 수 없을 정도로 잘 특성화되어 있습니다. 반대로 구조 측면에서는 실험적으로 결정된 단백질 구조가 불과 수십만 개에 불과합니다. 이것은 매우 큰 격차입니다. 그리고 이것은 역사적으로 생화학 전체에서 거의 가장 중요한 미해결 과제 중 하나였습니다. 이제 여러분은 이미 아시겠지만, 왜 우리가 구조에 그렇게 관심을 갖는지 정당하게 물을 수 있을 것입니다. 구조와 기능 사이의 연관성을 통해 이미 짐작하셨겠지만, 좀 더 자세히 설명해 보겠습니다. 특히 구조 예측이라는 순방향 방향에서 합리적인 약물 설계는 이 기술의 필요성에 대한 가장 자주 언급되는 이유 중 하나입니다. 아이디어는 다음과 같습니다. 단백질의 구조를 알고 있다면, 본질적으로 그 단백질이 세포와 다른 생체 분자 또는 결합할 수 있는 작은 분자에 제시하는 분자 표면과 같은 것을 추론할 수 있습니다. 따라서 약물 화학자가 이 단백질을 조절하는 약물을 어떻게 설계할지 고민할 때, 그 표면은 어떤 종류의 분자가 그 단백질과 결합할 수 있는지에 대한 가설을 생성하는 기반을 제공합니다. 이것이 단백질 구조 예측이 직접적인 약물 발견에 매우 강력한 힘을 발휘할 수 있는 이유 중 하나이며, 현재 산업계에서 많은 관심을 보이는 이유입니다. 합리적인 설계 외에도, 본질적으로 기능 결정 범주에 속하는 많은 다른 응용 분야가 있습니다. 그리고 이것은 구조와 기능 사이의 밀접한 연관성으로 거슬러 올라갑니다. 기본적인 전제는 구조에 대해 무언가를 알고 있다면 기능에 대해 추론할 수 있다는 것이며, 이것이 가치 있는 이유입니다. 예를 들어, 마지막 요점은 유전적 변이의 결과를 추론하는 측면에서 중요합니다. 특정 질병과 관련된 임상적 변이가 있을 때, 구조를 알면 그 돌연변이가 단백질에 어떤 영향을 미칠 수 있는지 종종 알 수 있습니다. 그리고 이 워크숍의 초점인 단백질 설계는 앞서 언급했듯이, 규정된 구조를 가진 단백질을 설계할 수 있다는 것은 암묵적으로 규정된 기능을 가진 단백질을 설계할 수 있다는 의미이며, 이는 매우 유용한 속성입니다. 이제 이 분야의 역사에 대해 조금 이야기해 보겠습니다. 지난 몇 년간 정말 놀라운 변화가 있었습니다. 이 분야는 앞서 말씀드렸듯이 수십 년 동안 존재해 왔으며, 역사적으로 초기 접근 방식들은 매우 물리적인 성격을 띠었습니다. 아이디어는 본질적으로 F=ma, 뉴턴의 법칙과 같은 기본적인 물리 법칙과 몬테카를로 (MC) 시뮬레이션이라고 불리는 일종의 샘플링 절차를 결합하는 것이었습니다. 이를 통해 본질적으로 비구조화된 초기 리본 형태에서 시작하여, 근사적인 방법, 즉 고전적 근사, 양자 역학 등을 적용하여 단백질을 접어 실제 3차원 구조를 생성할 수 있었습니다. 이것은 시뮬레이이션의 예시이며, 오래전에 스탠포드의 EJ P 그룹에서 수행한 것입니다. 그들은 실제로 그 물리적 과정을 재현하려고 했습니다. 그리고 이것은 최종 구조뿐만 아니라 그 구조가 발생하는 접힘 과정, 즉 역학에 대한 정보도 제공하기 때문에 매우 좋습니다. 종종 이 접힘 과정은 약물의 표적이 될 수 있는 중간 구조를 제공할 수 있기 때문에 매우 유용합니다. 하지만 이러한 접근 방식의 어려움은 계산 비용이 매우 높다는 것입니다. 수십 년 동안 존재해 왔음에도 불구하고, 오늘날에도 완전히 비구조화된 상태에서 시작하여 충분히 큰 단백질을 접어 그 구조를 얻는 물리적 시뮬레이션을 수행하는 것은 여전히 비현실적입니다. 너무 비쌉니다. 따라서 이것은 매우 물리적으로 동기 부여되고 여러 면에서 우아하지만, 1차 구조 문제에 대한 실용적인 해결책은 아닙니다. 이 문제를 해결하기 위해, 1990년대 중후반에 데이비드 베이커 그룹이 주도한 단편 조립이라는 개념이 등장했습니다. 아이디어는 여전히 물리적 시뮬레이션과 유사한 것을 시도하지만, 데이터 기반 관찰을 통해 이를 보완하는 것입니다. 그리고 이 분야의 역사를 설명하면서, 저희가 더 많은 물리 기반 접근 방식에서 인간 전문 지식에 의해 주도되는 것에서 거의 전적으로 데이터에 기반한 접근 방식으로 이동했다는 것을 알게 될 것입니다. 하지만 당시인 1990년대 중반에는 여전히 그 중간 단계였습니다. 아이디어는 다음과 같습니다. 이미 알려진 단백질 구조의 큰 데이터베이스가 있습니다. 본질적으로 국소적인 서열-구조 상관관계를 식별하려고 시도하면 어떨까요? 즉, 특정 서열이 특정 구조 모티프 또는 구조 단편에 대한 선호도를 일관되게 보이는지 여부입니다. 이러한 데이터베이스가 있다면, 첫 번째 물리적 시뮬레이션과 유사하지만, 이제 이러한 데이터 기반 관찰 세트에 의해 정보를 얻는 프로세스를 도출할 수 있을 것입니다. 즉, 우리가 원하는 것과 유사한 구조에서 시작하여, 그 구조가 얼마나 좋은지, 즉 에너지가 얼마나 최소화되었는지 평가하는 물리적 에너지 함수를 여전히 가지고 있습니다. 하지만 이제 우리가 알고 있는 연관성 라이브러리를 고려하여 구조 공간에서 이동할 수 있습니다. 그리고 매번 이러한 움직임 중 하나를 고려할 때, 에너지에 미치는 영향을 평가하고, 유리한 움직임이면 수행하고, 불리한 움직임이면 수행하지 않습니다. 이 접근 방식은 원리적으로 분자 역학 접근 방식보다 빠르지만, 일반적으로 구조를 실제로 해결하기 위해 대규모로 적용할 수 없는 매우 큰 가능성 공간이라는 어려움에 여전히 직면했습니다. 따라서 종종 최종적으로 사용된 방식은 템플릿이라고 불리는 최종 구조에 대한 가설에서 시작하여, 아마도 국소적으로 개선하여 더 나은 구조를 얻는 것이었지만, 처음부터 시작하여 답을 해결할 수는 없었습니다. 그리고 여기서 암묵적인 문제점은 근본적인 물리적 에너지 함수가 실제로 올바른 답으로 안내할 만큼 충분히 좋지 않았다는 사실입니다. 따라서 이러한 물리적 함수에는 항상 문제점, 한계, 근사법이 존재하여, 그것들이 진정으로 올바른 답을 제공하기에 충분하지 못하게 했습니다. 이것이 90년대와 2000년대 대부분이었고, 실제로 2010년대 초반에 1970년대까지 거슬러 올라가는 아이디어인 공진화 또는 공변량 분석이 부활했습니다. 이는 단백질 서열의 진화 개념에 매우 밀접하게 의존했습니다. 특히 아이디어는 다음과 같습니다. 관련된 단백질 서열 집합을 관찰하고, 그 관찰로부터 단백질 내의 어떤 아미노산이 3차원 공간에서 실제로 가까운지 추론할 수 있다는 것입니다. 잠시 후에 더 자세히 설명하겠습니다. 따라서 저는 앞서 급격하게 발전하고 있다고 말씀드린 서열 정보에서 공간적 제약 조건으로 이동합니다. 즉, 어떤 아미노산 잔기가 어떤 잔기와 상호 작용하는지 알려주는 것입니다. 그리고 본질적으로 단편 조립이나 심지어 분자 역학과 같은 것에 기하학적 제약 조건을 부과하는 과정을 통해 실제로 최종 네이티브 상태, 즉 최종 3차원 구조로 접힘 과정을 유도하고 안내할 수 있었습니다. 그리고 이것은 적어도 개념적인 혁명이었습니다. 그 이후로 제가 아는 어떤 발전보다도 이 분야를 더 발전시켰다고 주장할 것입니다. 잠시 후에 이것이 궁극적으로 어떻게 실현되었는지 설명하겠습니다. 하지만 기본적인 아이디어는 설명하고 있으므로, 단일 단백질 서열에서 시작하여 관련된 서열, 즉 상동 서열을 얻습니다. 그 서열에는 고도로 보존된 특정 위치가 있을 것입니다. 그것들은 특별히 유용하지 않습니다. 또한 고도로 가변적인 위치도 있을 것이며, 그 두 가지도 특별히 유용하지 않습니다. 하지만 공진화하는 위치가 있을 것입니다. 여기서 개념은 이것들이 동시에 변하는 것처럼 보이는 잔기 쌍 또는 단백질 위치 쌍이라는 것입니다. 하나가 진화하면 다른 하나도 함께 진화합니다. 그리고 기본적인 가설은 이 정보가 앞서 말씀드린 것처럼 공간적 정보를 제공한다는 것입니다. 왜냐하면 그것은 그 두 아미노산이 어떤 식으로든 상호 의존적임을 시사하기 때문입니다. 그리고 그 상호 의존성은 3차원 공간에서의 근접성으로 인해 발생할 수 있습니다. 이것이 진화에서 3차원 공간으로의 핵심적인 변환입니다. 따라서 이것은 핵심 아이디어였지만, 처음에는 즉각적인 영향을 미치지 못했지만, 결국에는 영향을 미쳤습니다. 잠시 후에 다시 말씀드리겠습니다. 좋습니다. 이제 잠시 뒤로 물러나겠습니다. 2011년 후반까지 단백질 구조 예측은 약간 이와 같았습니다. 시스템의 모든 구성 요소를 설명하지는 않겠습니다. 제 요점은 단지 매우 복잡했고, 컨볼루션 부분, 단편 조립 부분, 물리적 함수 부분 등 많은 부분으로 구성되어 있었다는 것입니다. 그리고 인간이 설계한 이러한 구성 요소들은 종종 수백만 줄의 코드로 이루어져 있었습니다. 예를 들어 B 연구실의 Rosetta나 다른 연구자들의 코드를 포함하여, 수십 년의 인간의 독창성을 나타냈지만, 동시에 수십 년의 인간의 가정을 나타내기도 했습니다. 그리고 이것이 핵심적인 문제 중 하나라고 생각합니다. 저는 항상 2018년의 이 분야와 10년 전의 컴퓨터 과학 분야 사이의 유사점을 지적합니다. 당시 컴퓨터 비전, 자연어 처리, 음성 인식과 같은 분야를 보면, 매우 많은 구성 요소와 많은 가정을 가진 복잡한 인간 설계 시스템과 매우 유사했습니다. 그리고 이 분야에서 일어난 것은 제가 생각하기에 아마도 모든 사람이 지금 알고 있는 딥러닝 진화였습니다. 오늘날 우리는 그것을 AI라고 생각하지만, 그것은 본질적으로 엔드투엔드 미분 가능성이라는 개념과 관련된 상당히 기술적인 일련의 혁신에서 시작되었습니다. 즉, 이러한 매우 복잡한 문제를 기본적으로 거대한 신경망으로 재구성하고, 전체 시스템을 통해 미분하거나 최적화하는 것입니다. 그리고 이것은 2010년대 컴퓨터 과학에서 우리가 본 모든 진전에 정말로 중요했습니다. 하지만 단백질 구조 예측은 2018년까지도 뒤처져 있었고, 말하자면 선사 시대와 같은 시대에 있었습니다. 따라서 2018년경에 이러한 개념들을 단백질 구조 예측에 적용할 수 있지 않을까 하는 긍정적인 아이디어가 떠오르고 있었습니다. 좀 더 구체적으로 말하면, 아이디어는 서열을 입력으로 받아 구조를 출력으로 생성하고, 결정적으로 모든 것이 신경망인 시스템을 구축하는 것입니다. 따라서 더 이상 물리적 에너지 함수라는 개념도, 샘플링이나 시뮬레이션이라는 개념도 없습니다. 모든 것이 신경망을 통해 암묵적으로 수행됩니다. 또한 제가 수행했던 연구에 대해 한 가지 언급하고 싶습니다. 저는 그것이 단백질 구조 예측에 대한 이러한 아이디어를 처음으로 구체화한 시스템이라고 믿습니다. 한계는 있었지만, 이 문제를 실제로 해결하는 데 궁극적으로 필요한 새로운 발전의 시작이었습니다. 하지만 이것은 2018년에 이러한 기본적인 아이디어를 처음으로 개념화하고 구체화한 접근 방식이었습니다. 동시에, 지난 20년 동안 전 세계적으로 단백질 구조 예측의 품질을 비공개 방식으로 평가하는 일종의 경쟁이 진행되어 왔습니다. 이것은 2년마다 발생했으며, 진행 상황을 정량화하는 한 가지 방법은 0에서 100까지의 범위를 갖는 GDT 지표입니다. 0은 매우 나쁘고 100은 매우 좋습니다. 그리고 이 그림에서 볼 수 있듯이, 12년 동안 우리는 본질적으로 거의 진전이 없었습니다. 포화된 것이 아니라 정체되어 있었습니다. 그리고 놀랍게도 2018년 후반에 딥마인드가 처음으로 AI 기반 시스템을 발표했고, 우리는 실질적으로 의미 있는 발전을 보았습니다. 생물학적 목적으로 실제로 유용할 만큼 충분히 좋지는 않았지만, 기술적 방법론적인 진전이었습니다. 흥미롭게도 이 시스템은 아직 완전히 신경망 기반의 접힘 시스템이라는 개념을 완전히 채택하지 않았습니다. 여전히 하이브리드 시스템이었고, 여전히 과거의 방식을 일부 사용했지만, 이 문제에 큰 진전을 가져올 수 있는 상당히 복잡한 신경망을 사용했습니다. 하지만 큰 발전은 2년 후인 2020년에 알파폴드 2 시스템이 배포되었을 때 이루어졌습니다. 이것은 실제로 완전히 엔드투엔드 미분 가능한 신경망 시스템인 세 번째 시스템이었습니다. 따라서 이것은 그 아이디어에 정말로 기울었고, 도전을 완전히 신경망으로 공식화했습니다. 따라서 우리는 완전히 물리 기반 시스템에서 물리학과 완전히 분리된 시스템으로 이동했습니다. 문자 그대로 물리학도 없고, 우리가 이러한 시스템에 대해 이해하는 것에 대한 사전 지식도 거의 없지만, 대부분 정말로 신경망으로만 이루어져 있습니다. 그리고 이것은 정말 놀라운 일입니다. 물론 이것은 아키텍처에 대해 자세히 설명하지는 않겠지만, 여기서 한 가지 강조하고 싶은 점은 이것이 작동하도록 만드는 데 핵심적인 요소, 즉 제가 개발한 신경망 기반 시스템에 핵심적인 요소는 공진화의 통합이었습니다. 따라서 그 아이디어가 궁극적으로 이러한 것들을 작동시키는 데 핵심적인 것으로 입증되었습니다. 따라서 물리학이 없다고 말씀드렸지만, 어떤 면에서는 생물학이 없는 것은 아닙니다. 그리고 핵심적인 생물학적 사전 지식은 이러한 공진화적 또는 진화적으로 관련된 서열의 도입이었습니다. 왼쪽에 있는 것이 아키텍처의 핵심적인 부분이었고, 이를 통해 모델은 개별적인 서열이 아니라 관련된 서열 집합을 기반으로 추론할 수 있었습니다. 그것이 실제로 이것을 작동시킨 것입니다. 따라서 어떤 면에서는 그 퍼즐 조각이 아마도 충분히 인정받지 못한 것이 다소 아쉽다고 생각합니다. 하지만 그럼에도 불구하고 알파폴드 2는 정말 놀라운 성과였고, 발표 후 첫 주부터 광범위한 커뮤니티와 과학 커뮤니티 전체에서 엄청난 관심이 있었습니다. 그리고 얼마 지나지 않아, 작년 말에 노벨상이 수여되었는데, 이는 매우 빠른 인정이라고 생각합니다. 그렇게 빠른 속도로 과학적 돌파구가 인정받은 사례를 많이 기억하지 못합니다. 거의 다 왔습니다. 이제 단백질 설계 부분으로 넘어가겠습니다. 한편, 이 모든 일이 일어나는 동안, 단백질 세계가 아닌 생성형 AI 세계에서 일종의 평행한 진화가 일어나고 있었습니다. 그리고 저는 지금은 단순화하려고 노력할 것입니다. 핵심 아이디어는 예측과는 달리, 예를 들어 서열에서 구조로 이동하는 예측과는 달리, 생성형 AI 세계에서는 반복적인 새로운 방법들이 등장하고 있었다는 것입니다. 그리고 이것이 한 가지 중요한 차이점인데, 즉 우리는 한 번의 시도로 예측이나 생성을 하는 것이 아니라, 본질적으로 백색 소음과 같은 것을 점진적으로 동물이 그려진 그림처럼 보이는 것으로 바꾸는 것입니다. 그리고 설명의 해상도 수준은 이 정도에서 멈추겠지만, 이러한 기본적인 접근 방식은 이제 매우 사실적인 이미지, 심지어 최근에는 실제 비디오와 구별할 수 없는 비디오를 생성하는 결과를 낳았습니다. 이것들은 모두 완전히 인간이 생성한 이미지입니다.