Article Source
Protein Design with Guided Discrete Diffusion
- Nate Gruver, Samuel Stanton
- Title: Protein Design with Guided Discrete Diffusion
- Paper: https://arxiv.org/abs/2305.20009
Summary
A popular approach to protein design is to combine a generative model with a discriminative model for conditional sampling. The generative model samples plausible sequences while the discriminative model guides a search for sequences with high fitness. Given its broad success in conditional sampling, classifier-guided diffusion modeling is a promising foundation for protein design, leading many to develop guided diffusion models for structure with inverse folding to recover sequences. In this work, we propose diffusioN Optimized Sampling (NOS), a guidance method for discrete diffusion models that follows gradients in the hidden states of the denoising network. NOS makes it possible to perform design directly in sequence space, circumventing significant limitations of structure-based methods, including scarce data and challenging inverse design. Moreover, we use NOS to generalize LaMBO, a Bayesian optimization procedure for sequence design that facilitates multiple objectives and edit-based constraints. The resulting method, LaMBO-2, enables discrete diffusions and stronger performance with limited edits through a novel application of saliency maps. We apply LaMBO-2 to a real-world protein design task, optimizing antibodies for higher expression yield and binding affinity to several therapeutic targets under locality and developability constraints, attaining a 99% expression rate and 40% binding rate in exploratory in vitro experiments.
주요 핵심 내용
이번 세미나는 유도 이산 확산(Guided Discrete Diffusion, GDD)을 활용한 단백질, 특히 항체 설계에 대한 새로운 방법론을 제시하고 그 효과를 입증하는 내용을 담고 있습니다. 주요 핵심 내용은 다음과 같습니다.
1. 적응형 생성 설계 프레임워크:
- 단백질 풀에서 시작하여 여러 목표를 최적화하고, 생성 모델로 변이를 제안하며, 판별 모델로 순위를 매기는 반복적인 설계 및 평가 프레임워크를 제시합니다.
- 평가 횟수를 효율적으로 관리하고, 불확실성을 고려하여 탐색과 활용의 균형을 맞춥니다.
2. 서열 기반 확산 모델의 활용:
- 구조 기반 방법 대신 서열 정보만 사용하는 확산 모델을 주요 방법론으로 채택합니다.
- 서열이 구조와 기능 정보를 상당 부분 포함하고 있으며, 합성 용이성 및 발현 가능성을 고려할 때 서열 기반 접근 방식이 유리함을 강조합니다.
- 마스크 기반 확산(Masked Diffusion) 방식을 통해 서열의 주변에서 샘플링하고, 인필링(Infilling) 작업이 단백질 설계와 유사함을 지적합니다.
3. 기울기 유도 이산 확산 (NOS):
- 판별 모델의 기울기를 활용하여 생성 모델의 샘플링 과정을 유도하는 새로운 방법(NOS)을 제안합니다.
- 플러그 앤 플레이 언어 모델(PPLM)의 아이디어를 차용하여, 이산적인 토큰 공간에서 기울기 기반 최적화를 가능하게 합니다.
- 생성 모델과 판별 모델이 공유하는 잠재 공간의 활성화를 이용하여 기울기를 적용하고, 목표 최적화와 높은 가능성 유지를 동시에 달성합니다.
4. 다중 목표 및 불확실성 인식 획득 함수:
- 항체 설계의 다중 목표적 특성을 고려하여, 초부피 개선(Hypervolume Improvement) 기반의 획득 함수를 사용합니다.
- 베이지안 사후 분포 및 딥 앙상블 기법을 활용하여 모델의 불확실성을 추정하고, 탐색-활용 균형을 조절합니다.
- 계층적 분석 구조를 고려하기 위해 제로 인플레이션 모델링(Zero-Inflated Modeling) 방식을 도입합니다.
5. 편집 위치 선택의 중요성:
- 모델 해석 가능성 기법(살리엔시 맵)을 활용하여 목표 개선에 가장 큰 영향을 미치는 편집 위치를 자동으로 선택하는 방법을 제시합니다.
- 특히 작은 편집 예산의 경우, 편집할 위치를 잘 선택하는 것이 토큰 분포를 미세 조정하는 것보다 더 큰 효과를 가질 수 있음을 강조합니다.
6. 항체 리드 최적화 실험 결과:
- 다양한 항원 표적에 대한 리드 분자를 대상으로 NOS 방법론을 적용하여 항체 친화도 및 발현율을 최적화하는 실험 결과를 제시합니다.
- 여러 라운드의 적응적 실험을 통해 모델을 재훈련하고 성능을 향상시키는 과정을 보여줍니다.
- 기존 연구 대비 향상된 결합률을 달성하며, 제안된 방법론의 효과를 입증합니다.
결론적으로, 이번 세미나는 유도 이산 확산이라는 새로운 접근 방식을 통해 단백질, 특히 항체 설계의 효율성과 성능을 향상시킬 수 있음을 보여줍니다. 서열 기반 모델링, 기울기 유도, 다중 목표 최적화, 그리고 효과적인 편집 위치 선택 전략이 결합된 이 방법론은 향후 단백질 공학 분야에 새로운 가능성을 제시할 것으로 기대됩니다.
세미나 세부 내용
저는 NYU 컴퓨터 과학 박사 과정 4년 차에 재학 중인 학생입니다. 앤드류 고든 윌슨 교수님과 함께 연구하고 있습니다. 샘은 사실 저와 같은 지도 교수님 밑에서 공부했지만, 1~2년 전에 졸업하고 현재 프레시전 디자인에 있습니다. 네, 논문에 대한 이야기를 시작해 보겠습니다.
이 논문에서 꽤 일반적인 방법론을 개발했지만, 저희는 항체 공학에 매우 구체적으로 초점을 맞추었습니다. 항체 공학에 대한 간략한 소개를 드리자면, 항체는 단백질 복합체이며, 불변 부위와 가변 부위를 가지고 있습니다. 이 가변 부위에는 항원과의 결합 인터페이스를 정의하는 CDR이라고 불리는 더 작은 부위들이 포함되어 있습니다. 항체는 면역 체계에 신호를 보내는 방식으로 이러한 항원에 결합하며, 항원은 일반적으로 항체와 결합하는 파라톱이라는 부위를 가지고 있습니다. 일반적으로 항체 공학, 즉 전통적인 항체 공학에서는 인간이 결합력을 향상시키거나 단백질의 다른 특성을 변경하기 위해 이러한 CDR 부위를 조정합니다. 저희는 기본적으로 이를 수행하기 위한 보다 일반적인 ML 방법론을 개발하고자 하며, 저희의 특정 접근 방식을 적응형 생성 설계 프레임워크 내에서 구성합니다. 이 프레임워크에서 저희는 단백질 풀에서 시작하며, 각 단백질은 여러 목표를 포함하는 라벨 세트를 가지고 있습니다. 여러 라운드에 걸쳐 저희는 수행해야 하는 평가 횟수를 매우 효율적으로 유지하면서 이러한 다양한 목표를 최적화하려고 노력합니다. 생성 모델에서 변이를 생성하고 판별 모델로 순위를 매기는 방식을 통해 말이죠.
이러한 저희가 참여하고 있는 프레임워크에는 몇 가지 다른 요소들이 있습니다. 첫째, 저희는 저희가 중요하게 생각하는 다양한 속성을 예측하는 판별 모델을 고안할 것입니다. 둘째, 변이를 제안하는 생성 모델인 제안 모델이 있습니다. 셋째, 중요한 변이를 선택하는 외부 순위 모델이 있습니다. 특히, 이러한 선택 방식은 예를 들어 불확실성을 기반으로 하여 공간을 광범위하게 탐색하고 이미 좋은 것으로 알려진 것만 활용하지 않도록 할 수 있습니다. 또는 여러 목표를 결합하여 저희가 중요하게 생각하는 모든 기능을 수행하는 단백질을 얻도록 할 수 있습니다. 이러한 종류의 적응형 생성 설계를 수행하는 가장 단순한 방법은 기본적으로 거대한 단백질 또는 변이 라이브러리를 가져와서 저희가 중요하게 생각하는 것을 예측하는 서러게이트 모델을 훈련시킨 다음, 이 서러게이트 모델을 기반으로 변이 또는 라이브러리의 순위를 매기는 것입니다. 조금 더 복잡하게 만들려면, 저희는 생성 모델로 새로운 것을 지속적으로 제안하고, 서러게이트 모델로 라벨링하고, 생성 모델을 재훈련시키는 폐쇄 루프를 가질 수 있습니다. 종종 실험실에서 실제 실험을 수행하여 실험실에서 라벨링하고 이를 사용하여 생성 모델을 재훈련시킵니다. 여기서 중요한 또 다른 부분은 실험실 실험이 상당히 비용이 많이 들기 때문에 많은 정보를 제공할 포인트를 우선 순위로 지정하는 것입니다. 즉, 다음 포인트를 선택하는 데 도움이 되는 획득 함수는 좋은 포인트뿐만 아니라 해당 포인트 주변의 불확실성도 고려해야 합니다. 저희의 기여는 특히 이 모델 기반 최적화 프레임워크에 중점을 둡니다. 저희는 기본적으로 후보의 타당성을 동시에 유지하면서 적합도를 최적화하는 포인트를 제안하는 방법론을 개발합니다. 가장 단순하게는 시드 서열의 시작 세트를 가지고 이러한 시드 서열의 주변에서 샘플링하도록 생성 모델을 훈련시키는 프레임워크를 상상할 수 있습니다. 일종의 비유도 생성 모델을 상상할 수 있으며, 이러한 시드 서열의 주변에서 많은 샘플링을 수행한 후에는 가장 좋은 포인트를 가져와서 반환할 수 있습니다. 저희의 방법은 대신 저희가 시작한 것의 주변에서 좋으면서도 적합도 값이 향상된 것을 직접 생성하는 것입니다. 이것이 유도 샘플링을 생성하는 NS라고 불리는 저희의 방법이 될 것입니다. 저희는 두 가지 핵심 기여를 합니다. 첫째, NS라고 불리는 서열 확산 모델을 위한 기울기 유도 방법과, 둘째, 다중 목표 및 불확실성 인식 최적화를 수행할 수 있도록 저희의 유도에 사용할 이 포텐셜을 도입합니다. 저는 주로 첫 번째 부분에 대해 이야기하고, 샘은 주로 두 번째 부분과 실제 항체 리드 최적화를 수행하기 위해 그것을 어떻게 활용하는지에 대해 이야기할 것입니다. 네, 유도 이산 확산 부분인 NOS부터 시작하겠습니다.
앞서 말씀드린 것처럼, 이 적응형 생성 설계를 위한 가장 기본적인 접근 방식은 아마도 무조건적인 생성 모델을 훈련시키고, 이를 사용하여 일부 시작 시드 서열의 주변에서 샘플링한 다음, 외부 판별 모델로 순위를 매기고, 다음 습식 실험실 실험에서 사용할 포인트로 선택하는 것입니다. 이러한 방식으로 생성 모델링에는 몇 가지 접근 방식이 있습니다. 크게 두 가지가 있는데, 하나는 구조 기반이고 다른 하나는 서열 기반입니다. 구조 기반 방법에서는 확률적 샘플링이 구조 공간, 즉 3차원 좌표에서 발생합니다. 서열 기반 방법에서는 샘플링이 아미노산과 해당 아미노산의 이산적 정체성에서 직접 발생합니다. 일반적으로 구조 기반 방법을 적용하려면 서열에서 구조로 이동하고, 구조 공간에서 샘플링을 수행한 다음, 다시 서열로 돌아와야 합니다. 왜냐하면 궁극적으로 단백질을 만들기 위해서는 서열이 필요하기 때문입니다. 이는 서열 기반 방법과는 대조적입니다. 서열 기반 방법에서는 처음부터 끝까지 서열 기반으로 유지됩니다. 3차원 좌표에서 샘플링 절차를 적용할 필요가 없었기 때문입니다. 종종 사람들은 구조 기반 샘플링 접근 방식을 선호합니다. 왜냐하면 구조는 가능한 구성에 대해 매우 강력한 물리적 사전 지식을 가지고 있기 때문입니다. 예를 들어, 단순히 불가능한 특정 물리적 속성, 즉 C 구성이 있으며, 이를 통해 가능한 샘플에 대해 매우 강력한 사전 지식을 적용할 수 있습니다. 구조는 또한 일종의 서열보다 더 고유하게 결정된다는 점에서 매우 바람직합니다. 여러 서열이 하나의 구조에 해당할 수 있습니다. 죄송합니다. 여러 서열이 하나의 구조에 해당할 수 있습니다. 물론 구조는 기능의 결정 요인이기도 합니다. 따라서 구조는 단백질의 기능을 생각하는 더 직관적인 방법입니다. 최적화 관점에서도 구조는 연속적인 객체이므로 연속적인 최적화 표면을 가지므로 기울기 기반 방법을 사용할 수 있기 때문에 편리합니다. 생성 모델에 대해 이야기하고 있기 때문에 구조의 연속적인 특성은 이미지에도 자주 사용되는 방법과 더 직접적으로 매핑되기 때문에 매우 편리합니다. 이미지는 종종 순전히 연속적인 객체로 취급됩니다. 예를 들어, 이미지에 대해 개발된 확산 종류는 현재 커뮤니티에서 매우 두드러진 몇몇 논문에서 단백질 구조에 상당히 직접적으로 매핑됩니다.
이러한 생성 모델링 작업을 수행할 때 왜 구조를 사용하고 싶지 않을까요? 구조는 몇 가지 이유로 상당히 어려울 수 있습니다. 첫째, 야생에서 구조 데이터를 찾는 것이 종종 상당히 어렵습니다. 주어진 항체-항원 복합체의 공결정 구조를 찾는 것은 상당히 어렵습니다. 그리고 폴딩 모델을 사용하여 이를 근사하는 것도 종종 제한적입니다. 왜냐하면 항상 개별 점 돌연변이에 민감하지 않고, 특히 루프 영역은 상당히 유연하고 좋은 폴딩 모델로 예측하기 어렵기 때문입니다. 그리고 앞서 설명한 것처럼 루프 영역은 항체와 같은 것들에 가장 중요한 경우가 많습니다. 이 모든 것 외에도 결국 서열로 돌아가야 합니다. 따라서 새로운 서열을 생성하기 위해 구조 기반 방법을 사용하려면 역 폴딩 모델을 사용하여 서열로 돌아가야 합니다. 그리고 역 폴딩은 종종 상당히 어렵거나 타당성이 없는 서열을 생성할 수 있습니다.
이 논문에서 저희는 몇 가지 이유로 주로 서열 전용 방법을 옹호할 것입니다. 그 중 하나는 서열이 구조를 알려주고 구조가 기능을 알려주기 때문에 기능에 대한 많은 정보가 실제로 이미 서열 내에 포함되어 있다는 것을 관찰할 수 있다는 것입니다. 따라서 저희는 서열-기능 예측기를 사용하여 저희가 중요하게 생각하는 많은 작업을 수행할 수 있으며, 궁극적으로 저희가 합성하고 싶은 것은 서열이므로 발현 가능성이 높고 만들기 쉬운 타당성 있는 서열을 생성하는 데 가장 관심을 가져야 합니다. 서열 모델, 즉 언어 모델이라고도 불리는 공간 내에는 크게 두 가지 계열이 있으며, 저희는 왜 두 계열 중 확산 모델을 선택했는지 동기를 부여하기 위해 이것을 설명하고 있습니다. 자동 회귀 모델과 비자동 회귀 모델이 있습니다. 자동 회귀 모델은 챗GPT 덕분에 아마 모두 잘 아실 것입니다. 모든 GPT 변형은 자동 회귀 모델입니다. 하지만 비자동 회귀 모델도 있으며, 비자동 회귀 모델은 종종 표현 학습 또는 생성을 위해 사용됩니다. 표현 학습 프레임워크에서는 일반적으로 단일 손상률로 사용됩니다. 서열이 손상되면 모델은 손상된 버전에서 이를 재구성하려고 시도합니다. 확산 설정에서는 종종 여러 수준의 손상이 있으며, 모델은 새로운 객체를 샘플링하기 위해 모든 수준에서 객체를 재구성하는 방법을 학습합니다. 이것은 비자동 회귀 프레임워크에서 인필링 유형 작업의 한 예일 뿐입니다. 이것은 단백질 설계와 같은 작업에 특히 편리합니다. 왜냐하면 비자동 회귀 언어 모델에서 도입된 인필링 작업과 같은 작업은 단백질 설계 작업과 직접적으로 유사하기 때문입니다. 단백질 설계는 종종 본질적으로 인접하지 않은 영역에서 기존 토큰을 대체할 새로운 토큰을 제안하는 것을 포함하며, 이러한 영역은 종종 상당히 작습니다.
서열에 대한 확산 모델은 종종 0에서 1 사이의 손상률 일정을 포함합니다. 간단한 예는 마스크 기반 확산입니다. 여기서 이 샘플 문자열을 상상해 보겠습니다. 0에서 1 사이의 모든 가능한 마스크 토큰 비율로 노이즈가 추가된 후 모델이 이를 재구성하도록 할 것입니다. 훈련 과정에서 마스크 토큰을 제공하고 노이즈가 없는 버전을 재구성하도록 합니다. 그런 다음 샘플링 과정에서 완전히 마스크된 문자열로 시작하여 천천히 노이즈가 없는 문자열로 바꾸는데, 이는 궁극적으로 저희가 중요하게 생각하는 분포에서 샘플링된 것입니다. 타당성 있는 서열과 저희가 중요하게 생각하는 목표를 최적화하는 서열을 모두 생성하기 위해 두 가지 요소가 필요합니다. 첫째, 마스크된 서열을 가져와서 노이즈가 없는 문자열을 생성하는 생성 헤드와, 둘째, 마스크된 서열을 가져와서 저희가 중요하게 생각하는 라벨을 생성하는 판별 헤드가 필요합니다.
확산 영역에서는 토큰을 마스크하는 대신 해당 토큰에 해당하는 임베딩에 직접 가우시안 노이즈를 적용하는 확산도 있습니다. 약 1년 전에 이러한 형태로 몇 가지 모델이 도입되었으며, 저희는 가능한 모든 종류의 확산에 적용할 수 있는 절차를 원합니다. 노이즈가 있는 임베딩의 경우, 기본적으로 이 마스크 입력을 받는 대신 어떤 형태의 손상된 임베딩을 가지고 있다는 점을 제외하고는 다른 경우와 매우 유사합니다. 생성 헤드에서는 손상된 임베딩에서 노이즈가 제거된 서열을 예측하고, 판별 헤드에서는 손상된 임베딩에서 라벨을 예측합니다. 그리고 저희가 이 모델을 사용하여 인필링을 수행할 때, 즉 이산 및 연속 확산을 훈련시킬 때, 이산 확산을 저희 방법의 NOSD라고 부르고, 에딩에 가우시안 손상을 적용하는 연속 확산을 NOSC라고 부릅니다. 이러한 모델로 실제로 인필링을 수행하면, 서열 모델링 및 SE 구조 기반 방법의 경쟁적인 접근 방식보다 훨씬 더 나은 경향이 있다는 것을 알 수 있습니다. 여기서 RF 확산과 디팹은 구조 정보를 사용하는 모델이므로 저희 모델보다 다른 또는 더 제한된 데이터로 훈련되는 경우가 많습니다. 그리고 IG m은 자동 회귀 모델이며, CDR 영역에 적용했을 때 서열 복구로 판단되는 인필링이 저희 모델에서 종종 더 좋다는 것을 알 수 있습니다. 하지만 저희가 정말로 원하는 것은 이러한 단순한 인필링이 아니라 저희의 목표 하에서 이를 안내하는 것입니다. 그리고 토큰은 이산적인 객체이므로 토큰 공간에서 직접 이를 수행하는 방법을 상상하는 것은 순진하게는 약간 어렵습니다. 따라서 판별 헤드에서 기울기 신호를 직접 적용할 수는 없지만, 일반적인 NLP 문헌에서 통찰력을 얻을 수 있습니다. 플러그 앤 플레이 언어 모델이라고 불리는 이전 연구에서는 기본적으로 구조 모델과 같이 기울기를 적용할 연속 잠재 공간이 필요하다는 관찰을 했습니다. 그리고 편리하게도 생성 및 판별 헤드 간에 공유되는 네트워크의 활성화가 이 연속 잠재 공간 역할을 할 수 있다는 것을 알 수 있습니다. 기본적으로 확산 모델로 재구성을 샘플링할 때 외부 속성 모델로 해당 토큰의 샘플링을 편향시킬 수 있습니다. 여기서 저희의 속성 모델은 저희가 중요하게 생각하는 단백질 양을 예측할 것이지만, 이 경우 레스토랑 리뷰를 작성한다고 상상할 수 있습니다. 저희의 속성 모델은 긍정적인 감정이며, 이는 긍정적인 요리에 대한 것을 말하도록 저희를 편향시킬 것입니다.
플러그 앤 플레이 언어 모델 스타일의 샘플링을 확산 모델과 결합하면 다음과 같습니다. 앞서 설명한 것처럼 재구성을 수행하는 생성 모델 헤드가 있고, 저희가 중요하게 생각하는 것을 예측하는 판별 모델 헤드가 있습니다. 이제 모델에서 샘플링하기 위해 신경망의 활성화에서 세 가지를 동시에 고려하여 단계를 수행합니다. 첫째, 유도 샘플링 하에서의 재구성이 바닐라 샘플링 하에서의 재구성과 가깝게 유지되도록 하는 KL 항이 있습니다. 이것이 첫 번째 항입니다. 둘째, 저희가 샘플링하는 토큰이 목표를 최대화하는 것에 해당하도록 하는 두 번째 항이 있습니다. 저희는 최대화하려고 하는 포텐셜 하에서 기울기 단계를 수행할 것입니다. 마지막으로, 이 잠재 공간에서 약간의 확률적 이동을 수행할 것입니다. 여기서 저희가 선택한 KL, 특히 유도 헤드와 바닐라 헤드 간의 KL을 사용하는 이유는 무엇일까요? 이는 엘보우를 최대화하고 목표를 최대화하는 모드에 고정하는 것으로 볼 수 있습니다. 기본적으로 이 목표를 최적화하기 위해 가능성 있는 서열에 해당하는 두 모드 사이를 왔다 갔다 하는 대신, 저희는 그 중 하나, 즉 저희가 중요하게 생각하는 목표를 최대화하는 것에 가장 해당하는 것으로 축소하고 싶습니다. 그렇다면 실제로 이 기술을 적용했을 때 어떤 일이 일어날까요? 이 논문의 대부분의 결과에서 저희는 다중 목표를 중요하게 생각하거나, 목표 최적화와 가능성 유지를 모두 중요하게 생각하기 때문에 파레토 프론티어를 제시할 것입니다. 물론 결국에는 실제로 발현될 서열을 만들고 싶기 때문입니다. 여기서 저희는 두 가지 토이 목표와 x축의 가능성 사이의 파레토 프론티어를 제시합니다. 여기서 저희의 기준선으로는 구조 기반 방법인 RF 확산이 있습니다. 기본적으로 폴딩 모델로 얻은 시작 구조 주변의 새로운 가능한 구조를 샘플링하고 있습니다. 디팹은 항체에 대해 훈련된 공동 서열-구조 확산 모델이며, pplm은 기존 자동 회귀 단백질 항체 모델 위에 pplm, 즉 기울기 유도의 이 바닐라 자동 회귀 공식을 사용하고 있습니다. 저희의 두 확산 모델은 이 파레토 경계를 바깥쪽으로 밀어내는 경향이 있으며, 이는 기본적으로 저희가 목표를 최적화하고 동시에 높은 가능성을 유지하는 데 능숙하다는 것을 보여줍니다. 이것이 모델이 수행하도록 정확히 설계한 것이며, 실리코 목표에서 정확히 원하는 결과를 얻는 것을 보니 좋습니다.
이 섹션의 주요 내용은 다음과 같습니다. 다음 섹션인 샘의 섹션으로 넘어가겠습니다. 확산 모델은 인필링에 훌륭하며, 높은 서열 복구율로 높은 가능성 서열을 생성합니다. 또한 저희는 이 기울기 기반 방법인 NS를 사용하여 높은 가능성을 유지하면서 저희가 중요하게 생각하는 목표를 최적화하는 서열을 생성할 수 있습니다. 다음 섹션에서는 이 방법이 단백질 설계에서 저희가 중요하게 생각하는 것, 즉 다중 목표 최적화, 불확실성 인식 최적화를 수행하기 위한 보다 포괄적인 포텐셜과 함께 어떻게 사용될 수 있는지, 그리고 이를 사용하여 실제 항체를 설계하는 방법을 보여드리겠습니다. 좋습니다. 멋지네요. 네이트 감사합니다. 슬라이드 공유 설정을 하는 동안 채팅에서 질문에 답변해 주시겠어요? 네, 물론입니다.
채팅에 질문이 없는 것 같습니다. 네, 기본적으로 질문은… 아, 알겠습니다. 기준선이 RF 확산 + 단백질 MPNN이었는지 물어보셨는데, 맞다고 생각합니다. 질문의 다른 부분은 서열 길이를 변경할 수 있게 했는지, 그리고 마지막 질문은 고정된 구조에서 단백질 MPNN으로 단순히 다양화만 시도했는지였습니다. 네, 답변은 그렇습니다. RF 확산 + 단백질 MPNN이었고, 가변 길이와 고정 길이 모두 시도했습니다. 정렬 토큰을 사용하면 저희 프레임워크 내에서도 기본적으로 둘 다 가능하기 때문입니다. 그리고 마지막 질문은 고정된 구조에서 MPNN을 단독으로 시도했는지였습니다. 기본적으로 제가 설정한 방식은 각 구조 변형에 대해 여러 변형을 샘플링하고, 각 변형에 대해 MPN, 즉 단백질 MPNN으로 서열 변형을 샘플링하는 것이었습니다. 따라서 두 모듈 모두에서 변동성이 발생합니다. 이러한 확률성의 원인을 분리하지는 않았습니다.
네, 그 질문에 답이 되었기를 바랍니다. 좋아요, 네이트 덕분에. 네, 네이트는 저희 방법의 일반적인 세부 사항을 많이 다루었습니다. 이는 항체 설계나 단백질 설계에만 국한된 것이 아닙니다. 다른 이산 서열을 설계하려고 한다면 그가 방금 언급한 모든 것이 적용될 것입니다. 예를 들어, 유전자 조절 요소 설계를 하고 싶다면, 기본적으로 다른 어휘일 뿐입니다. 따라서 이 섹션에서 제가 집중할 것은 항체 설계에 NOS를 적용했을 때 저희가 겪었던 몇 가지 더 구체적인 어려움과 그것에 대해 저희가 한 것입니다.
네, 저희가 많은 시간을 할애할 중심 개념 중 하나는 저희의 획득 함수였습니다. 베이지안 최적화에 익숙하신 분들은 아시겠지만, 획득 함수는 기본적으로 하나의 서열을 다른 서열보다 얼마나 가치 있게 생각하는지 측정하는 효용 함수를 정의하여 파생됩니다. 저희가 고려해야 할 몇 가지 사항이 있습니다. 첫째, 항체 설계와 신약 개발은 일반적으로 매우 다중 목표적입니다. 고려해야 할 여러 속성이 있습니다. 확실히 하나는 발현 수준입니다. 이는 얼마나 많이 만들 수 있는지를 결정하기 때문입니다. 다른 하나는 결합 친화도입니다. 표적 항원에 결합하지 않으면 그 분자는 사실상 사형 선고를 받은 것입니다. 그리고 응집, 산화 가능성과 같은 다양한 다른 속성이 있으며, 이는 보관 수명 등에 영향을 미칩니다. 이 특정 문제의 특징 중 하나는 이러한 속성을 측정하는 데 사용하는 분석법이 순차적이라는 것입니다. 단백질이 발현되지 않으면 더 이상 아무것도 실행할 수 없습니다. 왜냐하면 그것이 없기 때문입니다. 그리고 발현되지 않고 결합하지 않으면, 더 이상 다운스트림 실험을 실행하지 않습니다. 왜냐하면 그럴 가치가 없기 때문입니다. 따라서 기본적으로 이는 계층적 구조와 많은 누락된 라벨을 의미합니다. 또한 여러 번의 설계 및 관찰 라운드가 있으므로, 이 분자가 지금 얼마나 좋은지뿐만 아니라 불확실한 분자를 관찰하는 데 정보의 가치가 있다는 사실도 고려해야 합니다. 마지막으로, 이러한 속성을 측정하는 데 사용하는 분석법은 매우 노이즈가 많습니다. 따라서 개선 기반의 효용 개념을 사용하고 있다면, 과거에 본 것보다 일부 가상 설계의 개선을 추정할 때 측정 노이즈를 고려해야 합니다.
네, 다중 목표 설계에 익숙하지 않은 분들을 위해 간략하게 개요를 설명드리겠습니다. 이는 저희 효용 함수의 핵심 부분 중 하나가 될 것이기 때문입니다. 단일 목표 최적화의 경우, 모든 최적 또는 비지배 설계는 기본적으로 동일하게 좋습니다. 이는 추가 정보 없이는 이러한 최적값을 구별할 수 없다는 것을 의미합니다. 이것이 문제가 단일 목표라는 것의 의미입니다. 이제 다중 목표의 경우, 비지배 설계는 구별될 수 있으며, 서로 다른 절충점을 나타내는 이 파레토 프론티어를 따라 구별됩니다. 따라서 질문은 여러 목표가 있을 때 새로운 설계의 가치를 어떻게 측정하는가입니다. 왜냐하면 단순히 순위를 매길 수 없기 때문입니다. 따라서 먼저 일부 기준선 솔루션으로 시작할 것입니다. 이것들은 예를 들어 분자 리드일 수 있으며, 일부 기능적 속성을 가질 것입니다. 그리고 이 경우 아마도 이전 실험의 라벨을 사용하여 이를 추정할 것입니다. 기본적으로 할 일은 기준점을 선택하는 것입니다. 이 기준점 내에서 설계에 의해 둘러싸인 부피는 폴리토프라고 부르는 것을 정의합니다. 이 폴리토프는 이 경우 2차원에서 초부피를 가지며, 초부피는 음영 영역으로 표시된 이 영역일 뿐입니다. 이제 질문은 여러 목표가 있을 때 최상의 후보 개념을 얻기 위해 이것을 어떻게 사용하는가입니다. 따라서 모델을 사용하여 이러한 파란색 후보 설계의 속성을 예측하고, 각 특정 파란색 점을 추가하면 이 폴리토프의 부피가 어떻게 될지 스스로에게 물어볼 것입니다. 그리고 기본적으로 초부피를 최대한 증가시키는 점을 선택할 수 있습니다. 이는 기본적으로 파레토 프론티어를 최대한 바깥쪽으로 밀어내는 것과 동일하다는 것이 밝혀졌습니다. 따라서 초부피 개선은 이 새로운 점을 추가한 후의 초부피에서 이전의 초부피를 뺀 차이일 뿐입니다. 그리고 앞서 언급한 불확실성과 탐색-활용 절충점을 해결하기 위해, 기본적으로 데이터 부족으로 인한 인식적 불확실성의 개념을 인코딩하는 확률적 예측과 프로 베이지안을 활용할 것입니다. 따라서 궁극적으로 이는 사후 분포에서 샘플을 추출하는 것으로 귀결됩니다. 각 샘플에는 연관된 초부피 개선이 있으며, 샘플 전체를 평균하여 예상 초부피 개선이라고 불리는 것을 얻습니다. 그리고 노이즈, 즉 제가 여기서 자세히 다루지 않을 관찰에 대해 추가적인 조정이 하나 있습니다. 하지만 기본적으로 기준점과 설계점의 위치를 모두 추정하기 위해 사후 분포를 사용해야 한다는 것입니다. 계층 구조를 해결하기 위해, 생물학적 데이터를 모델링할 때 이전에 본 적이 있을 수도 있는 제로 인플레이션 모델링이라는 개념을 활용할 것입니다. 기본적으로 이러한 속성을 분석 제약 조건(분석이 성공했는지 여부)과 분석이 성공한 경우의 해당 분석 측정값인 연속 값으로 분리합니다. 그런 다음 일부 분석이 이전의 다른 분석이 성공한 경우에만 성공할 수 있다는 개념을 기본적으로 인코딩하는 방향성 비순환 그래프가 있습니다. 그런 다음 이것은 이러한 y에 대한 일부 결합 분포를 유도할 것이며, 이러한 y는 궁극적으로 다중 목표 획득 함수에 공급될 것입니다. 이것은 좀 더 구체적인 예입니다.
네이트가 앞서 언급했듯이, 저희 모델에는 생성적 구성 요소와 판별적 구성 요소라는 두 가지 높은 수준의 구성 요소가 있습니다. 판별적 구성 요소는 다양한 목표로 더 세분화될 수 있으며, 이러한 목표 내에는 분류기 헤드와 회귀 분석기 헤드가 있습니다.
따라서 먼저 분류기가 서열이 결합하는지 여부에 대한 예측을 하고, 서열이 결합하는 사건을 조건으로 하여,
그렇다면 기본적으로 이러한 항체의 연속적인 KD를 기반으로 순위를 매기려고 노력할 것입니다. 좋습니다.
네이트가 앞서 설명한 것처럼, 저희가 제안한 종류의 안내를 수행하려면 판별기와 생성 모델이 잠재 공간을 공유해야 합니다. 그래야 판별 출력의 함수인 저희의 획득 값에 대한 기울기를 계산하고, 그 기울기를 사용하여 생성 p의 출력을 수정할 수 있습니다. 따라서 이 경우 이것이 기본적으로 저희가 하는 일입니다. 저희는 항체의 가변 부위와 항원 서열을 일부 효용 토큰과 함께 연결하여 입력으로 받는 단일 네트워크를 가지고 있습니다. 그런 다음 이 경우 1D 컨볼루션 잔차 블록인 공유 인코더가 있으며, 이는 다양한 분기로 분할됩니다. 따라서 한 분기는 발현을 예측하기 위해 작업별 특징을 학습하고, 다른 분기는 결합을 비판하기 위한 작업별 특징을 학습합니다. 그런 다음 공유 표현 바로 위에 있는 선형 헤드가 토큰을 예측합니다. 그리고 발현 및 결합 예측은 제가 지난 몇 슬라이드에서 설명한 NBI 획득 함수에 입력됩니다. 사실을 다루기 위해… 음, 시작 부분에서 언급했지만, 발현되지 않는 항체의 경우 결합하지 않기 때문에, 기본적으로 많은 부분적 관찰을 가지고 있다는 사실을 처리해야 합니다. 수율이 없고 결합 KD 값이 없는 서열이 있습니다. 왜냐하면 측정되지 않았거나, 하나만 있거나, 둘 다 있기 때문입니다. 따라서 이러한 부분적으로 분리된 데이터 세트에 대해 단일 모델을 훈련시키기 위해, 저희는 다중 작업 학습을 사용할 것이며, 기본적으로 모델의 모든 기울기 업데이트에 대해 작업을 무작위로 샘플링한 다음, 해당 작업에 대한 적절한 라벨이 있는 점 집합에서 미니 배치를 무작위로 추출하는 매우 간단한 변형을 사용할 것입니다. 그리고 생성 헤드의 경우, 분포를 에뮬레이트하려는 모든 서열 집합일 뿐입니다. 네이트가 명시적으로 언급하지 않았을 수도 있지만, 적어도 이 발표 부분에서는 모델이 모두 공동으로 훈련됩니다. 즉, 공동 생성 및 판별 훈련입니다. 하지만 고정된 생성 표현에도 사용할 수 있습니다.
네, 앞서 논의한 것처럼, 획득 함수는 베이즈 사후 분포에 대한 기대값이며, 이 베이즈 사후 분포에서 샘플링을 추정하는 저희의 접근 방식은 딥 앙상블에서 영감을 받을 것입니다. 딥 앙상블은 거의 모든 사람이 익숙할 것이라고 확신합니다. 딥 앙상블은 특히 산업계에서 분포 이동 및 일반적인 성능과 정확도 모두에 대해 매우 강력하다는 훌륭한 실적을 가지고 있습니다. 그러나 딥 앙상블의 큰 단점은 잠재 공간을 공유하지 않는다는 것입니다. 전통적으로 딥 앙상블은 완전히 독립적인 모델이므로, 이 아키텍처로 저희가 하려고 했던 것의 목적을 무너뜨립니다. 따라서 저희는 부분 딥 앙상블이라고 불리는 것을 수행할 것입니다. 기본적으로 네트워크의 처음 K개의 레이어가 공유되고, 분기 단계에 도달하면 해당 분기를 기본적으로 복사합니다. 따라서 결국 공유 구성 요소는 앙상블되지 않지만 분기 부분은 앙상블되는 네트워크가 있습니다. 이것이 저희가 부분 딥 앙상블이라고 부르는 것입니다.
이 섹션에서는 주로 인코더 전용 아키텍처를 사용했습니다. 그렇게 한 이유는 기본적으로 저희가 만드는 편집 수와 해당 편집 위치를 매우 세밀하게 제어할 수 있기 때문입니다. 예를 들어, 8개 이상의 편집이 있는 설계를 만들지 말라는 지시를 받으면, 서열에 최대 8개의 마스크 C 토큰만 넣으면 되기 때문에 쉽게 할 수 있습니다. 그것은 모두 매우 좋지만,
마스크 토큰을 어디에 놓을지 선택하는 것은 제게 더 큰 부담이 됩니다. 따라서 이 논문에서 저희가 개발한 방법론적 발전 중 하나는 모델 해석 가능성 방법, 특히 살리엔시 맵에 의존하여 모델의 획득 값 또는 서열 획득 값을 최대한 개선할 편집 위치를 기본적으로 자동으로 선택하기 시작한 것입니다. 저희를 정말 놀라게 한 것 중 하나는 항체 리드 최적화에서 매우 흔한 작은 편집 예산의 경우, 편집 위치 선택의 효과 크기가 특정 편집 선택에 조건부로 이러한 토큰 분포의 기울기 안내의 효과 크기보다 실제로 훨씬 크다는 것입니다. 따라서 이 발표에서 여러분이 기억해 주시기를 바라는 주요 내용 중 하나는, 항체 설계를 하려고 하고, 마음에 드는 분자가 있는데, 여전히 동일한 에피토프를 타겟팅하고 있는지 확인하려고 한다면, 많은 노력을 토큰 분포를 조정하는 것보다는 어디를 변경할지에 집중해야 한다는 것입니다. 왜냐하면 결국 간단한 조합론적 논증과 항체의 가변 부위에 300개의 위치가 있고, 그 중 10개를 선택해야 한다고 가정하면, 아미노산의 경우 20개밖에 없기 때문에, 주의를 기울여 줄여야 할 더 큰 공간이 어느 것인지 쉽게 알 수 있는 꽤 간단한 조합론적 논증이라고 생각하기 때문입니다. 따라서 이 모델을 훈련시키는 데 사용한 데이터 세트는 기본적으로 세 가지 유형의 분석이 수행되었습니다. 하나는 NGS 시퀀싱이었는데, 특히 텐엑스라는 공급업체를 사용했고, 이는 쌍으로 정렬된 레퍼토리 서열이라고 불리는 것을 생성했습니다. 이것들은 관심 항원으로 면역화된 동물의 면역 체계에서 나온 항체입니다. 따라서 이것은 생성 헤드를 훈련시키는 데 좋은 점인데, 왜냐하면 그것은 일종의 저희가 생성하고 싶은 것의 매우 표적화된 라이브러리이기 때문입니다. 그리고 발현의 경우, 저희는 원형 및 선형 트랜스펙션 데이터를 가지고 있었습니다. 분류기를 훈련시키는 데는 원형과 선형 모두 사용했고, 회귀 분석기를 훈련시키는 데는 선형만 사용했습니다. 왜냐하면 선형이 저희 실험에서 현재 사용하고 있는 발현 시스템이었기 때문입니다. 마지막으로, 결합 친화도를 측정하기 위해 표면 플라즈몬 공명 동역학이라고 불리는 분석법을 사용했고, 모든 리드 분자와 표적에 걸쳐 총 약 10,000개의 측정을 했습니다. 따라서 저희가 다음 단계로 넘어가기 전에 저희의 판별 헤드가 얼마나 잘 작동했는지에 대한 몇 가지 결과를 공유하고 싶었습니다. 기본적으로 이것이 보여준 것은 특정 시점을 고정하고 모델을 훈련시킨 다음, 예를 들어 NS와 같은 것으로 일부 서열을 생성하고, 실험실에서 그것들을 관찰했을 때, 그 다음 실험의 결과를 얼마나 잘 예측하는가입니다. 이것은 매우 구체적인 일반화 개념이며, 놀라실 수도 있는 것은 편집 거리가 그렇게 크지 않은 이러한 제한된 영역에서 서열 모델이 상당히 잘 작동한다는 것입니다. 그리고 예를 들어 결합 PKD 스피어만 로의 경우, 꽤 작은 데이터 세트에서 0.6 이상을 얻을 수 있었습니다. 따라서 종종 사람들이 결합 친화도는 정말 어려운 문제라고 말하는 것을 들을 수 있을 것입니다. 그리고 그것은 매우 복잡한 현상입니다. 하지만 예를 들어 리드 분자 주변의 특정 영역을 모델링하는 데만 관심이 있다면, 상당히 간단한 서열 모델로도 꽤 멀리 갈 수 있습니다.
설계 항의 K 페널티 외에도 분포에서 너무 멀리 벗어나는 것을 방지하는 일종의 안전 장치가 있었습니다. 이는 기본적으로 공학적 특징을 사용한 분포 가설 검정이었습니다. 이것은 딥러닝이 아니라 기본적으로 일부 공학적 특징과 커널 밀도 추정 및 우도 검정이었습니다. 이것은 모델의 효용 추정치가 의미 있고, 최적화 알고리즘에 의해 단순히 악용되지 않는 공간에 저희가 있다는 것을 더욱 보장하기 위한 것이었습니다. 결과를 얻기 위해, 사람들에게 약간의 배경 정보를 제공하기 위해,
유사한 표적에 대한 ML 지원 항체 설계에 대해 지금까지 발표된 주요 사전 결과 중 하나는 아바이의 이 논문이었습니다. 샨 어스 아사드 외 다수가 작성했습니다. 그들이 한 것은 잘 알려진 항체인 체스트 유삽을 가져와서 두 가지 변형을 만들었습니다. 하나는 CDRH3만 채우고 다른 하나는 더 많은, 아마도 CDR H1, 2, 3을 채웠습니다. 그리고 그들은 단순히 비유도 단백질 언어 모델을 사용하여 채웠습니다. 이것은 약 백만 개의 서열로 이루어진 큰 라이브러리를 생성했고, 그들은 고처리량 분석으로 약 500개, 400개로 줄였습니다. 그리고 그 400개는 저희가 하고 있던 것과 유사한 분석인 표면 플라즈몬 공명으로 검증되었습니다. CDRH3만 채운 경우, 실제로 검증한 400개 중 10%의 결합률을 관찰했습니다. 저희 연구에서는 이것이 직접적인 비교는 아닙니다. 앱사이드 결과를 포함시킨 목적은 기본적으로 항체 설계와 예상되는 결합률에 익숙하지 않은 분들을 위한 배경 정보일 뿐입니다. 저희가 한 것은 네 가지 다른 항원 표적에 대해 20개의 다른 리드 분자를 최대 8개의 모델 선택 위치까지 채운 것입니다. 그리고 앱사이드의 경우처럼 원-핫 방식으로 하지 않고, 세 번의 라운드에 걸쳐 수행했습니다. 라이브러리는 적응적이었는데,
각 실험 라운드 후 모델을 재훈련시키고 반복했습니다. 그리고 세 번째 라운드 끝에 40%의 결합률을 관찰했습니다. 음… 5분 정도 남았으니 몇 가지 질문에 답하겠습니다. 네, 개요를 드리자면, 저희는 세 라운드에 걸쳐 총 374개의 서열, 네 가지 표적 항원, 20개의 표적 특이적 C 분자를 테스트했습니다. 흥미로운 점 중 하나는 2라운드에서 발현이 감소했다는 것입니다. 그리고 그것이 흥미로운 이유는 기본적으로 케일 항의 계수를 충분히 크게 설정하지 않았기 때문입니다. 따라서 최적화 알고리즘이 너무 적극적으로 최적화하여 발현이 잘 안 되는 낮은 가능성 서열을 생성했습니다. 그래서 다음 라운드에서 서열 길이를 고정하고 KL 항과 K 항의 계수를 늘렸더니 발현이 즉시 회복되었습니다. 따라서 이 특정 플롯에서 얻을 수 있는 큰 교훈 중 하나는 여러 번의 실험을 수행하는 것의 가치라고 생각합니다. 기본적으로 원샷 방식의 문제는 여러분이 받은 데이터의 분포가 당면한 과제를 해결할 수 있을 만큼 충분히 관련성이 있다고 단순히 베팅하는 것과 같다는 것입니다. 그리고 과학 데이터로 작업할 때는 특히 드문 경우라고 말씀드리고 싶습니다. 왜냐하면 그 과학 데이터는 아마도 극단적인 편견을 가지고 다른 이유로 선택되었을 것이기 때문입니다. 궁금하신 분들을 위해, 이것은 편집 거리의 함수로 수율 측정 결과를 보여줍니다. 여기서 보기 좋은 점 중 하나는 기본적으로 약 10까지의 광범위한 편집에 걸쳐 발현이 잘 되는 서열을 생성할 수 있었다는 것입니다. 이는 젤다 엠 매리어트가 이끄는 구글 팀이 나노바디 설계에 대해 발견한 유사한 결과와 유사하다고 생각합니다. 또 다른 보기 좋은 점은 일부 서열이 실제로 관찰된 수율을 향상시켰다는 것입니다. 물론 0에 가까운 것들은 아마도 일부 관찰 노이즈가 있을 것이므로, 평균적으로 얼마나 많은 것이 향상되었는지 정확히 확인하려면 더 많은 복제를 실행해야 합니다. 마찬가지로 결합 친화도에 대해서도 동일한 플롯이 있습니다. 계층 구조상 더 많은 서열이 발현되었기 때문에 결합된 서열보다 점이 더 적지만, 이 경우 7개 편집까지 광범위한 KD에 걸쳐 결합체를 찾을 수 있었습니다. 음… 아, 네, 기본적으로 마이크로몰에서 약 나노몰 결합체까지 범위입니다. 네, 이 섹션의 주요 내용은 다음과 같습니다. 네, 서열 전용 모델은 간단하고 작업하기 쉽습니다. 딥러닝으로 고차원 블랙박스 최적화를 해결하려면 모델을 단순히 악용하지 않도록 분포 제약 조건이 필요합니다. 저희는 가능성이 높고 점수가 좋은 서열을 찾을 수 있었으며, 궁극적으로 이는 저희 방법이 항체 리드 최적화에 효과적임을 시사하는 고무적인 초기 결과를 얻는 데 기여했습니다. 채팅에서 많은 질문을 보았으므로, 네, 샘이 바로 그 질문에 답하도록 하겠습니다. 가장 중요한 질문 중 하나는 위치가 어떻게 선택되는지에 대한 것일 수 있습니다. 네.
네, 음… 아, 네… 그 질문에 답하기 전에, NYU와 젠텍의 다른 공동 연구자들에게 감사를 표하고 싶습니다. 이것은 매우 공동 작업이었고, 그들의 모든 노력이 없었다면 이 논문은 지금과 같지 않았을 것입니다.
따라서 논문에서 저희가 한 것은 이 살리엔시 맵을 계산하는 것입니다. 예를 들어 8개의 편집 예산을 드리면, 이 살리엔시 맵을 계산하고, 이 온도 하이퍼파라미터 타우를 사용하여 분포로 정규화한 다음, 편집 위치 세트를 샘플링합니다. 따라서 여러분이 하는 것은 이러한 토큰 분포를 안내할 뿐만 아니라 편집 위치를 자동으로 선택하기 위해 판별 헤드의 기울기를 사용하는 것입니다. 이 질문에 좀 더 자세히 답이 되었기를 바랍니다.
음… 채팅창을 좀 보겠습니다.
네, 다시아가 명확히 하기 위해 물었습니다. 변경할 수 있는 정확한 마스크 위치를 서열에 제공해야 한다는 말씀이신가요? 모델이 그것들을 선택할 수 있나요? 인코더 전용 MLM 스타일 프레임워크에서는 그렇습니다. 마스크된 위치만 모델이 변경하도록 훈련됩니다. 그리고 네, 모델은 제가 방금 설명한 것과 같은 메커니즘으로 그것들을 선택할 수 있습니다. 음… 제이가 말했습니다. 판별 모델이 있으면 관심 함수의 관점에서 임베딩 공간을 매핑하여 서열 생성에 적합한 임베딩 공간 영역을 찾을 수 있나요? 네, 그것이 기본적으로 저희가 하는 일입니다. 아, 네가 이미 그 질문에 답했군요.
임베딩 공간 자체를 해석하거나 함수와 관련하여 설명하는 것이 유용하다고 생각하셨나요? 음… 이것은 저희가 아직 조사 중인 것이라고 말씀드리고 싶습니다. 예를 들어 t-SNE 플롯을 사용하여 임베딩을 기반으로 클러스터링을 시도할 수 있지만, 아직 거기에서 매우 유용한 것을 발견하지 못했습니다.
편집 위치 선택에 대한 또 다른 질문인데, 이미 답변한 것 같습니다. 아르케이지, 당신의 서러게이트 모델은 개별 변이가 훈련 데이터에 없거나 부분적으로만 있는 변이 조합을 가진 서열의 속성을 예측하는 데 어떻게 작동했나요?
음… 저희가 분할한 방식은 기본적으로 서열 동일성을 기반으로 했습니다.
따라서 아마 당신이 언급하는 것은 사람들이 한 번 또는 두 번 더 많은 돌연변이 데이터를 가져와서 이전 돌연변이를 예측하려고 하는 것일 것입니다. 그리고 그것은 우리가 여기서 있는 영역이 아닙니다. 여기서 우리는 최대 8개의 편집을 수행하기 위해 여러 번의 연속적인 라운드를 거친다고 가정합니다. 하지만 여기서 얻을 수 있는 교훈은 모델이 최대 8개의 편집을 허용한다면, 필연적으로 모델은 이전에 본 적이 없는 돌연변이 조합을 예측해야 한다는 것입니다.
하지만 당신의 질문의 취지를 파악하기 위해 말씀드리자면, 저희 경험상 시작점과 데이터의 돌연변이가 설계에 결국 나타날 것과 일치하는 것이 정말로 중요하다고 생각합니다. 그리고 그것이 여러 번의 설계, 실험 및 훈련을 수행하는 것이 매우 중요한 큰 이유입니다. 편집 위치는 독립적으로 선택되며 상관 관계를 무시합니다. 많은 것을 놓치지 않나요? 음… 사실 저는
음… 다시 말해
음… 이 예에서 이 정규화된 살리엔시 맵에서 샘플은
음… 치환 없이 범주형 분포에서 추출됩니다. 따라서 그런 의미에서 독립적이지만, 이러한 살리엔시 맵에는 꽤 강한 상관 관계가 있습니다. 그리고 특히 유전자 알고리즘에서 주요 기준선 중 하나는 균일한 무작위 편집 위치 선택인데, 이는 훨씬 더 많은 것을 놓칩니다. 따라서 짧은 대답은 제가 확신하건대 이것이 아마도
음… 편집 위치 선택의 정점은 아닙니다. 그러나 프로젝트를 시작했을 때 기본적으로 손으로 선택하는 것에 대한 대안을 원했습니다. 이는 대부분의 사람들이 CDR과 같은 것을 선택하고 단순히 이것을 변경한다고 말할 때 주로 하는 것입니다. 하지만 일단 삼푸탄 산화 또는
음… 음…
응집과 같은 개발성 문제를 최적화하려고 하면 작동하지 않습니다. 음… 374개를 수행하기 전에 각 항체-항원 시스템에 대해 훈련할 데이터가 있었나요? 기본적으로 저희가 가지고 있던 과거 데이터는 해당 표적이나 해당 시드에 대한 것이 아니라, 일종의 큰 과거 훈련 코퍼스였습니다. 사실 꽤 심각한 분포 이동이 있었습니다. 따라서 기본적으로 여러분이 생각해야 할 방식은 그것이 과학자들이 그 이전 몇 년 동안 수행한 실험의 과거 데이터베이스와 같았고, 그 후 저희는 항체 공학 부서와 협력하여 그들이 저희에게 몇 가지 표적과 몇 가지 리드 분자를 주고, 역사적인 훈련 세트에 무엇이 있는지에 대한 고려 없이 이것들을 정말로 최적화하라고 말했습니다.
음… 개선에 대한 질문이 있습니다.
음… 따라서 델타는 설계와 시드 간의 차이이며, 시드 측정은 동일한 플레이트 또는 동일한 배치에 있었습니다. 따라서 최소한 이 측정 기준에서 배치 효과를 고려하는 것입니다. 설계가 0에 매우 가까운 값이라는 것은 정확히 맞습니다. 아마도 복제를 실행하여 실제로 개선이 있었는지 확인해야 합니다. 실험 측정의 오차 측면에서
[음악]
음… 짧은 대답은 그렇지 않다는 것입니다.
동분산적이지만, 저희가 선호하는 경험 법칙은
음… KD 개선을 0.5 정도 찾는 것입니다. 따라서 이 경우 항체 공학에서 이와 같은 리드 분자에 정말로 관심을 가지려면, 약 5개의 편집이 있는 이 위의 점이 그 예가 될 것입니다. 따라서 KD 개선이 의미 있으려면 얼마나 많은 개선을 찾아야 하는지 스스로에게 생각하고 있다면, 이 경우 로그 10 단위의 절반 정도일 것입니다. 좋습니다. 네이트와 샘, 정말 감사합니다. 시간이 거의 다 되었으므로, 사람들이 마지막 한두 개의 질문이 있으면 마이크를 켜고 질문하거나 채팅에 남겨주시면 그 후에 멈추겠습니다. 좋습니다. 그렇지 않으면 여기서 끝내겠습니다. 오늘 발표해 주셔서 다시 한번 감사합니다. 빠른 알림으로, 2주 후에 이번 학기 마지막 발표가 있을 예정입니다. 구조 정보 기반 언어 모델은 단백질 설계자입니다. 그럼 모두 그때 뵙겠습니다.
관심 가져주셔서 감사합니다.