Stop Thinking, Just Do!

Sungsoo Kim's Blog

Causality-inspired generative modelling

tagsTags

7 May 2025


Causality-inspired generative modelling for single-cell genomics

Abstract

Single-cell genomics provides a uniquely powerful opportunity to study cells and the intricate molecular mechanisms that drive their remarkable diversity within tissues. This revolutionary technology allows us to understand how cells make decisions and undergo changes during development or disease progression. However, a vast uncharted hypothesis space remains, such as understanding cellular responses to combinations of perturbations, which cannot be fully explored experimentally within a reasonable timeframe. The ability to study how these changes vary across diverse donors is particularly important for addressing the full spectrum of human biology and advancing more personalized and inclusive healthcare solutions.

In this talk, I will present my latest research on generative modelling and causal machine learning tailored to these challenges. I have developed several AI-based methods to model cellular dynamics and uncover their underlying mechanisms. These include methods for determining gene regulatory networks (GRNs) using neural ordinary-differential equations to infer structural causal equations governing genes and employing causal generative models to infer conditional cell distributions from single-cell transcriptomics data. The latter approach eliminates spurious correlations while retaining key biological signals, making it particularly valuable for large-scale atlasing efforts to stratify donors across diverse diseases and biological factors.

After discussing these methods, I will highlight how I have applied them to create comprehensive atlases, uncovering transcriptomic diversity across organs and diseases.

세미나 주요 내용

  • “인과 관계에서 영감을 받은 생성 모델링을 활용한 질병 연구, 특히 단일 세포 유전체학 연구”

이 세미나는 인과 관계에서 영감을 받은 생성 모델링(Causality-Inspired Generative Modeling)을 활용하여 단일 세포 유전체학(Single-Cell Genomics) 데이터를 분석하고 질병 연구에 적용하는 최신 연구 동향을 소개했습니다. 주요 핵심 내용은 다음과 같습니다.

1. 단일 세포 데이터 분석의 도전 과제:

  • 다양한 세포 유형과 상태, 개인 간 유전체 차이, 질병 및 치료 이력 등으로 인해 세포 데이터는 매우 이질적(Heterogeneous)입니다.
  • 이러한 이질성을 이해하고 세포 정체성의 다양성을 밝히는 것이 중요합니다.
  • 기술적 노이즈(Batch Effect, 플랫폼 차이 등)는 생물학적 변이와 혼동될 수 있어 분석에 어려움을 야기합니다.
  • 제한적인 기증자 및 샘플 수로 인해 대표적인 세포 아틀라스(Cell Atlas)를 구축하는 것이 어렵습니다.
  • 기존 통계적 방법은 허위 상관 관계(Spurious Correlation)에 기반할 수 있어 새로운 환경에서의 예측 성능이 저하될 수 있습니다.
  • 완벽하지 않은 섭동(Perturbation) 실험은 인과 관계 추론을 어렵게 만듭니다.

2. 인과 관계에서 영감을 받은 생성 모델링의 적용:

  • 생성 모델(Generative Model)은 데이터의 예측 가능성을 높이고, 인과 모델(Causal Model)은 시스템의 근본적인 물리학을 설명하여 다음 상태 예측 및 해석 가능성을 향상시킵니다.
  • 불변 표현 학습(Invariant Representation Learning)은 다양한 환경(예: 다른 배치)에서도 변하지 않는 핵심적인 생물학적 특징을 추출하여 허위 상관 관계를 줄이는 데 목표를 둡니다.

3. Invariant Variational Autoencoder (in VAE) 방법론:

  • 제시된 in VAE 모델은 변이형 오토인코더(Variational Autoencoder) 기반으로, 유전자 발현과 공변량(생물학적 및 기술적 요인)을 입력으로 받아 불변 잠재 변수(Invariant Latent Variables)허위 잠재 변수(Spurious Latent Variables) 두 세트를 추론합니다.
  • 각 잠재 변수 세트는 서로 다른 사전 분포를 가지며, 이는 모델 학습 과정에서 데이터로부터 추론됩니다.
  • 불변 잠재 변수는 세포 유형 및 질병과 관련된 생물학적 변이를 포착하고, 허위 잠재 변수는 배치 효과와 같은 기술적 변이를 포착하도록 설계되었습니다.
  • 음이항 분포(Negative Binomial Distribution)를 사용하여 단일 세포 데이터의 특성을 더 잘 모델링하고 재구성 성능을 향상시킵니다.

4. 실험 결과 및 의의:

  • 심근병증(Cardiomyopathy) 데이터 세트에서 in VAE는 기존 방법(scVI 등)보다 배치 효과 제거(Batch Correction)생물학적 조건 보존(Biological Conservation) 측면에서 우수한 성능을 보였습니다.
  • DCM(Dilated Cardiomyopathy) 세포에서 과거에 발견되지 않았던 새로운 세포 상태를 식별하는 데 성공하여 심장학 연구에 새로운 통찰력을 제공할 가능성을 제시했습니다.
  • 훈련 데이터에 없던 새로운 질병 상태에 대한 세포 유형 예측에서도 경쟁력 있는 성능을 보였습니다.
  • 모델이 학습한 허위 특징이 실제 기술적 요인과 관련이 있음을 보여 해석 가능성을 높였습니다.

5. 향후 연구 방향:

  • 연속형 공변량(예: 질병의 심각도)을 모델에 통합하는 방법 연구.
  • 모델 예측 기반의 실험 설계 및 검증.
  • 세포 사멸과 같은 특정 생물학적 현상을 모델링하는 방법 연구.
  • 잠재 공간의 생물학적 의미를 더 깊이 이해하고 해석하는 방법 연구.

결론:

지아위안 마오 박사의 발표는 인과 관계에서 영감을 받은 생성 모델링이 단일 세포 유전체학 데이터 분석의 어려움을 극복하고 질병 연구에 중요한 기여를 할 수 있음을 보여줍니다. 특히 in VAE 모델은 허위 상관 관계를 효과적으로 분리하고 생물학적 변이를 보존하며, 새로운 세포 상태 식별 및 예측 성능 향상에 대한 잠재력을 제시합니다. 향후 연구를 통해 이 분야의 발전이 더욱 가속화될 것으로 기대됩니다.

세부 내용

[음악]

네, 와주셔서 감사합니다. 오늘 저는 인과 관계에서 영감을 받은 생성 모델링과 그것을 질병 연구, 특히 단일 세포 유전체학 연구에 어떻게 사용하는지에 대한 최신 연구를 발표하고 싶습니다. 우선 이 분야에 대한 간략한 소개를 드리겠습니다. 우리 몸은 수조 개의 세포로 이루어져 있으며, 이 세포들은 다양한 기관에서 유래하고 다양한 세포 유형을 가지고 있습니다. 지금까지 우리는 이러한 세포들을 400가지 다른 세포 유형으로 분류했지만, 이는 앞으로 더 늘어날 수도 있습니다. 이 세포들은 서로 다르며, 우리는 이 세포들 간의 실제 차이점과 이 세포들이 어떻게 다른 조직과 기관을 구성하는지 알고 싶습니다. 하지만 이 관점을 넓혀 다른 개체를 살펴보면 세포는 훨씬 더 다릅니다. 우리 각자는 다른 유전체를 가지고 있기 때문에 유사한 세포조차 서로 다릅니다. 그리고 일부는 질병이나 치료 이력을 가지고 있어 세포에 영향을 미칠 수도 있습니다. 따라서 여기서 주요 질문은 이러한 세포 정체성의 다양성은 무엇이며, 어떻게 밝혀낼 수 있는가 하는 것입니다. 각 생물에는 세포당 하나의 유전체만 있지만, 이 유전체는 매우 다양한 세포 유형으로 생성되었으며, 우리는 세포의 근본에 있고 그 정체성을 정의하는 실제 조절 회로가 무엇인지 알고 싶습니다. 그리고 이 세포들이 함께 조직을 형성하고, 이 조직들이 기관을 형성합니다. 이 모든 과정은 생물학에서 매우 근본적인 질문, 즉 다양한 기관이 어떻게 형성되는지를 이해하는 데 중요한 역할을 합니다.

이 질문에 답하기 위해 단일 세포 기술은 상당한 발전을 이루었습니다. 조직에서 샘플을 선택한 다음 각 세포의 전사체를 바코드화할 수 있습니다. 그리고 시퀀싱 후 우리가 얻는 것, 그리고 전산 생물학자인 우리에게 중요한 것은 세포별 유전자 매트릭스입니다. 여기서 세포는 샘플이고 유전자는 측정 또는 프로필입니다. 각 항목에서 전사체를 시퀀싱하는 경우 각 항목은 실제로 해당 유전자와 관련된 전사체의 수입니다. 그런 다음 이 매트릭스에서 세포 간의 패턴, 유사한 세포와 다른 세포를 일부 다운스트림 분석, 예를 들어 차원 축소 또는 일부 비지도 클러스터링 방법을 사용하여 찾고 싶습니다.

네, 이것이 우리가 하고 싶어하는 일입니다. 하지만 요즘 우리는 많은 양의 단일 세포 데이터에 접근할 수 있으며, 인간 세포 아틀라스와 같은 일부 대규모 컨소시엄 덕분에 많은 공개 데이터 세트를 이용할 수 있습니다. 이 통계는 1년 전의 것이므로 변경되었을 수 있지만, 과거에는 5천만 개의 세포에 접근할 수 있었습니다. 이 세포들은 7,700명의 기증자로부터 유래했으며, 전 세계의 다른 연구실에서 시퀀싱되었습니다. 이러한 세포들이 서로 다른 이유는 때로는 환자의 나이와 성별, 때로는 시퀀싱된 조직이나 기관 때문입니다. 그리고 과거에 질병이나 치료를 받은 적이 있거나 발달 샘플이 있는 경우, 시간이나 공간이 세포를 분리하거나 일부 변이를 일으킬 수 있습니다. 하지만 이것들은 세포의 일부 생물학적 변이이며, 우리는 이것들이 세포의 반응에 어떻게 영향을 미치는지 매우 궁금합니다. 하지만 이것 외에도 기술적 노이즈와 더 관련된 매우 중요한 변이가 있습니다. 이는 데이터가 생성된 플랫폼이나 실험실에서 비롯됩니다. 이것은 우리가 관심 있는 것이 아니며, 종종 단순히 조직을 해부하거나 분석을 수행하는 두 사람이 다르거나, 시퀀싱에 사용된 기술이 다르기 때문입니다. 우리는 이러한 기술적 변이의 영향을 나머지, 즉 우리에게 더 흥미로운 부분에서 분리할 수 있는 것에 매우 관심이 있습니다. 그리고 만약 우리가 이것을 할 수 있다면, 우리의 주요 목표는 데이터의 이러한 이질성을 학습하여 세포의 이질성에서 개인 간의 이질성으로 나아가는 것입니다. 또한 이러한 데이터로 이러한 전산 모델을 훈련할 수 있다면, 세포의 섭동 효과를 예측하는 데 더 관심이 있습니다. 예를 들어 환자가 병원에 왔을 때 이 치료가 환자에게 미치는 영향을 예측할 수 있으며, 이것이 우리가 연구하고 있는 맞춤형 의학의 기초입니다.

이 학습과 예측이 어떻게 의미가 있는지, 그리고 여기서 정확히 무엇을 의미하는지 살펴보겠습니다. 세포는 때로는 형태학적으로도 다르게 보이고 다른 프로필을 가지고 있기 때문에 서로 매우 다릅니다. 단일 세포 기술을 통해 우리는 기증자별로 이러한 세포를 프로필링할 수 있으며, 이러한 모든 샘플을 집계하여 소위 세포 아틀라스를 구축할 수 있습니다. 여기서 저는 아틀라스의 2차원 표현만 보여드리고 있으며, 각 점은 단일 세포이며 세포 간의 유사성을 기반으로 색칠되어 있습니다. 여기서 근본적인 질문 중 하나는 세포 간의 이러한 차이점은 무엇인가 하는 것입니다. 때로는 이러한 차이점이 생물학적 과정의 확률론적 성질일 수 있습니다. 예를 들어 내 뇌의 동일한 뉴런도 미세 환경이 다르기 때문에 서로 다를 수 있습니다. 또는 뉴런의 일부가 질병이나 부상에 영향을 받았기 때문일 수도 있고, 앞서 말했듯이 기술적 노이즈일 수도 있습니다. 따라서 우리가 다루고 싶은 첫 번째 질문, 첫 번째 문제는 데이터에서 이러한 변이의 원인을 분리하는 것입니다. 그런 다음 이러한 각 집단 내에서 세포 전체에 공통적이고 나머지 세포와 다른 조절 메커니즘을 찾을 수 있습니다. 이것은 또 다른 주요 문제입니다.

하지만 이 분야에서 데이터를 생성하기 위한 엄청난 노력에도 불구하고, 우리의 데이터는 우리가 가진 기증자와 샘플 수에 의해 여전히 제한적입니다. 따라서 지구상의 모든 인간을 고려할 때, 이러한 아틀라스는 전체 설계 공간의 매우 작고 미세한 부분만 나타냅니다. 따라서 우선 대표적인 아틀라스를 구축하는 것이 매우 중요하며, 전체 집단을 대표할 수 있는 아틀라스가 필요합니다. 하지만 때로는 현재 데이터로는 여전히 불가능할 수도 있습니다. 따라서 데이터의 스냅샷에서만 세포 변화의 전체 그림 또는 전체 스펙트럼을 만들 수 있는 것이 매우 중요합니다. 이것은 제가 가장 좋아하는 화가 가드의 작품이며, 화가는 그림의 일부를 그리고 “이 뒤에 숨겨진 것은 무엇인가”라는 질문을 던집니다. 이것이 우리가 이러한 유형의 기술과 이용 가능한 데이터로 답하고 싶은 질문입니다. 그리고 우리가 실제로 이러한 예측 모델을 만들 수 있다면, 재정적으로 모든 실험을 수행할 수 없기 때문에 어떤 실험에 우선순위를 두어야 하는지 답하는 데에도 도움이 될 수 있습니다. 따라서 어떤 실험이 더 중요한지 알고 싶습니다. 즉, 제가 여러분에게 물어보면, 무슨 일이 일어나고 있는지 이해하기 위해 이러한 조각이나 색상 중 하나를 제거할 수 있다면, 그 조각은 무엇이 될까요? 이것은 우리에게 생물학에 대한 관련성이기도 합니다. 이 질문에 답하기 위해 저는 생성적 인과 모델을 연구해 왔습니다. 생성적 부분은 모델의 예측 가능성에 도움이 되지만, 인과적 부분은 시스템의 근본적인 물리학을 설명하는 일부 방정식을 도출하는 것을 의미하며, 이는 시스템의 다음 상태를 예측하는 데 도움이 될 수 있습니다. 그리고 이것은 물론 시스템의 다양한 변수가 어떻게 함께 작동하는지 알기 때문에 해석 가능성을 향상시키고, 데이터에서 물리적 방정식을 도출하기 때문에 식별 가능성을 높입니다. 그리고 마지막으로 이것은 세포의 다음 단계를 예측할 수 있게 함으로써 생물학으로 확장하고 싶은 일부 사항이기도 합니다. 하지만 이것을 가능하게 하려면 먼저 대표적인 아틀라스를 학습해야 하며, 다음 슬라이드에서 우리가 이것을 어떻게 다루어 왔는지, 그리고 인과 모델이 이러한 대표적인 아틀라스를 더 잘 학습하는 데 어떻게 도움이 되는지 보여드리겠습니다. 그리고 다음으로 이것이 모델의 예측 가능성을 어떻게 향상시켰는지 하나의 예로 보여드리겠습니다.

우리가 하고 싶은 것은 다중 조건 데이터의 표현 또는 저차원 임베딩을 학습하는 것입니다. 이는 데이터가 서로 다른 조건 또는 변이, 예를 들어 서로 다른 연령, 성별 또는 서로 다른 질병에서 비롯된다는 것을 의미합니다. 그리고 이것은 매우 어렵고, 데이터 통합이라고도 합니다. 데이터 통합은 이러한 모든 데이터를 집계하는 것을 의미합니다. 따라서 강연의 나머지 부분에서 이것들을 상호 교환적으로 사용할 수 있습니다. 문제는 우리가 예를 들어 두 명의 다른 기증자와 두 개의 다른 배치, 즉 두 개의 다른 실험에서 비롯된 하나의 샘플을 가지고 있다고 가정해 보겠습니다. 그리고 이러한 샘플 중 하나에서 일부 세포는 질병에 영향을 받았고, 통합 후 우리가 이 데이터의 표현이라고 부르는 것은 우선 주요 생물학적 변이, 즉 세포 유형 간의 차이를 분리하지만, 각 세포 유형 내에서 유사한 세포를 함께 묶는 표현입니다. 따라서 여기서는 두 실험 모두에서 파란색 세포가 함께 묶일 것입니다. 하지만 질병으로 인한 작은 변이도 있기 때문에 이것들이 임베딩에서도 표현되기를 기대합니다. 따라서 세포에서 질병 변이도 관찰할 수 있어야 합니다. 이 모델은 이상적이라고 불립니다. 왜냐하면 생물학적 신호를 포착했고, 서로 다른 실험에서 비롯된 세포를 함께 그룹화했기 때문에 노이즈에 불변하며, 생물학적으로 해석 가능하고, 모델의 다른 초기화로 실행하더라도 항상 이것을 달성하기 때문에 식별 가능합니다. 왜냐하면 이것이 데이터에서 생물학적 신호를 포착하는 유일한 방법이기 때문입니다. 하지만 실제로 이것은 우리가 종종 관찰하는 것이 아닙니다.

종종 우리는 예를 들어 과소 보정, 즉 배치 효과가 너무 커서 질병에 영향을 받지 않은 유사한 세포 사이에서도 분리가 관찰되는 것을 관찰합니다. 또는 과다 보정, 즉 유사한 세포가 함께 그룹화되지만 여기서 이 표현은 질병 간의 차이를 가렸다는 것을 관찰합니다. 따라서 이것은 하나의 과제이지만, 다른 과제는 이러한 아틀라스의 적용에 관한 것입니다. 예를 들어 아틀라스를 구축하고 그것을 참조 아틀라스로 간주하면, 적용은 새로운 데이터 세트를 주석 처리하는 데 이 아틀라스를 사용하는 것입니다. 새로운 데이터 세트에서는 세포의 레이블을 모르므로, 이러한 세포를 참조 아틀라스에 매핑할 수 있기를 바랍니다. 죄송합니다. 이러한 세포를 참조 아틀라스에 매핑하고 주석을 달 수 있기를 바랍니다. 이것은 단일 세포에서 매우 시간이 많이 걸리는 과정이므로 이러한 아틀라스는 매우 유용할 수 있습니다. 하지만 문제는 이 새로운 데이터 세트에 일부 새로운 세포 상태, 예를 들어 여기 있는 이러한 새로운 파란색 세포가 있거나, 약간 다른 경우입니다. 그러면 이러한 참조 아틀라스의 상당수가 세포를 이러한 참조 아틀라스에 제대로 매핑하지 못할 수 있습니다. 단순히 이러한 P 예시 세포가 참조 아틀라스에서 보이지 않기 때문입니다. 따라서 매우 유사한지 약간 유사한지에 관계없이 가장 유사한 세포에 매핑할 가능성이 높습니다.

따라서 이것은 또 다른 과제이며, 우리의 최신 검토 논문에서 CM 모델이 이러한 아틀라스를 실제로 처리하는 데 어떻게 도움이 될 수 있는지 논의했습니다. 문제는 실제로 여기서 표현 학습에 사용되는 많은 모델이 통계적 방법이며, 이러한 방법은 또한 허위 상관 관계에 기반할 수 있다는 것입니다. 여기서 통계 모델에서 변수 간의 상호 작용을 보여드리고 있으며, 이러한 상호 작용의 상당수는 데이터의 상관 관계 때문에 허위일 수 있습니다. 결과적으로 이러한 통계적 방법을 사용하면 훈련 환경, 즉 서로 다른 세포와 서로 다른 약물로 모델을 훈련하면 훈련 데이터와 유사한 세포 또는 훈련 데이터와 유사한 약물로 테스트하면 이러한 모델이 예측을 할 수 있을 수 있습니다. 하지만 새로운 세포 또는 새로운 약물과 같은 참조 외부 샘플로 이동하면 이러한 모델은 세포의 약물 반응을 예측하는 데 실패할 가능성이 매우 높습니다. 하지만 변수 간의 상호 작용이 시스템의 근본적인 실제 물리학에 기반한 인과 모델이 있다면, 이 경우 이 모델은 이러한 새로운 환경에서도 예측을 할 수 있어야 합니다. 하지만, 알겠습니다. 이것은 매우 이상적인 상황, 이상적인 CM 모델입니다. 하지만 이러한 인과 모델을 도출하기 위해, 우리는 훈련을 위한 다양한 섭동 세트가 필요하고, 훈련을 위한 섭동당 충분한 복제본이 필요하다고 논문에서 논의했습니다. 하지만 이것 외에도 종종 큰 문제, 예를 들어 수천 개의 변수가 있는 생물학에서는 모든 가능한 다양한 섭동을 가지고 각 섭동에 대한 복제본을 가지는 것이 종종 불가능합니다. 따라서 예측을 위한 인과 모델에서 도출할 수 있는 것은 여전히 우리가 훈련에 사용해 온 데이터에 제한됩니다. 여기서 이러한 점들은 훈련에 사용된 데이터를 보여주고, 환경 예측에서 녹색으로 표시되고, 참조 외부 또는 새로운 환경 예측은 노란색으로 표시됩니다. 그리고 이러한 인과 모델이 예측할 수 없을 수도 있는 설계 공간의 여전히 큰 부분이 있습니다. 하지만 이러한 모든 일반화 성능은 우리가 이러한 모델에 제공하는 중재 데이터의 양에 달려 있으며, 더 많은 데이터로 물론 개선될 수 있지만, 이것은 한계 중 하나입니다. 이러한 인과 모델의 또 다른 과제는 우리가 종종 관심 있는 것이 변수 간의 상호 작용, 실제 상호 작용을 찾는 것이고, 이러한 상호 작용의 방향성을 추론하기 위해 중재가 도움이 될 수 있지만, 문제는 이러한 중재가 종종 완벽하다고 가정된다는 것입니다. 즉, 하나의 변수를 대상으로 하고, 예를 들어 0으로 설정하거나 생물학에서는 유전자를 녹아웃하여 중재합니다. 그러면 이 경우 이것은 예를 들어 유전자 간의 일부 실제 상호 작용을 찾는 데 도움이 될 것입니다. 하지만 실제 사례에서는 종종 섭동이 완벽하지 않습니다. 즉, 이 그래프에서 예를 들어 G4를 대상으로 하고 싶지만, 실제로 이 섭동은 시스템의 다른 유전자나 다른 변수에도 영향을 미칩니다. 그리고 이것이 우리가 오프 타겟 효과라고 부르는 것이며, 약물 발견에서는 큰 과제이기도 합니다. 따라서 이것은 실제 적용에서 완벽한 중재를 갖는 것이 불가능할 때 고려해야 할 또 다른 사항입니다.

따라서 이제 제가 묻고 싶은 질문은, 우리가 정말로 세포의 진정한 인과 모델을 학습할 수 있을까요? 그리고 우리가 충분한 데이터도 없고 완벽한 중재도 없기 때문에 정말로 그것을 학습하는 데 시간을 써야 할까요? 제 관점은, 여러분의 관점도 듣고 싶지만, 현재 이 정도의 데이터 양과 데이터의 노이즈로는 진정한 인과 모델을 학습하는 것은 거의 불가능하지만, 데이터의 허위 상관 관계를 줄임으로써 인과 모델에 가깝거나 적어도 인과 모델에서 영감을 받은 모델을 학습할 수 있다고 봅니다. 이것이 제가 인과 관계에서 영감을 받은 모델이라고 부르는 이유입니다. 그것들은 반드시 진정한 인과 모델은 아니지만, 이 개념에서 영감을 받았습니다. 이제 제가 개발한 최신 방법 중 하나로 넘어가고 싶습니다. 이 방법은 데이터에서 허위 상관 관계를 상당히 줄이려고 시도한다고 생각합니다.

아이디어는 다음과 같습니다. 우리는 대조군과 사례군 세포를 가지고 있습니다. 사례군 세포는 예를 들어 바이러스와 같은 생물학적 공변량에 감염되었습니다. 이것은 예를 들어 유전자 발현과 같은 반응 변수의 분포에 변화를 일으킵니다. 하지만 이 세포가 다른 환경에서 시퀀싱되었다고 말씀드리면 어떨까요? 관찰에 기술적 변이도 있습니다. 이제 질문은 이 분포의 변화가 바이러스 때문인가, 기술적 노이즈 때문인가, 아니면 둘 다 때문인가 하는 것입니다. 종종 둘 다 때문이지만, 우리는 실제로 무엇이 무엇인지 어떻게 이해할 수 있을까요? 불변 표현의 아이디어는 동일한 조건 하에서 다른 환경에서 세포를 관찰하면, 이러한 환경은 데이터의 허위 상관 관계에만 영향을 미치고, 질병과 세포 간의 실제 관계는 불변으로 유지되어야 한다는 것입니다. 따라서 이 가정을 사용하여 세포 분포를 도출할 수 있으며, 이는 데이터에서 불변성을 허위 상관 관계와 분리하는 데 도움이 될 수 있습니다. 하지만 우리는 이것을 어떻게 달성할 수 있을까요? 이것은 제가 제안하는 생성 과정이며, 제 세포가 이 과정에서 생성된다고 가정합니다. 여기서 변수 X는 제 유전자 발현을 나타내며, 세포의 유전자 발현이 두 세트의 잠재 변수에서 생성된다고 가정합니다. 첫 번째는 불변 변수이고, 두 번째는 허위 변수입니다. 불변 요인은 생물학적 공변량, 예를 들어 질병에만 영향을 받는 사전 분포에서 비롯됩니다. 반면에 허위 요인은 기술적 공변량, 예를 들어 배치 또는 우리가 사용하는 기술에만 의존하는 다른 사전 분포에서 비롯됩니다. 우리는 데이터를 사용하여 이러한 사전 분포를 도출합니다. 이러한 사전 분포는 데이터에서 추론되고 훈련됩니다. 그런 다음 데이터에서 이러한 잠재 요인을 학습할 수 있다면, 이러한 불변 변수를 사용하여 불변 표현을 도출할 수 있습니다. 우리는 세포 유형 전체와 서로 다른 질병 전체에서 생물학적 변이를 포착해야 합니다. 그리고 더 흥미롭게도 데이터에서 허위 상관 관계가 무엇인지 이해할 수도 있습니다. 이것은 매우 중요합니다. 왜냐하면 문헌의 대부분의 방법에서는 허위 상관 관계에 대한 정보가 없고, 불변성만 제공하기 때문에, 우리가 데이터에서 허위로 제거한 것이 무엇인지 실제로 알지 못하기 때문입니다. 이를 통해 데이터의 허위 표현을 시각화할 수도 있으며, 이는 배치 간의 기술적 변이를 찾는 데 도움이 되고, 결과 검증의 또 다른 방법입니다. 물론 모델에 올바른 손실 함수를 적용하여 불변성과 허위성 간의 부분적 독립성이 있어야 합니다.

전반적으로 아키텍처는 다음과 같습니다. 변이형 오토인코더 기반 모델이며, 유전자 발현과 생물학적 및 기술적 공변량을 입력으로 받아 두 세트의 잠재 변수를 추론합니다. 하지만 앞서 말했듯이 각 세트는 모델에서 추론되고 훈련될 서로 다른 사전 분포를 가집니다. 그리고 유전자 발현 분포의 매개변수를 학습하는 디코더가 있습니다. 우리의 경우 음이항 분포입니다. 그리고 우리의 샘플은 이 분포의 매개변수를 사용하여 재구성됩니다. 이것이 실제 예에서 어떻게 작동하는지 보기 위해, 대조군과 심근병증의 심장 아틀라스를 통합하거나 구축하는 예시를 가져왔습니다. 이것은 매우 복잡한 데이터 세트입니다. 여러 질병이 있기 때문입니다. 대조군, 확장성 심근병증, 부정맥 유발성 심근병증이 있습니다. 이 외에도 샘플은 다른 성별과 연령에서 유래했지만, 이 특정 데이터 세트에서는 이러한 변이에 관심이 없고 질병으로 인한 변이에 관심이 있습니다. 또한 이러한 질병의 다른 변이도 있습니다. PKP2는 ACM에서 유일한 변이지만, 나머지는 DCM과 관련이 있습니다. 또한 이러한 세포는 심장의 다른 영역에서 유래했습니다. 심장의 해부학적 영역이 세포와 그 기능에 영향을 미치는지 알고 싶습니다. 결과를 보기 위해, 제가 보여드리는 첫 번째 뷰 맵은 문헌에서 널리 사용되는 관련 연구 중 하나의 표현입니다. 매우 강력하고 좋은 방법은 scVI라고 불립니다. 이 방법은 주로 유사한 조건에서 유래한 균질한 샘플에 대해 제안되었지만, 여기서 저는 다른 질병을 제시하여 이를 검증했습니다. 우리가 관찰한 것은 우선 AG 집단 내에서 이러한 모든 다른 조건의 세포가 병합되어 있다는 것입니다. 이는 모델이 데이터에서 주요 집단을 찾을 수 있었지만, 질병 전반에 걸쳐 미묘한 차이를 찾을 수 없었다는 것을 의미합니다. 하지만 실제로 우리는 그들 사이에 약간의 차이가 있을 것으로 예상합니다. 이것은 우리의 방법인 NV의 결과입니다. 여기서 저는 두 표현 모두에서 섬유아세포와 관련된 집단을 강조하고 있습니다. 여러분이 보는 것은 대조군 세포가 질병 세포와 잘 분리되어 있고, 질병 세포는 서로 더 유사하다는 것입니다. 이는 문헌에서도 검증된 것입니다. 이것은 배치 보정을 평가하는 데 사용하는 일부 벤치마킹 결과입니다. 배치 보정은 유사한 조건 또는 다른 배치이지만 유사한 조건의 세포가 얼마나 잘 병합되었는지 측정하고, 보존은 예를 들어 대조군과 질병과 같은 다른 조건의 세포가 얼마나 잘 분리되었는지 측정합니다. 전반적으로 MV는 관련 연구보다 훨씬 뛰어난 성능을 보입니다. 이는 제가 여기서 보여드리는 대부분의 방법이 균질한 데이터 세트에 대해 제안되었기 때문입니다. 하지만 이것은 데이터의 2차원 표현일 뿐이며, 생물학적으로 의미가 있는지 알고 싶습니다. 이를 위해 저는 각 세포 유형을 해부하고 확대했습니다. 여기서 저는 섬유아세포만 살펴보는 질병 세포 상태를 보여드리고 있으며, 첫 번째 UMAP은

변이에 따라 색칠되어 있고, 두 번째는 질병과 새로운 데이터 주석에 따라 색칠되어 있습니다. 이 새로운 주석의 이유는 여기에 표현의 일부가 있다는 것을 알았기 때문입니다. 여기서 일부 DCM 세포가 ACM 세포와 겹쳐져 있습니다. 이것들은 두 가지 다른 질병입니다. 따라서 첫 번째 질문은 왜 ACM과 유사한 일부 DCM 세포를 관찰하는가였습니다. 저는 그들을 ACM 유사라고 불렀습니다. 그리고 이 차이가 마커 유전자의 발현에서 우리가 예상하는 것, 즉 이러한 질병에 대해 도입된 마커 유전자의 발현에서 우리가 관찰하는 것과도 관련이 있는지 알고 싶었습니다. 첫 번째 점 그림에서 다양한 변이에 대한 이러한 질병과 관련된 일부 유전자의 발현을 볼 수 있습니다. 보시다시피 질병의 네 가지 변이는 대조군에 비해 다소 매우 유사합니다. 이것은 대조군 세포가 질병 세포와 매우 분리된 이유를 설명합니다. 하지만 ACM과 ACM 유사 세포를 살펴보면 이러한 마커의 발현이 이 둘 사이에서 매우 유사하다는 것을 알 수 있습니다. 하지만 이것은 다릅니다. 그리고 여기에 위치한 이러한 DCM 세포도 다시 우리의 결과를 검증합니다. 그리고 이 막대 그래프에서 저는 다소 동일한 것을 보여드리고 있지만, 여기서 이러한 유전자를 집계하고 ACM 점수를 계산했습니다. 그러면 ACM 점수도 ACM과 ACM 유사 세포 사이에서 매우 유사하다는 것을 알 수 있습니다. 이 방법을 통해 과거에 발견되지 않았던 DCM 세포에서 일부 새로운 세포 상태를 발견할 수 있었습니다. 이것은 심장 전문의에게도 매우 흥미로운 것입니다. 두 번째 예는 예측에 관한 것입니다. 이것은 생성 모델이지만 예측에는 어떻게 작동할까요? 이 예측 성능을 연구하는 한 가지 방법은 데이터를 훈련 및 테스트 데이터로 분리하고 예측을 수행하는 것입니다. 이를 위해 여기서 세 개의 데이터 세트, 세 개의 연구를 보여드립니다. 이것은 심장병 또는 제가 보여드린 것과 매우 유사한 데이터 세트입니다. 하지만 이전 것은 하나의 연구일 뿐이었지만, 이것은 두 개 이상의 연구를 집계한 것입니다. 그리고 이것이 제가 훈련 및 테스트 데이터를 분리한 방식입니다. 훈련 데이터에는 두 개의 연구, 68명의 기증자가 있으며, 이것이 MBA의 결과로서 세포 유형과 질병 분리가 어떻게 보이는지입니다. 테스트 데이터에는 두 가지 시나리오가 있었습니다. 한 시나리오에서는 질병이 훈련 데이터와 매우 유사했지만, 이것들은 다른 기증자이고 심지어 다른 연구이므로 배치 효과와 기증자 간의 변이가 있습니다. 따라서 실제로 복잡한 예측입니다. 하지만 훨씬 더 복잡한 두 번째 시나리오에서는 모델에 새로운 질병을 도입했습니다. 따라서 이 HCM1은 훈련 중에는 전혀 보이지 않았습니다. 결과를 살펴보겠습니다.

우리 아틀라스는 질병과 세포 유형에 대한 정보를 모두 가지고 있기 때문에, 질병과 세포 유형을 기반으로 예측을 했습니다. 예를 들어 세포가 섬유아세포인지, 섬유아세포 DCM인지, 아니면 섬유아세포 건강한 세포인지 알고 싶었습니다. 이것이 우리가 H 타겟이라고 부른 방식입니다. 평균적으로 문헌의 최고 방법 중 일부보다 세포 유형과 세포의 질병 상태를 예측하는 데 훨씬 뛰어난 성능을 보입니다. 그리고 해석 가능성에 대해서도 말씀드렸습니다. 죄송합니다. 해석 가능성은 우리가 훈련 후 제거하는 허위 특징 또는 특징을 살펴볼 수 있기 때문에 향상될 수 있습니다. 지금까지 보여드린 모든 표현은 불변 특징만 사용하고 있습니다. 이를 테스트하기 위해 세 개의 분류기를 사용했고, 각 분류기에 대해 다른 예측 타겟을 사용했습니다. 한 경우에는 잠재 표현을 사용하여 배치 ID를 예측했고, 다른 경우에는 세포 유형을, 또 다른 경우에는 질병을 예측했습니다. 우리는 모델이 이러한 예측을 하는 데 사용할 수 있는 중요한 특징이 무엇인지 알고 싶었습니다. 따라서 배치 ID를 예측하는 경우, 이것은 허위 상관 관계이므로 모델이 이러한 예측을 하는 데 허위 특징만 사용할 것으로 예상합니다. 그리고 이것이 실제로 우리가 관찰하는 것입니다. 배치 ID 예측은 허위 특징에 크게 의존합니다. 또한 세포 유형과 질병의 경우, 불변 특징이 예측의 주요 동인이 될 것으로 예상합니다. 그리고 이것은 결과에서 매우 잘 관찰됩니다. 마지막으로 중요한 결과는 in VAE가 보이지 않는 질병에 대해 세포 유형을 예측하려는 두 번째 시나리오에서 어떻게 수행되는지입니다. 이것은 매우 어려운 작업이지만, 여기서 우리는 세포 유형만 예측할 수 있고 질병은 예측할 수 없습니다. 왜냐하면 질병은 훈련 중에 전혀 보이지 않았기 때문입니다. 이것이 우리가 여기서 세포 유형만 훈련하고 예측하는 이유입니다. 세포 유형 예측은 이전 것과 비교하여 세포 유형-질병보다 쉽습니다. 따라서 여전히 분야의 최고 방법 중 하나인 XV보다 성능이 뛰어나지만, 이 목적을 위한 다른 방법과 더 유사한 성능을 보이는 이유입니다. 하지만 그것은 주로 결과의 변화가 이전 것과 비교하여 더 컸다는 것을 보시다시피, 여기서 질병을 예측할 수 없기 때문입니다. 하지만 예측할 수 있었다면 아마도 in VAE가 다시 더 나은 성능을 보였을 것입니다. 요약하자면, 단일 세포 데이터를 통합하는 최신 방법 중 하나의 일부 결과를 보여드렸습니다. 이 모델은 인과 모델에서 영감을 받았으며, 불변 특징에서 허위 상관 관계의 영향을 줄이려고 시도합니다. 일부 실제 데이터 세트에서 허위 상관 관계를 실제로 학습하고, 단일 세포 유전체학에서 매우 복잡한 작업인 다변량 데이터에서 세포 식별을 개선한다는 것을 일부 예시를 통해 보여드렸습니다. 그리고 우리의 논문에서 매우 유망한 새로운 세포 상태를 식별할 수 있었다는 것을 보여드렸습니다. 또한 마지막 예시에서는 MV가 참조 외부 LSS 및 질병 상태를 예측하는 데 어떻게 수행되는지 보여드렸습니다. 이를 통해 하몬 뮌헨의 파비안 타이 연구실의 동료들과 현재 그룹인 로스 벤토 TMO, 그리고 공동 연구자인 유아 벤조와 사라 탄스에게 감사를 표하고 싶습니다. 네, 들어주셔서 대단히 감사합니다. 질문을 기다리겠습니다. 아, 매우 흥미로운 발표 감사합니다. 질문 있으신 분은 텍스트나 음성으로 질문해 주시면 제가 답변해 드리겠습니다. 이 웨비나에서는 음성 질문을 허용하도록 설정되어 있습니다. 네, 크리스 안녕하세요.

발표 감사합니다. 정말 흥미로웠습니다. 모델에 대한 질문이 있습니다. 16페이지에서 잠재 변수가 상호 작용하는 것을 보여주셨는데, 그것에 대해 좀 더 설명해 주시겠습니까? 그리고 그것들은 상관 관계가 있습니까, 아니면 상관 관계가 없습니까? 네, 이 점을 지적해 주셔서 감사합니다. 시간이 부족해서 자세히 설명하지 못했지만, 네, 사실은 생물학에서 잠재 변수가 서로 상호 작용해야 하는지 아닌지 실제로 알지 못하지만, 우리는 어떻게든 그럴 것이라고 추측합니다. 왜냐하면, 음, 우리는 정확히 잠재 변수가 무엇인지 모르기 때문에 모릅니다. 하지만 이러한 잠재 변수가 일종의 유전자 프로그램 활동이나 경로 활동을 나타낸다고 가정하면, 경로가 종종 유전자를 공유하고 그 활동이 공유될 수 있기 때문에 상관 관계가 있을 것으로 예상해야 합니다. 이 경우, 우리는 in VAE를 변수 간의 의존성을 고려할 수 있을 만큼 유연하게 만들었습니다. 이를 위해 불변 요인에 대한 사전 분포에 일반 지수족 분포를 사용했습니다. 이렇게 하면 그것들을 의존적으로 만들 수 있습니다. 하지만 제가 보여드린 예에서는 종종 그것들이 적어도 손실 함수에서는 독립적이라고 가정합니다. 하지만 실제로는 의존성을 계산하면 의존성이 있어야 합니다. 단순화를 위해 그렇게 했습니다. 알겠습니다. 감사합니다. 이해가 됩니다.

Q&A에 질문이 있습니다. 올리비아 갤럽 님께서 발표 감사합니다. 허위 변수와 불변 변수의 잠재 공간을 어떻게 다르게 처리했는지, 그리고 다른 커널과 비교하여 VAE에 이항 커널을 사용한 이유는 무엇인지 설명해 주시겠습니까? 음, 네, 제 슬라이드를 아주 간략하게 공유하겠습니다.

음, 첫 번째 질문에 대해 말씀드리자면, 이 둘의 주요 차이점은 사전 분포입니다. 즉, 변이형 오토인코더에서 우리는 모든 잠재 변수가 평균 0, 분산 1의 정규 분포를 갖는다고 가정하지만, 여기서 우리는 이러한 사전 분포를 추론합니다. 따라서 이러한 사전 분포는 불변 변수와 허위 변수 간에 다릅니다. 예를 들어, 불변 변수의 사전 분포는 생물학적 공변량에 조건부입니다. 즉, 이것이 질병 A라고 주어지면, 이러한 변수의 정규 분포의 매개변수를 추론합니다. 그리고 이것이 예를 들어 기증자 X에서 비롯되었다는 것을 알면, Z의 사전 분포도 예측합니다. 이것이 우리가 그들 사이를 자세히 설명하는 방법입니다.

음, 왜 이항 커널을 사용했습니까? 사실 우리는 음이항 분포를 사용했습니다. 단일 세포 데이터가 음이항 분포를 갖는다고 가정합니다. 이것은 해당 분야에서 논의되어 왔으며, 재구성과 표현을 상당히 개선한다는 것이 입증되었습니다. 그렇기 때문에 음이항 분포의 매개변수를 추론한 다음 그것으로부터 데이터를 예측하고 데이터를 재구성합니다.

죄송합니다. 다른 질문이 있는지 답변이 되었기를 바랍니다. 방법론에 대한 작은 질문이 하나 있습니다. 하지만 올리비아 G 님께서 대단히 감사합니다. 방법론에 대한 질문이 하나 있습니다. 다소 순진한 질문일 수 있지만, 유전자 발현이나 다른 생물학적 조건에 차이가 있을 때 대부분의 방법론은 그렇게 처리합니다. 그렇다면 세포 사멸이나 세포 사멸이 있을 때 어떻게 연구하려고 시도하시겠습니까? 일부 치료법은 세포를 죽인다고 상상해 보세요. 그것을 모델에 어떻게 입력하시겠습니까? 아니면 입력으로 사용하시겠습니까? 음, 그것은 매우 좋은 질문입니다. 여기서 우리는 데이터를 모델에 제공하기 전에 일부 전처리를 수행합니다. 따라서 우리가 죽은 세포라고 생각하는 모든 세포를 제거하기를 바랍니다. 하지만 여전히 이것이 제대로 필터링되지 않았을 수도 있습니다. 하지만 그것은 여러분의 질문과도 관련이 있을 수 있습니다. 즉, 일반적으로 이러한 유형의 정보를 모델에 어떻게 추가할 수 있을까요? 이것은 일부 연속적인 공변량으로만 표현될 수 있는 다른 공변량을 가질 수도 있습니다. 여기서 우리는 범주형 공변량만 논의하고 있지만, 예를 들어 세포가 죽었는지 여부와 같은 일부 정보는 범주형이 아닌 연속적인 값으로만 설명할 수 있습니다. 이 경우 네, 우리는 범주형을 연속형으로 실제로 변경할 수 있으며, 이것은 모델이 할 수 있는 일이지만 아직 테스트하지 않았습니다. 그리고 연속 변수를 사용하는 것은 식별 가능성에 대한 일부 우려를 더하기 때문입니다. 즉, 검색 공간이 상당히 증가하고 각 범주형 변수에서 임베딩을 학습하고 있지만, 그 경우에는 연속 변수에서 임베딩을 학습해야 합니다. 그리고 우리가 매우 관심 있는 테스트는 이것이 의미가 있는지 여부입니다. 예를 들어 제가 보여드린 ACM과 DCM과 같이 질병을 이름으로 지정할 수 없는 경우가 있습니다. 아마도 질병의 심각도나 스펙트럼이 있고, 실제로 연속 변수를 할당하고 싶을 것입니다. 이것들은 모두 매우 흥미로운 질문이며, 앞으로 연구하고 싶습니다. 아름답습니다. 감사합니다. 다른 게스트의 질문이 있습니다.

파비안 안녕하세요, 들리시나요? 네, 네, 알겠습니다. 좋은 발표 감사합니다. 마지막 질문에서 이미 암시되었듯이, 원칙적으로 모델로 할 수 있는 것은 스타일 변환과 같습니다. 즉, 특정 세포가 이 질병이나 이 특정 상황에서 어떻게 보일지 예측하는 것입니다. 기술적으로는 가능해야 하지만, 실제로 작동하는지, 아니면 시도해 보셨는지 궁금합니다. 음, 이것은 제가 지금 실험적, 즉 습식 실험실 실험이 필요하기 때문에 시도하고 있는 것입니다. 따라서 우리가 매우 열정적으로 테스트하고 싶은 것입니다. 음, 물론 일부 경우에 일부 합성 데이터로 이러한 세포를 변경하면 질병에 더 가까워지는 것을 보여줄 수 있지만, 우리는 이러한 변화를 더 잘 검증하고 싶습니다. 따라서 우리는 모델의 예측을 기반으로 실험실에서 일부 실험을 설계하고 있습니다. 이것이 여러분의 질문에 답이 되었기를 바랍니다. 하지만 실험적으로 테스트하지 않았기 때문에 지금은 답변할 수 없습니다. 하지만 제 생각에는 예측만으로는, 즉 일부 합성 환경, 합성 설정에 기반한 예측만으로는 신뢰할 수 있을지 모르겠습니다. 따라서 지금은 답변하는 것이 편하지 않지만, 앞으로 일부 결과를 통해 답변할 수 있기를 바랍니다. 네, 물론입니다. 하지만 매우 간단해 보입니다. 특정 하위 집단을 데이터 세트에서 제거하고, 그것이 세포 유형이나 질병 등으로 표현될 수 있다는 것을 알고 있다면, 그것을 다시 찾을 수 있는지, 아니면 다른 모든 것에서 그것을 추론할 수 있는지 확인하는 것만으로는 충분하지 않을까요? 네, 그렇게 할 수 있습니다. 네, 세포 수준에서는 그렇습니다. 그리고 성능은 상당히 좋을 것이라고 생각합니다. 왜냐하면 이것은 예를 들어 테스트 데이터에 새로운 질병을 추가하거나 실제로 새로운 세포 상태를 추가할 때 우리가 수행하는 예측과 다소 유사하기 때문입니다. 따라서 여러분이 제안하는 것과 다소 유사하다고 생각합니다. 제가 말했던 것은 유전자, 즉 변수 수준에서 섭동을 가하는 것이므로, 그것이 더 어렵습니다. 네, 이해가 됩니다. 네, 네.

다른 질문이 하나 더 있습니다. 크리스 반스 님께서 “해석 가능성”이란 여기서 무엇을 의미하는지 설명해 주시겠습니까? 어떤 잠재 변수가 기여하는지 알 수 있는 것 같지만, 거기서 어디로 가시나요? 음, 네, 그것은 좋은 질문입니다. 해석 가능성이라고 할 때, 우리는 그것을 다른 수준에서 정의할 수 있습니다. 네, 각 잠재 변수가 무엇을 의미하는지 말할 수 있습니다. 이것은 생물학에서 매우 열린 질문입니다. 아무도 이것에 답할 수 있다고 생각하지 않습니다. 우리는 항상 예를 들어 일부 풍부도 점수를 찾아 이러한 잠재 변수를 일부 경로와 연관시키려고 시도할 수 있습니다. 이것은 과거에 수행되었던 일이지만, 종종 결과는 여전히 많은 방법론에서 식별 가능성 문제가 있기 때문에 좋지 않습니다. 이것은 결과의 해석 가능성을 크게 변경할 수 있습니다. 이것이 제가 그것을 피하고 있고, 아무도 이 질문에 쉽게 답할 수 있다고 생각하지 않는 이유입니다. 하지만 제가 해석 가능성이라고 의미했던 것은, 허위성을 불변성에서 제거하고, 허위성이 사전 지식과 일부 메타데이터와 관련된 우리가 허위라고 부르는 것과 실제로 관련이 있다는 것을 보여줌으로써 그것을 개선한다는 것입니다. 이것이 제가 해석 가능성이라고 의미하는 것입니다. 하지만 네, 그것은 매우 좋은 질문이며, 현재로서는 답하기가 매우 어렵습니다. 알겠습니다. 답변 감사합니다. 음, 시간이 다 된 것 같습니다. 하지만 이 웨비나에 참석해 주신 모든 분들께 대단히 감사합니다. 그리고 특히 한나 박사님께 발표와 강연에 감사드립니다. 정말 흥미로웠고, 다음 세미나에서 다시 뵙기를 바랍니다. 네, 초대해 주셔서 정말 감사합니다. 천만에요. 안녕히 계세요.