A Survey on Causal Generative Modeling
Overview
인과 생성 모델링 분야는 전통적인 심층 생성 모델(예: VAE, GAN, Normalizing Flows, Diffusion Models)의 한계를 극복하기 위해 부상했습니다. 전통적인 모델은 복잡한 데이터 분포를 근사화하여 새로운 데이터를 생성하는 데는 능숙하지만, 생성 과정에 영향을 미치는 기저 요인들이 무엇인지, 그리고 그 요인들이 어떻게 영향을 미치는지(인과 메커니즘)는 포착하지 못합니다.
인과 생성 모델링의 핵심 목표는 변수 간의 인과 메커니즘을 모델링하여, 보다 견고하고 실제 세계의 복잡성을 반영하는 모델을 학습하는 것입니다. 이를 통해 특정 요인을 변경했을 때 나타나는 효과를 개입(Intervention)을 통해 쉽게 추론할 수 있으며, 학습 데이터의 범위를 벗어나는 상황에 대한 반사실적(Counterfactual) 인스턴스를 생성하여 “환자 시뮬레이션”과 같은 것을 가능하게 합니다.
이 분야의 주요 연구 문제 및 접근 방식은 크게 두 가지 범주로 나눌 수 있습니다:
- 인과 표현 학습 (Causal Representation Learning, CRL):
- 연구 문제: 관측된 데이터(x)로부터 기저에 있는 인과 변수(z), 해당 인과 DAG(방향성 비순환 그래프), 그리고 인과 메커니즘(z를 생성하는 함수)을 학습하는 것을 목표로 합니다. 주요 과제는 이러한 기저 인과 요인과 메커니즘을 식별 가능하게(Identifiable) 학습하는 것입니다. 식별 가능성은 모델 학습을 여러 번 수행하더라도 (허용 가능한 모호성 내에서) 항상 동일한 고유한 해를 얻는 것을 보장합니다.
- 접근 방식: 다양한 유형의 데이터를 활용하고 특정 가정을 통해 식별성을 달성합니다.
- 데이터 유형별 접근 방식:
- 관측 데이터 (Observational): 순수한 통계적 상관관계만 모델링하며 인과적 관점을 제공하지 않습니다. 단독으로는 식별성을 보장하기 어렵습니다.
- 개입 데이터 (Interventional): 시스템을 조작하여 다른 변수에 대한 하류 효과를 관찰하는 데 중점을 둡니다. 인과 변수에 대한 단일 노드 개입을 포함하는 짝지어지지 않은(unpaired) 개입 데이터를 사용한 접근 방식이 있습니다. 여러 관련 분포로부터 학습하는 멀티 환경 설정도 포함됩니다.
- 반사실 데이터 (Counterfactual): 가장 복잡한 계층이며, 특정 개입 하에 사실과 반대되는 대안적 상황을 상상하는 단위 수준 쿼리를 다룹니다.
- 모델 및 기술 기반 접근 방식:
- VAE 기반: CausalVAE, SCM-VAE, ICM-VAE, DEAR, Discrepancy-VAE 등이 있습니다. 이러한 모델은 잠재 공간의 인과 변수에 대한 사후 분포를 학습합니다. 종종 보조 레이블 정보나 구조적 인과 사전(prior)을 사용하여 식별성을 도모합니다.
- Temporal Methods: CITRIS, iCITRIS, BISCUIT 등 시간적 종속성과 개입을 활용하여 인과 변수를 식별하는 접근 방식입니다. BISCUIT은 알려지지 않은 이진 상호작용(binary interaction) 변수를 가정합니다.
- 비모수적 CRL: 인과 그래프나 개입 대상이 모두 알려지지 않은 설정에서 CRL을 연구합니다.
- 식별성 기술: 보조 변수/레이블 사용, 대비 학습(contrastive learning), 독립 메커니즘 분석(Independent Mechanism Analysis), 희소성(sparsity) 제약, 멀티 환경/멀티 뷰 데이터 활용 등이 식별성을 달성하기 위한 주요 기술입니다.
- 데이터 유형별 접근 방식:
- 제어 가능한 반사실 생성 (Controllable Counterfactual Generation, CCG):
- 연구 문제: 사실적 관찰에 대한 반사실적 이미지를 생성하는 것이 주요 목표입니다. 특히 관측된 레이블이 주어졌을 때 고품질의 이미지 반사실을 생성하는 데 중점을 둡니다.
- 접근 방식: 다양한 유형의 생성 모델을 활용하여 인과 관계를 모델링하고 반사실적 추론을 수행합니다. 반사실적 추론은 일반적으로 Pearl의 인과 계층(Pearl’s Causal Hierarchy, PCH)의 세 단계, 즉 납치(Abduction), 행동(Action), 예측(Prediction)을 따릅니다.
-
납치 (Abduction): 관측값(z)과 호환되는 노이즈 항(ϵ)을 추론합니다 (즉, p(ϵ z)). - 행동 (Action): 원하는 조작에 해당하는 개입 do(zi = c)를 수행하여 수정된 SCM(C̃)을 생성합니다. 개입은 부모와의 종속성을 제거하는 ‘하드 개입’ 또는 부모에 대한 종속성을 변경하는 ‘소프트 개입’일 수 있습니다.
-
예측 (Prediction): 수정된 SCM(C̃)과 추론된 노이즈(p(ϵ z))를 기반으로 반사실적 결과를 계산합니다.
-
- 모델 패러다임 기반 접근 방식:
- GAN 기반: CausalGAN, CGN, CONIC 등이 있습니다. 이러한 모델은 생성자를 사용하여 인과 변수 간의 메커니즘을 학습하고 적대적 학습 과정을 통해 샘플을 생성합니다. CausalGAN은 조건부 GAN을 수정하여 개입 분포에서 샘플링을 지원합니다.
- Flow/VAE 기반: DSCM, Causal-HVAE 등이 있습니다. DSCM은 정규화 흐름(Normalizing Flows)을 사용하여 SCM을 모델링하고 VAE 기반 방법을 통해 외인성 노이즈를 추론하여 반사실적 추론을 수행합니다. Causal-HVAE는 잠재 매개변수(mediator)를 도입하여 직간접 효과 계산을 가능하게 합니다.
- Diffusion 기반: Diff-SCM, DCM 등이 있습니다. 확산 모델은 고품질 데이터 생성에 효과적이며, 인과 프로세스를 모델링하여 반사실 추론을 가능하게 합니다. DCM은 각 인과 변수에 대해 별도의 확산 모델을 학습하고 부모 변수에 조건을 부여하여 반사실 추론을 수행합니다.
이 분야의 애플리케이션으로는 신뢰할 수 있는 AI, 정밀 의학 및 생물학이 언급됩니다. 예를 들어, 희소하거나 수집이 어려운 환자 데이터를 증강하는 데 사용될 수 있습니다.
현재 연구 과제로는 인과적 요인과 메커니즘의 식별성 문제, 특히 대규모 생성 모델에서의 식별성 연구, 차등 프라이버시(Differential Privacy) 보존, 확산 모델을 사용한 인과 표현 학습 등이 있습니다.
Preliminaries
Causality
-
Causality, Cambridge University Press, Cambridge, UK, 2 edition, 2009 [book]
-
On Pearl’s Hierarchy and the Foundations of Causal Inference, Probabilistic and Causal Inference: The Works of Judea Pearl 2022 [paper]
-
Elements of Causal Inference: Foundations and Learning Algorithms, The MIT Press 2017 [book]
Independent Component Analysis
-
Analyse générale des liaisons stochastiques: etude particulière de l’analyse factorielle linéaire, Review of the International Statistical Institute 1953 [paper]
-
Independent component analysis, a new concept? Signal Processing 1994 [paper]
-
Nonlinear Independent Component Analysis: Existence and Uniqueness Results, Neural Networks 1999 [paper]
-
Nonlinear ICA using Auxiliary Variables and Generalized Contrastive Learning, AISTATS 2019 [paper]
-
The Incomplete Rosetta Stone Problem: Identifiability Results for Multi-View Nonlinear ICA, UAI 2019 [paper]
-
Independent mechanism analysis, a new concept?, NeurIPS 2021 [paper]
-
On the identifiability of nonlinear ICA: Sparsity and beyond, NeurIPS 2022 [paper]
-
Generalizing nonlinear ICA beyond structural sparsity, NeurIPS 2023 [paper]
-
Disentanglement via mechanism sparsity regularization: A new principle for nonlinear ICA, CLeaR 2022 [paper]
Identifiability in Generative Models
- Indeterminacy in Generative Models: Characterization and Strong Identifiability, AISTATS 2023 [paper]
Disentangled Representation Learning
-
Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations, ICML 2019 [paper]
-
Variational Autoencoders and Nonlinear ICA: A Unifying Framework, AISTATS 2020 [paper]
-
Weakly-supervised Disentanglement Without Compromises, ICML 2020 [paper]
-
On Disentangled Representations Learned From Correlated Data, ICML 2021 [paper]
-
Embrace the Gap: VAEs Perform Independent Mechanism Analysis, NeurIPS 2022 [paper]
-
Synergies between disentanglement and sparsity: Generalization and identifiability in multi-task learning, ICML 2023 [paper]
Causal Representation Learning (CRL)
Observational
Static
-
CausalVAE: Disentangled Representation Learning via Neural Structural Causal Models, CVPR 2021 [paper]
-
Weakly Supervised Disentangled Generative Causal Representation Learning, JMLR 2022 [paper]
-
SCM-VAE: Learning Identifiable Causal Representations via Structural Knowledge, IEEE Big Data 2022 [paper]
-
Learning Causally Disentangled Representations via the Principle of Independent Causal Mechanisms, IJCAI 2024 [paper]
-
Unpaired Multi-Domain Causal Representation Learning, NeurIPS 2023 [paper],
-
Causal Representation Learning Made Identifiable by Grouping of Observational Variables, ICML 2024 [paper]
-
Causal Representation Learning from Multiple Distributions: A General Setting, ICML 2024 [paper]
-
Learning Linear Causal Representations from General Environments: Identifiability and Intrinsic Ambiguity, NeurIPS 2024 [paper]*
-
Identifying General Mechanism Shifts in Linear Causal Representations, NeurIPS 2024 [paper]*
-
Multi-Domain Causal Representation Learning via Weak Distributional Invariances, AISTATS 2024 [paper]
-
Multi-View Causal Representation Learning with Partial Observability, ICLR 2024 [paper]
-
A Sparsity Principle for Partially Observable Causal Representation Learning, ICML 2024 [paper]
-
Identifiability Guarantees for Causal Disentanglement from Purely Observational Data, NeurIPS 2024 [paper]*
-
From Causal to Concept-Based Representation Learning, NeurIPS 2024 [paper]
Temporal
-
Learning Temporally Causal Latent Processes from General Temporal Data, ICLR 2022 [paper]
-
Temporally Disentangled Representation Learning, NeurIPS 2022 [paper]
-
Temporally Disentangled Representation Learning under Unknown Nonstationarity, NeurIPS 2023 [paper]
-
CaRiNG: Learning Temporal Causal Representation under Non-Invertible Generation Process, ICML 2024 [paper]*
-
Causal Temporal Representation Learning with Nonstationary Sparse Transition, NeurIPS 2024, [paper]*
Interventional
Static
-
Interventional Causal Representation Learning, ICML 2023 [paper]
-
Linear Causal Disentanglement via Interventions, ICML 2023 [paper]
-
Learning Linear Causal Representations from Interventions under General Nonlinear Mixing, NeurIPS 2023 [paper]
-
Identifiability Guarantees for Causal Disentanglement from Soft Interventions, NeurIPS 2023 [paper]
-
Causal Component Analysis, NeurIPS 2023 [paper]
-
Nonparametric Identifiability of Causal Representations from Unknown Interventions, NeurIPS 2023 [paper]
-
Score-based Causal Representation Learning From Interventions, CRL@NeurIPS 2023 [paper]
-
General Identifiability and Achievability for Causal Representation Learning, AISTATS 2024 [paper]
-
Identifying Linearly-Mixed Causal Representations from Multi-Node Interventions, CLeaR 2024 [paper]
-
Linear Causal Representation Learning from Unknown Multi-node Interventions, NeurIPS 2024 [paper]*
-
Sample Complexity for Interventional Causal Representation Learning, NeurIPS 2024 [paper]*
Temporal
-
CITRIS: Causal Identifiability for Temporal Intervened Sequences, ICML 2022 [paper]
-
Causal Representation Learning for Instantaneous and Temporal Effects in Interactive Systems, ICLR 2023 [paper]
-
BISCUIT: Causal Representation Learning from Binary Interactions, UAI 2023 [paper]
-
Disentanglement via Mechanism Sparsity Regularization: A New Principle for Nonlinear ICA, CLeaR 2022 [paper]
Counterfactual
-
Self-Supervised Learning with Data Augmentations Provably Isolates Content from Style, NeurIPS 2021 [paper]
-
Weakly supervised causal representation learning, NeurIPS 2022 [paper]
-
Diffusion-based Causal Representation Learning, Entropy 2024 [paper]
Controllable Counterfactual Generation (CCG)
GAN-based
-
CausalGAN: Learning Causal Implicit Generative Models with Adversarial Training, ICLR 2018 [paper]
-
Counterfactual Generative Networks, ICLR 2021 [paper]
-
Counterfactual Generation under Confounding, CML4Impact@NeurIPS 2022 [paper]
Flow/VAE-based
-
Deep Structural Causal Models for Tractable Counterfactual Inference, NeurIPS 2020 [paper]
-
High Fidelity Image Counterfactuals with Probabilistic Causal Models, ICML 2023 [paper]
-
Counterfactual Image Editing, ICML 2024 [paper]*
-
Deep Backtracking Counterfactuals for Causally Compliant Explanations, TMLR 2024 [paper]*
Diffusion-based
-
Diffusion Causal Models for Counterfactual Estimation, CLeaR 2022 [paper]
-
Causal Diffusion Autoencoders: Toward Counterfactual Generation via Diffusion Probabilistic Models, ECAI 2024 [paper]*
-
Modeling Causal Mechanisms with Diffusion Models for Interventional and Counterfactual Queries, TMLR 2024 [paper]
Evaluation Metrics
Causal Representation Learning/Disentanglement
Disentanglement, Completeness, and Informativeness (DCI)
- A Framework for the Quantitative Evaluation of Disentangled Representations, ICLR 2018 [paper]
- DCI-ES: An Extended Disentanglement Framework with Connections to Identifiability, ICLR 2023 [paper]
Interventional Robustness Score (IRS)
- Robustly disentangled causal mechanisms: Validating deep representations for interventional robustness, ICML 2019 [paper]
Mean Correlation Coefficient (MCC)
Mutual Information Gap (MIG)
- Isolating sources of disentanglement in variational autoencoders, NeurIPS 2018 [paper]
Causal Disentanglement Score (CDS)
- Exploring the Latent Space of Autoencoders with Interventional Assays, NeurIPS 2022 [paper]
Counterfactual Generation
Counterfactual Latent Divergence (CLD)
- Diffusion Causal Models for Counterfactual Estimation, CLeaR 2022 [paper]
Axiomatic Evaluation (Composition, Reversibility, Effectiveness)
- Measuring axiomatic soundness of counterfactual image models, ICLR 2023 [paper]
- Benchmarking Counterfactual Image Generation, NeurIPS 2024 [paper]
Applications
Marrying Causal Representation Learning with Dynamical Systems for Science, NeurIPS 2024 [paper]*
Learning Identifiable Factorized Causal Representations of Cellular Responses, NeurIPS 2024 [paper]*