Stop Thinking, Just Do!

Sungsoo Kim's Blog

Causal Hierarchy Theorem

tagsTags

24 February 2025


Causal Hierarchy Theorem

Causal hierarchy theorem는 인과 추론 문제를 세 가지 계층으로 구분하며, 각 계층마다 해결을 위해 필요한 정보와 가정이 다름을 명시하는 정리이다. 이 정리는 상관관계(observational), 개입(interventional), 반사실적(counterfactual) 질문이 서로 엄격하게 구분되며, 한 계층의 정보만으로는 상위 계층의 질문에 답할 수 없음을 보여준다.


1. 계층별 구분

  1. 상관관계(Observation)
    • 질문 형태: “\(P(Y\mid X)\)”
    • 설명: 관측된 데이터에서 변수들 간의 통계적 연관성을 추정한다. 예를 들어, 두 변수 \(X\)와 \(Y\)가 동시에 관측될 때, 이들의 결합 분포를 통해 상관관계를 분석한다.
  2. 개입(Intervention)
    • 질문 형태: “\(P(Y\mid do(X))\)”
    • 설명: 변수 \(X\)에 인위적 개입을 가했을 때 \(Y\)가 어떻게 변화하는지 분석한다. 이때 개입은 단순한 관측과 달리, \(X\)의 값을 강제로 설정하여 인과 효과를 추론한다.
  3. 반사실적(Counterfactual)
    • 질문 형태: “\(P(Y_{X=x}\mid X=x', Y=y)\)”
    • 설명: 실제로 관측된 상황과 다른 가상의 시나리오를 가정하여 “만약 \(X\)가 \(x\)였더라면 \(Y\)는 어땠을까”라는 질문에 답한다. 이는 인과 모형 내의 잠재적 결과(potential outcome)를 활용하여 과거의 사건에 대한 재평가를 가능하게 한다.

2. 계층 간 관계 및 한계

각 계층은 아래와 같이 상위 계층의 문제를 해결하기 위해서는 하위 계층의 정보만으로는 부족하다는 것을 의미한다.

  • 상관관계 → 개입:
    관측 데이터 \(P(Y\mid X)\)만으로는 \(do(X=x)\)와 같은 개입적 질문에 대해 정확한 인과 효과를 추론할 수 없다. 개입에서는 외생적 교란 변수(confounder)를 조절하는 추가적인 구조적 가정이 필요하다.

  • 개입 → 반사실적:
    개입적 질문에 답할 수 있는 정보가 있다고 하더라도, 반사실적 질문에 대한 답은 실제 관측된 결과에 대한 “대안적 역사”를 고려해야 하므로, 더 복잡한 인과 모형과 잠재 변수 모델이 요구된다.

이러한 계층적 구분은 데이터 수집 및 실험 설계에도 영향을 미친다. 단순히 관측된 데이터를 모으는 것만으로는 상위 계층의 질문(예, “만약 이 처치를 했다면 결과는 어땠을까?”)에 답할 수 없다는 점을 강조한다.


3. 구체적 예제

예제: 흡연과 폐암의 인과 관계

  1. 상관관계 단계
    • 질문: “흡연(\(X\))과 폐암(\(Y\)) 사이에 통계적 상관관계가 있는가?”
    • 분석: 관측된 데이터로부터 \(P(Y\mid X)\)를 계산하면, 흡연자와 비흡연자 간의 폐암 발생률 차이가 드러난다. 그러나 이는 인과 효과를 바로 의미하지 않는다.
  2. 개입 단계
    • 질문: “흡연을 개입적으로 금지하면(즉, \(do(X=0)\)), 폐암 발생률 \(P(Y\mid do(X=0))\)은 어떻게 변화하는가?”
    • 분석: 임상 실험이나 자연실험을 통해 흡연을 금지한 집단과 그렇지 않은 집단의 폐암 발생률을 비교한다. 단순 관측된 상관관계에서 발견된 효과가 교란 변수(confounder)로 인해 왜곡되었을 가능성을 배제하기 위해 개입적 조건 하의 효과를 추정한다.
  3. 반사실적 단계
    • 질문: “흡연자인 사람이 실제로 흡연했지만, 만약 흡연하지 않았다면 폐암에 걸렸을 확률은 어땠을까?”
    • 분석: 개별 사례에 대해 반사실적 추론을 수행한다. 관측된 변수 외에도, 개인의 유전적 요인이나 생활 습관 등 잠재적 요인을 포함한 인과 모형을 통해 \(P(Y_{X=0}\mid X=1, Y=1)\)과 같이 ‘대안적 역사’를 평가한다.

이 예제는 각 계층의 질문이 다르게 설정되고, 해결을 위해 요구되는 인과 모형과 추가 가정들이 어떻게 달라지는지를 보여준다.


4. 결론

Causal hierarchy theorem는 인과 추론 문제를 상관관계, 개입, 반사실적 세 계층으로 구분하며, 각 계층의 문제 해결에는 상위 계층으로 갈수록 더 강력한 인과 모형과 추가적 가정이 필요함을 명시한다. 이 정리는 단순한 관측 데이터로는 개입이나 반사실적 질문에 답할 수 없음을 증명하며, 인과 추론의 한계와 요구 조건을 체계적으로 제시한다.

이와 같은 계층적 구분은 인과 모형의 설계 및 해석, 그리고 실험 설계의 방향성을 제시하는 데 있어 핵심적인 역할을 한다.


comments powered by Disqus