Causal Hierarchy Theorem
Causal hierarchy theorem는 인과 추론 문제를 세 가지 계층으로 구분하며, 각 계층마다 해결을 위해 필요한 정보와 가정이 다름을 명시하는 정리이다. 이 정리는 상관관계(observational), 개입(interventional), 반사실적(counterfactual) 질문이 서로 엄격하게 구분되며, 한 계층의 정보만으로는 상위 계층의 질문에 답할 수 없음을 보여준다.
1. 계층별 구분
- 상관관계(Observation)
- 질문 형태: “\(P(Y\mid X)\)”
- 설명: 관측된 데이터에서 변수들 간의 통계적 연관성을 추정한다. 예를 들어, 두 변수 \(X\)와 \(Y\)가 동시에 관측될 때, 이들의 결합 분포를 통해 상관관계를 분석한다.
- 개입(Intervention)
- 질문 형태: “\(P(Y\mid do(X))\)”
- 설명: 변수 \(X\)에 인위적 개입을 가했을 때 \(Y\)가 어떻게 변화하는지 분석한다. 이때 개입은 단순한 관측과 달리, \(X\)의 값을 강제로 설정하여 인과 효과를 추론한다.
- 반사실적(Counterfactual)
- 질문 형태: “\(P(Y_{X=x}\mid X=x', Y=y)\)”
- 설명: 실제로 관측된 상황과 다른 가상의 시나리오를 가정하여 “만약 \(X\)가 \(x\)였더라면 \(Y\)는 어땠을까”라는 질문에 답한다. 이는 인과 모형 내의 잠재적 결과(potential outcome)를 활용하여 과거의 사건에 대한 재평가를 가능하게 한다.
2. 계층 간 관계 및 한계
각 계층은 아래와 같이 상위 계층의 문제를 해결하기 위해서는 하위 계층의 정보만으로는 부족하다는 것을 의미한다.
-
상관관계 → 개입:
관측 데이터 \(P(Y\mid X)\)만으로는 \(do(X=x)\)와 같은 개입적 질문에 대해 정확한 인과 효과를 추론할 수 없다. 개입에서는 외생적 교란 변수(confounder)를 조절하는 추가적인 구조적 가정이 필요하다. -
개입 → 반사실적:
개입적 질문에 답할 수 있는 정보가 있다고 하더라도, 반사실적 질문에 대한 답은 실제 관측된 결과에 대한 “대안적 역사”를 고려해야 하므로, 더 복잡한 인과 모형과 잠재 변수 모델이 요구된다.
이러한 계층적 구분은 데이터 수집 및 실험 설계에도 영향을 미친다. 단순히 관측된 데이터를 모으는 것만으로는 상위 계층의 질문(예, “만약 이 처치를 했다면 결과는 어땠을까?”)에 답할 수 없다는 점을 강조한다.
3. 구체적 예제
예제: 흡연과 폐암의 인과 관계
- 상관관계 단계
- 질문: “흡연(\(X\))과 폐암(\(Y\)) 사이에 통계적 상관관계가 있는가?”
- 분석: 관측된 데이터로부터 \(P(Y\mid X)\)를 계산하면, 흡연자와 비흡연자 간의 폐암 발생률 차이가 드러난다. 그러나 이는 인과 효과를 바로 의미하지 않는다.
- 개입 단계
- 질문: “흡연을 개입적으로 금지하면(즉, \(do(X=0)\)), 폐암 발생률 \(P(Y\mid do(X=0))\)은 어떻게 변화하는가?”
- 분석: 임상 실험이나 자연실험을 통해 흡연을 금지한 집단과 그렇지 않은 집단의 폐암 발생률을 비교한다. 단순 관측된 상관관계에서 발견된 효과가 교란 변수(confounder)로 인해 왜곡되었을 가능성을 배제하기 위해 개입적 조건 하의 효과를 추정한다.
- 반사실적 단계
- 질문: “흡연자인 사람이 실제로 흡연했지만, 만약 흡연하지 않았다면 폐암에 걸렸을 확률은 어땠을까?”
- 분석: 개별 사례에 대해 반사실적 추론을 수행한다. 관측된 변수 외에도, 개인의 유전적 요인이나 생활 습관 등 잠재적 요인을 포함한 인과 모형을 통해 \(P(Y_{X=0}\mid X=1, Y=1)\)과 같이 ‘대안적 역사’를 평가한다.
이 예제는 각 계층의 질문이 다르게 설정되고, 해결을 위해 요구되는 인과 모형과 추가 가정들이 어떻게 달라지는지를 보여준다.
4. 결론
Causal hierarchy theorem는 인과 추론 문제를 상관관계, 개입, 반사실적 세 계층으로 구분하며, 각 계층의 문제 해결에는 상위 계층으로 갈수록 더 강력한 인과 모형과 추가적 가정이 필요함을 명시한다. 이 정리는 단순한 관측 데이터로는 개입이나 반사실적 질문에 답할 수 없음을 증명하며, 인과 추론의 한계와 요구 조건을 체계적으로 제시한다.
이와 같은 계층적 구분은 인과 모형의 설계 및 해석, 그리고 실험 설계의 방향성을 제시하는 데 있어 핵심적인 역할을 한다.