이민호
HomeAbout Me

인과추론 SS 2021 세션 1 - Potential Outcomes Framework

By 이민호
Published in Data
March 27, 2022
4 min read

아래 글은 인과추론 Summer Session 2021 강의를 듣고 정리한 결과입니다.

Frameworks for Causation

인과관계를 위한 프레임워크가 왜 필요할까?

Various Approaches to Causation

  • Logic/Theory-Oriented
    • (1) Theory-Based Hypothetical Causation (이론에 기반한, 가설적인 인과관계)
      • 전통적으로 가장 많이 받아들여졌다.
      • 수학적 법칙이나 논리적 추론에 따라 인과관계가 형성될 수밖에 없는 당위성(logical imperative)을 구축한다.
  • Data/Evidence-Oriented
    • (2) Statistics-Based Approach
      • 통계적 비편향성(Unbiasedness)을 바탕으로 인과관계를 정의한다.
      • 통계적 비편향성이란, 모집단의 부분집합을 샘플링 했을 때 샘플 내에서 찾아낸 원인과 결과의 관계가 모집단에서도 비슷하게 나타나는 것을 의미한다.
      • 장점
        • Endogeneity 를 바탕으로 하기 때문에, 수학적으로 계산할 수 있다. (평가를 위한 통계지표를 비교적 수월하게 만들 수 있음)
        • 예시 → Instrument Variable
      • 단점
        • 어떤 데이터를 어떻게 분석해야 하는지, 어떤 요인을 통제해야 하는지 등 데이터 분석의 전략을 제시하지 못한다.
    • (3) Design-Based Approach
      • 인과관계를 정의할 때 전체를 처치 집단과 통제 집단으로 나누고, 적절한 연구 디자인을 통해 인과추론을 방해하는 선택 편향을 제거하는 방식으로 접근한다.
      • 장점
        • 데이터 분석의 전략을 제시할 수 있다.
        • 적절한 연구 디자인만 적용할 수 있다면, 인과적 구조에 대한 깊은 이해 없이도 인과효과를 추정할 수 있다.
      • 단점
        • 인과 효과가 어떤 인과적 구조, 어떤 메커니즘을 통해서 발생하는지 설명하지 못한다.
    • (4) Structure-Based Approach
      • 원인과 결과가 서로 얽혀있는 인과 구조를 추정하고자 한다.
      • 장점
        • 데이터 분석의 전략을 제시할 수 있다.
        • 원인 변수가 결과 변수에 영향을 미치는 메커니즘과 인과적 구조를 직접 보여주거나 추정할 수 있다.
      • 단점
        • 인과적 구조를 잘못 산정할 경우 완전히 다른 추론 결과를 얻게될 수 있다. (따라서 Causal Structure의 구조를 검증하는 것이 중요한 과제가 된다.)

다양한 접근법은 각각의 장단점이 존재하기 때문에, 상호 보완적으로 활용해야 한다.

잠재적결과 프레임워크 (Potential Outcomes Framework)

  • Design-based 접근법의 핵심인 “Potential Outcomes Framework”
    • “연구 대상에 행해질 수 있는 구체적인 처치(Treatment)를 정의할 수 없다면, 해당 처치의 인과적인 효과도 정의하거나 측정할 수 없다.”
    • 연구 디자인을 통한 조정과 개입을 통해 인과 효과를 추정한다.
    • 데이터의 양이나 모형의 복잡도가 아니라, 데이터를 수집하기 전부터 적절한 연구 디자인을 적용했는지 여부가 인과 추론 결과에 큰 영향을 미친다.
  • 특정 Treatment의 인과적 효과를 어떻게 추정할까?
    • 기본적인 컨셉 : “Treatment가 적용되지 않았다면 어땠을까?”
      • Treatment에 대한 잠재적 결과(Potential Outcomes)의 차이로 인과 효과를 정의한다.
    • Treatment의 인과 효과 = Treatment 적용되었을 때 실제 결과 - Treatment 적용되지 않았을 때를 가정한 잠재적 결과 (Counterfactual)
      • Potential Outcomes Framework 하에서 계산하는 인과 효과는 Average Treatment Effect on the Treated (ATET 또는 ATT) 라고 부른다.
      • Treatment 그룹 하에서만 계산한 인과 효과이기 때문에 Control 그룹에서도 동일하게 적용될지 명확하게 알 수 없다.
      • 그런데 이것이 과연 현실적인 가정일까?
  • 인과 추론의 근본적인 문제 (Fundamental Problem of Causal Inference)
    • “Potential Outcome을 모두 관찰할 수 없다.”
      • Treatment 를 받았거나, 받지 않은 상황 중 한 가지만 관찰할 수 있다.
      • Treatment를 받은 사람들과, 받지 않은 사람들도 나누어서 관찰할 수밖에 없다.
    • 정확한 인과 효과를 알기 위해서는 Counterfactual 이 필요하지만 관찰할 수 없고, 대신 Control 그룹의 정보만 알 수 있다. 따라서 Control 그룹을 최대한 Counterfactual에 가깝게 만들어야 한다.
    • Control 그룹과 Counterfactual 의 차이가 선택 편향(Selection Bias)으로 나타난다.
  • 선택 편향 (Selection Bias)
    • 현실에서는 Treatment가 랜덤하게 배정되지 않고, 각 개인이 Treatment를 선택하게 되는 경우가 많다.
    • 그래서 Treatment와 Control 그룹이 특성이 애초에 달라져 비교 불가능한 상태가 될 수 있다.
    • 우리가 관측한 Treatment 효과 = 실제 인과 효과 + 선택 편향
    • 따라서 선택 편향을 줄일 수 있다면 관찰한 결과로 인과 효과를 추정할 수 있다.
  • Potential Outcomes framework 에서 인과 추론에 접근하는 방식
    • 인과 추론이란 선택 편향을 제거하는 과정이다.
    • 선택 편향을 제거하기 위해 Treatment를 제외한 모든 요인에서 Treatment 그룹과 Control 그룹을 최대한 비슷하게 만들어, Counterfactual에 가까운 Control 그룹을 찾을 수 있도록 연구 디자인을 설계해야 한다.

인과적 사고방식 : 예시로 살펴보기

인과 효과를 추정하기 위한 연구 디자인 예시

  • (1) 사회 제도의 차이가 경제 성장의 차이를 만들었을까?
    • 사회제도가 경제 성장에 미치는 인과적인 효과를 추론하는 것은 어렵다.
      • 남한과 북한 사회는 사회제도를 제외한 모든 요인이 동일한가? 그렇지 않다.
      • 다시 말하면 남한과 북한은 비교 가능한 대상이 아니다.
    • 어떻게 하면 비교 가능한 그룹을 설정할 수 있을까?
      • “비교 가능한 쌍둥이 국가 혹은 도시를 설정하여 비교하면 어떨까?”
      • 이것이 Causal Mindset에 입각한 연구 디자인 전략이다.
    • 미국 애리조나 주의 노갈레스(Nogales)와 멕시코의 노갈레스(Nogales)
      • 원래는 같은 도시였지만, 국경선이 서로 갈라지면서 나누어졌다.
      • 현재는 미국의 노갈레스가 3~4배 이상 더 성장한 상태다.
      • 이 두 도시를 비교를 통해, 미국과 멕시코의 사회제도가 경제성장에 미치는 영향을 추정해볼 수 있지 않을까?
  • (2) 지역의 사회적 연결망이 폭염으로 인한 사망률에 얼마나 영향을 주었을까?
    • 1995년 시카고에서 발생한 1주일간의 폭염으로 700명 이상의 사망자 발생했다.
      • 1999년에도 비슷한 폭염이 있었지만, 사회적 연결망을 개선하여 110명 정도로 사망자 수가 대폭 감소했다.
    • 노스론데일과 사우스론데일 사례
      • 시카고 서쪽에 있는 인접한 두 마을이며, 기후, 독거노인 비율, 빈곤율 등이 비슷하다.
      • 하지만 폭염 피해수준이 크게 달랐다.
        • 노스론데일 : 10만명 당 40명
        • 사우스론데일 : 10만명 당 4명
      • 두 마을의 차이 : 지역이 활성화된 사우스론데일과 달리 공동화된 노스론데일에서는 사람들이 집 밖으로 나서지 못해 고독사로 사망한 경우가 더 많았다.
      • 두 마을은 여러 요인들에서 서로 비슷하기 때문에, 두 마을에서 발생한 폭염 피해의 차이는 범죄율과 공동체의 부재로 인한 차이로 인해 발생했다고 추론해 볼 수 있다.
  • (3) 교육이 장래 수입에 미치는 인과적인 효과
    • 쌍둥이 비교 연구
      • 모든 면에서 비슷한 쌍둥이가 어떤 이유로 학교를 다닌 햇수가 달라졌고 그로 인해 미래의 수입에 차이가 생겼다면, 교육이 장래 수입에 영향을 미쳤다고 볼 수 있 지 않을까?
    • 태어난 월(분기)에 따라 학생 그룹을 구분
      • 미국은 생일을 기준으로 나이를 계산하지만 입학은 특정한 시점(9월)에 모아서 한다.
      • 그런데 자퇴를 하려면 만 16세 되어야 가능해진다.
      • 1분기에 입학한 학생들보다 4분기에 입학한 학생들이 평균적으로 더 오래 학교를 다니는 경향이 나타난다.
      • 같은 해에 태어났지만 태어난 분기에 태어난 학생들을 비교 가능한 Control 그룹으로 두고 인과 효과를 추론한다.
    • 같은 대학교에 지원해서 합격한 사람들이라면 능력 등 다양한 관점에서 충분히 비교 가능한 그룹으로 둘 수 있다는 연구 사례도 있다.
  • (4) 같은 사람이 기증한 신장에 대한 비교
    • “같은 사람에게서 기증된 신장” 이라는 실험 디자인을 설계하여 인과 효과를 추정했다.

Summary

  • Potential Outcomes 하에서의 인과 추론은 “Counterfactual과 가장 유사한, 비교 가능한 통제(Control) 그룹을 찾을 수 있는 연구 디자인을 설계하는 것”을 의미한다.
  • 복잡한 수식과 통계모형 없이도 적절한 실험 설계를 통해 충분히 훌륭한 인과 추론 결과를 도출할 수 있다. 또, 통제 변수를 합리적으로 설계할 수 있다면, 간단한 회귀 모형으로도 인과 효과를 추정할 수 있다.
  • 실제로 효과를 추정하는 과정에서는 RD, DiD, 도구 변수 등 다양한 통계적 모형을 활용하게 되지만, 중요한 것은 비교 가능한 상황을 만들고 그에 맞게 데이터를 수집해야 한다는 점이다.

Tags

#Causal Inference#Summer Session 2021
Previous Article
2021년 돌아보기

Table Of Contents

1
Frameworks for Causation
2
잠재적결과 프레임워크 (Potential Outcomes Framework)
3
인과적 사고방식 : 예시로 살펴보기

Topics

Data
Personal
Product
Dev

Related Posts

인과추론 SS 2021 세션 2 - 연구 디자인과 준실험
2022-04-10
5 min
© 2022, All Rights Reserved.

Quick Links

About Me

Social Media