이민호
HomeAbout Me

인과추론 SS 2021 세션 2 - 연구 디자인과 준실험

By 이민호
Published in Data
April 10, 2022
5 min read

아래 글은 인과추론 Summer Session 2021 강의를 듣고 정리한 결과입니다.


인과 추론을 위한 연구 디자인

  • 인과 추론을 위한 연구 디자인의 위계 관계를 다음과 같이 정리해볼 수 있다.
Level of Causal InferenceResearch Design
7Meta-Analysis
6Randomized Experiment (RCT)
5Quasi-Experiment
4Instrumental Variable
3“Designed” Regression (w. Causal Diagram)
2Regression
1Model-Free Descriptive Statistics
  • 아래로 내려갈수록 인과관계에 대한 신뢰도가 다소 떨어지고, 인과관계를 증명하는 것이 까다로워진다.
  • Potential Outcome 프레임워크 하에서 단일 방법론으로 가장 인과추론의 수준이 높은 것은 바로 Randomized Experiment 이다.
    • Meta-Analysis 는 기존의 여러 인과추론 결과를 종합적으로 분석하는 방법론이다.
    • 현실에서는 Randomized Experiment 를 수행하기 어려운 경우가 많다.
  • Randomized Experiment 를 수행하기 어려운 경우, 실제 실험은 아니지만 실험과 유사한 상황을 찾아서 분석하는 준실험 (Quasi-Experiment) 를 사용할 수 있다.
    • 특정 가정 하에서는 준실험으로도 Randomized Experiment 에 가까운 인과추론을 할 수 있다.
  • 준실험 상황마저도 없다면 도구 변수(Instrumental Variable) 라고 불리는 인위적인 도구를 사용할 수 있다.
    • 도구 변수는 인과 추론을 방해하는 “내생성”(endogeneity)을 제거하는 역할을 한다.
    • 도구 변수를 항상 찾을 수 있는 것은 아니다. 실제 상황에서 도구 변수를 찾기란 굉장히 어렵다.
  • 실험, 준실험, 도구변수를 사용할 수 없더라도, 적절한 통제 변수을 설계하여 회귀분석으로도 어느 정도 합리적인 인과 추론을 할 수 있다.
    • 이 때 Causal Diagram 이 굉장히 유용하다.
    • 연구 디자인을 고려하지 않는 일반 회귀분석은, 통제 변수를 많이 포함하더라도 모든 선택 편향을 제거할 수는 없기 때문에 인과추론의 수준이 낮을 수밖에 없다.
  • 단순 기술통계량(Descriptive Statistics)은 결과에 영향을 줄 수 있는 요인이 너무 많다.
    • 따라서 평균값만 비교하는 방식으로는 인과적인 추론을 하기 어렵다.

인과추론의 정석 : 무작위 통제실험

  • 랜덤 배정은 인과추론에서 가장 핵심적인 원칙이라고 할 수 있다.
    • 랜덤 배정을 통한 실험을 무작위 통제실험(Randomized Controlled Trial)이라고 한다.
  • 실험군을 랜덤하게 배정할 경우, 다양한 특성이 평균적으로 균일한 비율로 배정되어 두 그룹을 비교 가능하게 만들 수 있다.
    • 통계학의 “큰 수의 법칙” (Law of large numbers)
      • 동전을 던질 때 앞면이 나올 비율이 50:50 이라고 하지만, 막상 던져보면 그렇지 않은 것 같은 느낌이 든다.
      • 하지만 한없이 던지다 보면 결국 50:50에 수렴하게 된다.
      • → “샘플 수가 많아질 수록, 평균이 인구 집단 또는 이론적인 확률에 가까워진다.”
    • Random Assignment 를 동전 던지기처럼 생각해보자.
      • 앞면이 나오면 Treatment 그룹, 뒷면이 나오면 Control 그룹으로 배정한다.
      • 동전을 계속 던지다보면 언젠가 50:50 의 확률이 된다.
      • 다시 말해 Treatment 그룹과 Control 그룹으로 배정될 확률이 50:50 이 된다.
      • 다양한 특성을 가진 실험 참가자의 실험 그룹을 배정할 때 동전던지기를 사용하면, 각각의 특성을 가진 사람들이 평균적으로 균일하게 배정되도록 그룹을 배정할 수 있다. (단, 랜덤하게 배정된 샘플 수가 충분히 많아야 한다.)
  • Random Assignment 가 만병통치약은 아니다.
    • 샘플 수가 충분하지 않으면 50:50 으로 잘 나누어지지 않는 경우가 많다.
    • 배정 과정이 완전하게 랜덤하지 않을 수도 있다.
    • 실험군 배정 이후에 두 그룹이 정말 랜덤하게 잘 배정되어 비교 가능한 상태가 되었는지 확인해야 한다.
  • “비교 가능한 상태인가?” (Ceteris Paribus)
    • Treatment 여부를 제외한 다른 요인은 평균적으로 큰 차이가 없어야 한다.
  • IT 회사에서는 랜덤 배정을 통한 실험을 흔히 A/B 테스트라고 부른다.

준실험 (Quasi-Experiment)

  • 랜덤 배정을 통한 실험이 불가능한 상황에서는 인과 추론을 어떻게 해야 할까?

    • 가장 먼저 떠오르는 방식은, 실험은 아니지만 실험과 유사한 상황을 찾아서 실제 실험한 것처럼 분석해보는 것이다.
    • 이러한 방법을 준실험(Quasi-Experiment)이라고 부른다.
    • 참고. 만약 연구의 목적이 예측이라면, 연구 디자인에 대해 크게 고민하지 않아도 된다. 하지만 원인과 결과, 그리고 그 메카니즘에 대해 탐구한다면 연구 디자인을 진지하게 고민해야 한다.
  • 준실험은 다음과 같은 상황에서 사용할 수 있다.

    • (1) 인과추론이 목적이지만 랜덤 배정이 불가능하다.
    • (2) 우리가 관심있는 원인변수(Treatment)를 분명하게 정의할 수 있다.
    • (3) Treatment 전후의 데이터를 모두 관찰할 수 있다.
  • 랜덤 배정을 통한 실험과 준실험의 차이는 Treatment를 배정하는 방법이 다르다는 것이다.

    • Potential Outcome 프레임워크 하에서 실험(RCT)과 준실험은 “비교 가능한 그룹을 만든다”는 점에서 목표가 동일하다.
    • 준실험에서는 랜덤 배정이 아닌 다른 방식으로 Treatment를 배정한다.
      • 준실험에서는 Control 그룹이 Counterfactual(Treatment가 적용되지 않은 Treatment 그룹)과 얼마나 유사한지 우리가 명시적으로 증명해야 한다.
    • Treatment를 배정하는 방식에 따라 크게 3가지로 준실험을 구분할 수 있다.
    • (1) Self Selection
      • 연구 대상이 스스로 Treatment 여부를 결정한다.
      • DID (+ Matching) 를 적용할 수 있다.
    • (2) Exogenous Shock
      • 외부 요인이 Treatment 여부에 영향을 미친다.
      • Exogenous Shock 에 의한 준실험을 보통 Natural Experiment (자연 실험) 이라고 부른다. 준실험이 조금 더 넓은 개념이라고 보면 된다.
      • DID (+ Matching) 를 적용할 수 있다.
      • Self-Selection 과 비교했을 때 적용하는 방법론은 거의 동일하지만, Control 그룹과 Counterfactual 이 유사해지는 상황을 구성하는 것이 비교적 용이한 편이다.
    • (3) Discontinuity
      • 임의의 경계값(threshold, cutoff)을 기준으로 Treatment 여부를 결정한다.
      • RD 를 적용할 수 있다.
  • 준실험은 연구 디자인일 뿐이고, 연구 디자인을 분석하기 위한 도구가 필요하다.

  • 준실험을 분석하기 위한 도구 중에서 Difference-in-Difference 와 Matching, 그리고 Regression Discontinuity 에 대해서 살펴보자.


준실험 분석도구 1 : 이중 차분법 (DID)

  • 이중 차분법 (Difference-in-Differences, DID)
  • 두 번의 차분을 통해 인과 효과를 추정한다.
    • 첫 번째 : Treatment/Control 그룹 내에서 전후의 변화
    • 두 번째 : Treatment 그룹의 변화와 Control 그룹의 변화
Before TreatmentAfter Treatment
Treatment GroupTbTa
Control GroupCbCa

이 때, DID estimator = (Ta - Tb) - (Ca - Cb)

  • Potential Outcome 프레임워크에서 DID가 유용한 이유
    • Potential Outcome 프레임워크에서는 Counterfactual 이 중요하다.
    • Counterfactual 이란, 만약 Treatment가 없었다면 발생했을 잠재적 결과를 말한다.
    • 이 때, Control 그룹이 Counterfactual 과 유사하다면, Control 그룹을 통해 Counterfactual 을 유추할 수 있다.
      • 우리가 알고 싶은 것 → Ta - Ta’ (Ta'는 Counterfactual을 의미)
      • Ta - Ta’ = Ta - (Tb + (Ta’ - Tb)) = Ta - (Tb + (Ca - Cb))
      • Ta’ 은 관찰할 수 없는 값이지만, Tb + (Ca - Cb) 는 관찰할 수 있는 값
  • Counterfactual의 시간에 따른 변화량을 Control 그룹의 시간에 따른 변화량으로 대체할 수 있는지가 핵심이 된다.
    • Control 그룹이 Counterfactual과 비교 가능한 그룹인지 확인해야 한다.
    • DID는 모든 면에서 비슷한 것을 요구하지 않고, 시간에 따른 변화량만 유사하면 충분히 강력한 힘을 발휘할 수 있다.
      • 전체 Counterfactual을 Control 그룹으로 대신하기 위해서는 Control 그룹이 모든 면에서 Counterfactual과 유사하다는 것을 입증할 수 있어야 한다. 더 강한 가정과 검증이 필요해진다.
      • 반면에 시간에 따른 변화는 어느 정도 데이터로 검증할 수 있다.
    • 시간에 따른 변화량이 유사해야 한다는 가정을 “Parallel trends Assumption” 이라고 한다.
      • 연구 디자인에서 선택 편향을 없앨 수 있는 가정을 Identification Assumption 이라고 하는데, DID에서는 Parallel trends Assumption 이 해당된다.

준실험 분석도구 2 : 매칭 (Matching)

  • 비교 가능한 대조군(Comparable Control Group)을 찾을 수 없을 때는 어떻게 해야 할까?
    • 매칭(Matching) 방법론을 사용해 볼 수 있다.
    • 우리가 가지고 있는 변수를 활용해, 각 그룹의 데이터 중 변수들이 평균적으로 유사한 샘플들로 매칭하여 인위적으로 유사한 그룹을 만들어준다.
    • Counterfactual과 Control 그룹이 최대한 유사하게끔 만들기 위한 방법이다.
  • 크게 두 가지 접근 방법이 있다.
    • (1) Propensity score matching (PSM)
      • Propensity score를 먼저 계산하고, score가 유사한 샘플끼리 매칭한다.
      • Propensity score는 Treatment 그룹에 속할 확률을 의미한다. logit 또는 probit 모형을 활용할 수 있다.
      • 매칭된 샘플만 사용하는 방법도 있지만, 역확률 가중법을 통해 활용하는 경우도 있는데 이에 대해서는 뒤에서 다룬다.
      • 전통적으로 PSM이 가장 많이 활용되었던 매칭 방법이고, 많은 경우에 효과적이다.
      • Propensity score만 사용하여 매칭하기 때문에 경우에 따라서는 차이가 크게 발생하여 밸런스가 잘 맞지 않을 수 있다는 단점이 있다.
    • (2) Coarsened exact matching (CEM)
      • 가장 직관적이면서 확실한 방법은 완전히 조건이 같은 대상으로 매칭하는 것이다. (Exact Matching)
      • 하지만 변수가 많아질수록 값이 완전히 동일한 샘플을 찾기 어려워진다.
      • 따라서 각 변수를 몇개의 구간으로 나누고, 모든 변수에 대해 동일한 구간에 속하는 샘플들로 매칭한다. (Coarsened Exact Matching)
    • 두 가지 방법 중 어느 하나가 낫다고 말하기는 어렵기 때문에, 둘 다 시도해보는 것이 제일 좋다.
    • DID와 매칭 방법론은 함께 결합하여 사용하는 경우가 많다.

준실험 분석도구 3 : Regression Discontinuity (RD)

  • Discontinuity 는 Regression Discontinuity(RD) 방법을 통해 분석할 수 있다.
  • RD는 인과효과를 추정하기 위해 불연속적인 점프를 활용하고, 그러한 점프가 발생하는 변수를 Running variable (Assignment variable) 이라고 한다.
    • DID와는 달리 Running variable 에서 점프가 없는 상황을 Counterfactual로 보고, 실제 점프가 발생한 데이터와의 차이를 통해 Treatment 효과를 추정한다.
  • 따라서 RD의 핵심은 Running variable에 대한 모델링이다.
    • 동일한 데이터를 가지고도 모델링에 어떤 함수를 활용하느냐에 따라 결과가 완전히 달라질 수 있다.
    • 모형의 선택에 결과가 너무 민감하게 반응한다는 것이 RD의 단점이다.
  • RD의 가장 큰 문제점은 Running variable을 어떤 함수 형태로 표현해야 하는지 알기 어렵다는 점이다.
    • 그래서 다항식을 활용하는 경우가 많다.
    • 1차식은 너무 단순하고 4차 이상은 너무 복잡해져서 3차 함수를 활용하는 경우가 많지만, 이게 모든 문제를 해결해주지는 않는다.
  • RD는 DID에 비해 Identification Assumption을 증명하기가 까다롭다.
    • 불연속적인 점프가 발생하는 연구 디자인이더라도, DID 분석을 적용할 수 있는 상황이라면 DID를 사용하는 것이 분석에 용이할 수 있다.

Tags

#Causal Inference#Summer Session 2021
Previous Article
인과추론 SS 2021 세션 1 - Potential Outcomes Framework

Table Of Contents

1
인과 추론을 위한 연구 디자인
2
인과추론의 정석 : 무작위 통제실험
3
준실험 (Quasi-Experiment)
4
준실험 분석도구 1 : 이중 차분법 (DID)
5
준실험 분석도구 2 : 매칭 (Matching)
6
준실험 분석도구 3 : Regression Discontinuity (RD)

Topics

Data
Personal
Product
Dev

Related Posts

인과추론 SS 2021 세션 1 - Potential Outcomes Framework
2022-03-27
4 min
© 2022, All Rights Reserved.

Quick Links

About Me

Social Media