Post

[book] 『데이터 분석의 힘』정리



context



데이터의 상관관계는 인과관계가 아니다.

인과관계를 입증하기 어렵다.

X가 Y에 영향을 미쳤다.

  • 이유1 : 다른 요인이 영향을 미쳤을 가능성이 존재한다.
    • Y가 변화한 것의 원인이 X이외의 다른 요인 때문일 수도 있다.
  • 이유2: 인과관계가 반대일 가능성이 있다.
    • Y가 X에 영향을 주는 역인과관계(reverse causality)의 가능성을 부인할 수 없다.


인과관계는 상관관계와 다르다.

X와 Y가 상관관계가 있다.

의사결정의 열쇠가 되는 것은 상관관계가 아니라 인과관계이다.

  • X와 Y가 상관관계가 있을 경우 다음과 같은 가능성들이 있다.
    • X가 Y에 영향을 주었을 가능성
    • Y가 X에 영향을 주었을 가능성
    • V가 X와 Y 양쪽에 영향을 주었을 가능성


  • 인과관계상관관계를 구분하는 전통적인 방법에는 잠복변수(lurking variable)V를 최대한 모은 다음 통계분석에 의해 V의 영향을 최대한 배제하는 것
    • But, 아무리 많은 잠복변수V를 모아도 다른 요인이 영향을 미쳤을 가능성을 완전히 배제하지 못하기에 한계가 존재한다.


  • 데이터 수가 늘어도 인과관계의 문제를 근본적으로 해결하지는 못한다.
    • 인과관계에 대한 문제를 통계학 용어로 편향(bias)라 부른다.
    • 데이터 관측수가 아무리 늘어나도 편향 문제는 해결되지 않는다.
    • 빅데이터가 모든 것을 해결해준다는 주장은 적어도 인과관계 분석에는 맞지 않는다.


  • 인과관계를 찾는 가장 좋은 방법은 무작위비교시행(RCT)이다.



최선의 데이터 분석법 RCT

개입효과

인과관계에 의한 효과를 지칭하는 개입효과

  • 개입효과를 이용하여 인과관계를 설명하게될 경우…
    • 인과관계A가 개입을 받았을 때의 결과(Y1)개입을 받지 않았을 때의 결과 (Y0)의 차이로 정의해야한다.
    • 데이터로만 인과관계를 계산하는 것은 불가능하다.
    • 만약, A라는 개입을 받았을 때, A라는 개입을 받지 않았을 떄의 결과 데이터는 존재하지 않는다. 이렇게 관측이 불가능한 결과를 실제로는 일어나지 않은 잠재적 결과(counterfactual potential outcome)라고 한다.
    • 따라서, 한 개인의 데이터에서 Y1과 Y0의 차이를 계산해 인과관계를 측정하는 것은 근본적으로 불가능하다(인과적 추론의 근본 문제).

context


개입집단과 비교집단

한사람에 대한 개입효과는 측정할 수 없지만, 여러 사람에 대한 개입효과를 평균한 값인 평균 개입 효과(Average Treatment Effect, ATE)는 측정할 수 있다.

  • 평균 개입 효과를 측정하기 위해서는 다음의 가정이 성립되어야 한다.
    • 개입이 일어나지 않았을 때, 개입집단과 비교집단의 평균 결과값이 동일해야한다.
    • 이 가정이 성립하기 위해서는 무작위비교시행(RCT)이 필요하다.


무작위비교시행(RCT)

  • 국제적으로는 RCT라는 명칭을 쓰기도하며, AB테스트(A/B testing)이라 부르기도 한다.
  • 무작위로 집단을 나눌 경우 어느 정도의 표본수가 확보되면 두 집단은 통계적으로 동질의 집단이 된다.


  • RCT의 원칙
    • 적절하게 집단을 나누어야한다.
      • 실험으로 해결하려는 문제의 답이 나오도록 집단을 적절하게 나눠야한다.
      • 집단은 반드시 2개만 설정할 필요가 없다. 오바마 캠프 사례에서는 무려 23개의 개입집단이 만들어졌었다.
    • 집단은 반드시 무작위로 나누어져야한다.
      • 집단이 무작위로 나누지 않을 경우 두 집단에서는 개입이외의 다른 차이점(V)가 발생할 가능성이 있기 떄문에 인과관계를 파악하기 어려워진다.
      • 무작위 방법1 : 단순 무작위 배정(simple randomization)
      • 무작위 방법2 : 블록 무작위 배정(block randomization)
    • 집단별로 충분한 표본수를 채워야한다.
      • 표본수가 클수록 우발적인 이유(오차)에 의해 평균값이 크게 변화할 가능성이 적어진다.
      • 표본수가 클수록 평균값 계산에 표준오차가 작아지고 평균값의 신뢰성이 높아진다.
    • 무작위로 나누어진 집단의 개입이전 기술통계의 밸런스가 동등해야한다.


  • RCT의 강점
    • 어떤 변수에 대해서든 실험 개입이전 각 집단이 모두 평균적으로 동등하기에, 집단 간의 실험 결과에서 차이가 나타났다면 그 원인은 실험자의 개입이라고 단정지을 수 있다.
    • 단기적인 효과만이 아니라 중장기적인 효과도 분석해준다.
    • 분석 기법과 결과가 투명하다.



급격한 변화의 경계선을 찾는 RD디자인

RCT를 실시할 수 없을 때, 자연실험

  • 자연실험
    • 우연히 발생한 실험과 유사한 상황을 활용함
    • RCT와 같은 형태로 이루어지지 않는 정책이나 비즈니스상의 개입을 분석할 수 있다.


RD디자인

  • RD디자인은 온갖 경계선을 활용하여 인과관계에 다가서는 자연실험기법이다.


  • RD디자인 가정

    경계선에서 X value가 변화하지 않는다면 Y value도 점프(or 비연속적변화)를 하지않는다

    • 하지만, 이 가정이 온전히 성립하는지는 검증하기 어렵다
      (counterfactual potential outcome).
    • 만약 지정한 X value이외에 다른 X value에 의해 Y value가 비연속적으로 변하게되면 가정이 무너진다.
    • 더불어, RD디자인에는 분석 대상이 그래프 가로축의 변수를 자의적으로 조작할 수 없다라는 조건이 필요하다.
    • *어떤 경우에서도 RD디자인에 필요한 가정이 적절히 지켜졌다고 단정혹은 입증할 수 없으며, 단지 이 상황에서 가정이 지켜질 가능성이 높다고 주장할 수 있을 뿐이다.

context


  • RD디자인에서 해야할 것
    • RD디자인에서 분석자는 가설에서 지정한 변수X(위의 예제에서는 본인부담금)이외의 변수가 특정 경계(위의 예제에서는 70세)를 기준으로 비연속적인 변화를 보이지 않는지 그래프를 만들어 확인해야만한다.
    • 즉 여러 변수X에 관해서 데이터를 모아 처음 가설에서 지정한 변수X이외경계선을 기준으로 비연속적인 변화가 일어나지 않았다는 사실을 확인하는 것이 중요하다.


  • RD디자인의 강점
    • RCT를 실시하지 않고도 RCT에 가까운 상황을 만들어 낼 수 있다.
      (노력 및 비용면에서 이득…!!!)
    • 그래프를 이용해 분석 결과나 가정을
      시각적으로 설명하여 투명한 분석을 가능하게끔 한다.
    • RD디자인은 이용할 수 있는 상황이 의외로(?) 많다.


  • RD디자인의 약점
    • 경계선 부근에 있는 분석대상에 대한 인과관계만 측정할 수 있다. (즉 전역에 범용적으로 적용할 수 없다.)



계단식 변화가 있는 곳엔 집군분석

집군분석

  • 아래와 같은 계단식 변화는 일정 정도의 집합군을 만들어낸다.
  • 집합군 사이의 관계를 통해 인과관계를 밝혀내는 것을 집군분석이라한다. context

  • RD디자인과 달리 집군분석은 대상이 그래프의 가로축 변수를 조작할 수 있는 상황에도 적용할 수 있다.
    • 책의 예제에서는 분석대상은 자동차였고, 가로축의 변수는 자동차의 무게였다. 그리고, 연비 정책에 따라서 자동차의 무게가 어떻게 바뀌는가에 대해서 설명하였다.
    • 즉, 가로축의 변수의 변화에 대해 초점을 맞추고있으며, 집군분석에서 이는 중요함을 알 수 있다.
  • 경계선에서의 데이터 집적을 분석함으로써 인과관계를 검증한다.


집군분석의 가정

분석하고 싶은 변수 X value가 계단식으로 변화하지 않는다면 Y value의 분포는 연속적이며 집적하지 않는다.

  • 아래의 자료를 기준으로 연비 규제 정책이 계단식으로 변화하지 않았다면, 자동차수의 분포는 자료에서 점선의 형태를 보여주었을 것이다.
  • 다른 분석과 마찬가지로, 이 가정이 온전히 성립하는지는 검증하기 어렵다
    (counterfactual potential outcome).
  • 데이터 분석자는 자신의 가정이 성립할 것이라는 증거를 최대한 열거시키는 수밖에 없다.
    (책의 예제에서는 다음과 같은 증거들을 열거하였다.)
    • X가 변화하는 경게점 이외의 지점에서는 Y의 분포가 전체적으로 매끄러웠다.
    • 실험 당시 Y에 영향을 줄 수 있는 정책은 X뿐이였다.
    • X에 따라 Y의 집적 위치가 변화하였다. (X가 변화하는 계단의 경계선이 오른쪽으로 이동할 수록 집적의 위치도 경계선을 따라 오른쪽으로 이동하였다.)

12345


집군분석의 강점

  • RCT를 실시하지 않고도 RCT에 가까운 상황을 만들어 낼 수 있다.
    (RD디자인과 마찬가지로 노력 및 비용면에서 이득…!!!22)
    • 그래프를 이용해 분석 결과나 가정을
      시각적으로 설명하여 투명한 분석을 가능하게끔 한다.
    • 계단식으로 인센티브가 변화하는 상황은 다양하다. (RCT가 불가능할 경우 유용)


집군분석의 약점

  • RCT에비해 가정이 성립할 것이라는 근거만을 제시할 수 있다. (입증이 불가능)
  • 계단식 인센티브에 반응한 대상(즉 집적한 대상)에 대해서만 인과관계를 분석할 수 있다.



시간의 흐름에 따른 패널 데이터 분석

패널 데이터 분석

  • 패널 데이터 : 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터를 가르킨다.
  • RCT가 불가능할 경우 사용할 수 있는 자연 실험 기법 중 하나
  • 개입 전후 두 집단의 데이터가 있으면 설득력 있게 인과관계를 분석할 수 있다는 사고방식을 이용
  • 개입집단의 결과 평균값($Y_t$)와 비교집단의 결과 평균값($Y_c$)가 있을 때 다음과 같이 개입효과를 도출한다. (이중차분법(difference in differences methods) or 고정효과추정법(fixed effect estimation))
    • A = 개입 “전”의 $Y_t$ 와 $Y_c$ 차이
    • B = 개입 “후”의 $Y_t$ 와 $Y_c$ 차이
    • 개입효과 = ABS(A-B)

context


패널 데이터 분석의 가정

  • 패널 데이터 분석에는 평행 트렌드 가정(parallel trend assumption)이 필요하다.

[ 평행 트렌드 가정 ] 만약 개입이 일어나지 않았다면 개입집단의 평균값($Y_t$)과 비교집단의 평균값($Y_c$)은 평행한 추이를 보인다.

  • 평행 트렌드 가정또한 다른 분석법의 가정과 마찬가지로 데이터로 입증할 수 없기에 분석자는 이 가정이 성립하리라는 증거를 최대한 열거해야 한다.
    • 개입 이전의 데이터를 통해 개입집단과 비교집단 사이에 평행 트렌드 가정이 성립하는지 조사한다.
    • 개입 이후 개입집단에만 영향을 미친 다른 사건이나 변수가 없었는지 확인한다.
      • 만약에 고려했던 개입사건이외에 다른 사건이 같이 발생할 경우, 이후에 나타나는 변화가 고려했던 개입사건에 의한 것인지 다른 사건에 의한 것인지 알 수가 없게된다.
      • 단, 개입집단과 비교집단 양쪽에 똑같이 영향을 주는 공통 쇼크(common shock)의 경우 문제가 되지 않는다. 즉, 공통 쇼크평행 트렌드 가정을 무너뜨리지 않는다.

context


패널 데이터 분석의 강점

  • 평행 트렌드 가정이 지켜지는 한, 개입집단과 비교집단 간에 원래 차이가 있어도 문제가되지 않는다.
  • RD디자인집군분석이 경계선 주변의 대상에만 분석할 수 있다는 한계를 가졌지만, 패널 데이터 분석의 경우 개입을 받은 모든 대상의 개입효과에 대해 인과관계를 측정할 수 있다.


패널 데이터 분석의 약점

  • 평행 트렌드 가정은 많은 상황에서 성립하지 않는다…ㅠ
  • 복수 기간에 걸쳐 개입집단과 비교집단의 데이터를 수집해야한다.
    • 예상문제1 : 개입집단의 데이터만 수집하고 비교집단의 데이터를 수집하지 않을 수 있음
    • 예상문제2 : 개입이후의 데이터만 수집하고 개입이전의 데이터는 수집하지 않을 수 있음



데이터는 어떻게 전략이 되는가

데이터 분석의 성공 요건

  • 데이터 분석 전문가와 협력 관계를 구축한다.
  • 데이터에 접근할 수 있는 길을 연다
    • 방법1 : 모든 사람에게 데이터를 공개하고 특별한 절차 없이 이용할 수 있게 하는 것
    • 방법2 : 일정 절차를 거쳐 데이터에 접근하게 하는 것
    • 방법3 : 전문가에게만 데이터를 공개하는 것


기업과의 협력 사례 : 우버

  • 택시 요금도 수요와 공급의 관계에 따라 변해야 한다는 주장이 있다.
    • 운전자 수 < 이용자 수 : 가격up
    • 운전자 수 > 이용자 수 : 가격down
    • 위와 같은 형태로 수요와 공급의 균형을 잡는다는 발상
  • 실제 우버에서는 운전자 수와 이용자 수의 상대적인 차이에 따라서 이용가격을 변동시킨다.

  • 위처럼 이용가격을 변동시키기 위해 수요곡선은 중요하다.
    • 수요곡선 : 가격 인상이나 하락에 따라 이용자수가 얼마나 바뀌는지 알려줌
    • 수요곡선에 따라서 소비자들에게 책정받는 금액이 달라지며, 표시된 요금에 따라 소비자들은 운전자를 부를지 말지 선택하게 된다.
    • 이러한 소비자가 우버에 지불한 요금과 이용상황에 관한 데이터를 우버는 데이터 연구팀에게 전달하였다. (그중 소비자가 요금 표시 화면을 보고 우버 택시를 이용할지 말지 선택하는게 중요!)
  • 수급핍박지수(surge generator)
    • 우버에서 운전자 수와 이용자 수를 실시간으로 확인함으로써 계산하는 지표
    • 수급핍박지수 ⇧ ➠ 운전자 수 < 이용자 수
    • 수급핍박지수 ⇩ ➠ 운전자 수 > 이용자 수
    • 우버는 해당 지수를 이용해서 특정 핍박지수들을 기준으로 가격을 배로 정한다.
      • ex1) 1.15<= 핍박지수 < 1.25 ➠ 가격x1.2
      • ex2) 1.25<= 핍박지수 < 1.35 ➠ 가격x1.3
    • 아래의 자료를 참고하면, 가격이 1.3배로 상승하는 구간(핍박지수 1.25이상)부터 순간 이용률이 비연속적으로 떨어지는 것을 확인할 수 있다.
    • 이 자료를 이용해 가격이 오르면 이용자가 줄어드는 것을 직관적으로 알 수 있으며, 얼마나 줄어드는지 수치로 확인함으로써 우버는 특정한 프로덕트 액션을 취할 수 있다.
context
X축:수요핍박지수, y축:화면을보고실제로우버를이용한비중



불량 분석을 피하기 위한 방법

무용지물의 데이터

  • 데이터 측정에 문제가 있고, 수치가 바르지 않은 데이터
  • 관측치에 대량의 결측치가 있는 데이터
  • 편중된 표본에서만 확보되어진 데이터

외적 타당성 문제

  • 외적타당성(external validity) 문제 : 실험이나 자연실험으로 얻은 분석 결과를 다른 대상에게도 적용할 수 있는가에 관한 문제

context



References

(1) 이토 고이치로, 『데이터 분석의 힘』, 전선영, 인플루엔셀(2018)

This post is licensed under CC BY 4.0 by the author.