[book] 『데이터 분석의 힘』정리
데이터의 상관관계는 인과관계가 아니다.
인과관계를 입증하기 어렵다.
X가 Y에 영향을 미쳤다.
- 이유1 : 다른 요인이 영향을 미쳤을 가능성이 존재한다.
- Y가 변화한 것의 원인이 X이외의 다른 요인 때문일 수도 있다.
- 이유2: 인과관계가 반대일 가능성이 있다.
- Y가 X에 영향을 주는
역인과관계(reverse causality)의 가능성을 부인할 수 없다.
- Y가 X에 영향을 주는
인과관계는 상관관계와 다르다.
X와 Y가 상관관계가 있다.
의사결정의 열쇠가 되는 것은
상관관계가 아니라인과관계이다.
- X와 Y가
상관관계가 있을 경우 다음과 같은 가능성들이 있다.- X가 Y에 영향을 주었을 가능성
- Y가 X에 영향을 주었을 가능성
- V가 X와 Y 양쪽에 영향을 주었을 가능성
인과관계와상관관계를 구분하는 전통적인 방법에는잠복변수(lurking variable)V를 최대한 모은 다음 통계분석에 의해 V의 영향을 최대한 배제하는 것- But, 아무리 많은
잠복변수V를 모아도 다른 요인이 영향을 미쳤을 가능성을 완전히 배제하지 못하기에 한계가 존재한다.
- But, 아무리 많은
- 데이터 수가 늘어도
인과관계의 문제를 근본적으로 해결하지는 못한다.인과관계에 대한 문제를 통계학 용어로편향(bias)라 부른다.- 데이터 관측수가 아무리 늘어나도 편향 문제는 해결되지 않는다.
- 빅데이터가 모든 것을 해결해준다는 주장은 적어도 인과관계 분석에는 맞지 않는다.
인과관계를 찾는 가장 좋은 방법은무작위비교시행(RCT)이다.
최선의 데이터 분석법 RCT
개입효과
인과관계에 의한 효과를 지칭하는 개입효과
개입효과를 이용하여인과관계를 설명하게될 경우…인과관계는A가 개입을 받았을 때의 결과(Y1)과개입을 받지 않았을 때의 결과 (Y0)의 차이로 정의해야한다.- 데이터로만 인과관계를 계산하는 것은 불가능하다.
- 만약, A라는 개입을 받았을 때, A라는 개입을 받지 않았을 떄의 결과 데이터는 존재하지 않는다. 이렇게 관측이 불가능한 결과를
실제로는 일어나지 않은 잠재적 결과(counterfactual potential outcome)라고 한다. - 따라서, 한 개인의 데이터에서 Y1과 Y0의 차이를 계산해 인과관계를 측정하는 것은 근본적으로 불가능하다(
인과적 추론의 근본 문제).
개입집단과 비교집단
한사람에 대한 개입효과는 측정할 수 없지만, 여러 사람에 대한 개입효과를 평균한 값인
평균 개입 효과(Average Treatment Effect, ATE)는 측정할 수 있다.
평균 개입 효과를 측정하기 위해서는 다음의 가정이 성립되어야 한다.- 개입이 일어나지 않았을 때, 개입집단과 비교집단의 평균 결과값이 동일해야한다.
- 이 가정이 성립하기 위해서는
무작위비교시행(RCT)이 필요하다.
무작위비교시행(RCT)
- 국제적으로는 RCT라는 명칭을 쓰기도하며, AB테스트(A/B testing)이라 부르기도 한다.
- 무작위로 집단을 나눌 경우 어느 정도의 표본수가 확보되면 두 집단은 통계적으로 동질의 집단이 된다.
- RCT의 원칙
- 적절하게 집단을 나누어야한다.
- 실험으로 해결하려는 문제의 답이 나오도록 집단을 적절하게 나눠야한다.
- 집단은 반드시 2개만 설정할 필요가 없다. 오바마 캠프 사례에서는 무려 23개의 개입집단이 만들어졌었다.
- 집단은 반드시 무작위로 나누어져야한다.
- 집단이 무작위로 나누지 않을 경우 두 집단에서는 개입이외의 다른 차이점(V)가 발생할 가능성이 있기 떄문에 인과관계를 파악하기 어려워진다.
- 무작위 방법1 :
단순 무작위 배정(simple randomization) - 무작위 방법2 :
블록 무작위 배정(block randomization)
- 집단별로 충분한 표본수를 채워야한다.
- 표본수가 클수록 우발적인 이유(오차)에 의해 평균값이 크게 변화할 가능성이 적어진다.
- 표본수가 클수록 평균값 계산에 표준오차가 작아지고 평균값의 신뢰성이 높아진다.
- 무작위로 나누어진 집단의 개입이전 기술통계의 밸런스가 동등해야한다.
- 적절하게 집단을 나누어야한다.
- RCT의 강점
- 어떤 변수에 대해서든 실험 개입이전 각 집단이 모두 평균적으로 동등하기에, 집단 간의 실험 결과에서 차이가 나타났다면 그 원인은 실험자의 개입이라고 단정지을 수 있다.
- 단기적인 효과만이 아니라 중장기적인 효과도 분석해준다.
- 분석 기법과 결과가 투명하다.
급격한 변화의 경계선을 찾는 RD디자인
RCT를 실시할 수 없을 때, 자연실험
- 자연실험
- 우연히 발생한 실험과 유사한 상황을 활용함
- RCT와 같은 형태로 이루어지지 않는 정책이나 비즈니스상의 개입을 분석할 수 있다.
RD디자인
RD디자인은 온갖경계선을 활용하여인과관계에 다가서는자연실험기법이다.
- RD디자인 가정
경계선에서 X value가 변화하지 않는다면 Y value도 점프(or 비연속적변화)를 하지않는다
- 하지만, 이 가정이 온전히 성립하는지는 검증하기 어렵다
(counterfactual potential outcome). - 만약 지정한 X value이외에 다른 X value에 의해 Y value가 비연속적으로 변하게되면 가정이 무너진다.
- 더불어, RD디자인에는 분석 대상이 그래프 가로축의 변수를 자의적으로 조작할 수 없다라는 조건이 필요하다.
- *어떤 경우에서도 RD디자인에 필요한 가정이 적절히 지켜졌다고 단정혹은 입증할 수 없으며, 단지 이 상황에서 가정이 지켜질 가능성이 높다고 주장할 수 있을 뿐이다.
- 하지만, 이 가정이 온전히 성립하는지는 검증하기 어렵다
- RD디자인에서 해야할 것
- RD디자인에서 분석자는 가설에서 지정한 변수X(위의 예제에서는 본인부담금)이외의 변수가 특정 경계(위의 예제에서는 70세)를 기준으로 비연속적인 변화를 보이지 않는지 그래프를 만들어 확인해야만한다.
- 즉 여러 변수X에 관해서 데이터를 모아 처음 가설에서 지정한 변수X이외에 경계선을 기준으로 비연속적인 변화가 일어나지 않았다는 사실을 확인하는 것이 중요하다.
- RD디자인의 강점
RCT를 실시하지 않고도RCT에 가까운 상황을 만들어 낼 수 있다.
(노력 및 비용면에서 이득…!!!)- 그래프를 이용해 분석 결과나 가정을
시각적으로 설명하여 투명한 분석을 가능하게끔 한다. - RD디자인은 이용할 수 있는 상황이 의외로(?) 많다.
- RD디자인의 약점
경계선 부근에 있는 분석대상에 대한 인과관계만 측정할 수 있다. (즉 전역에 범용적으로 적용할 수 없다.)
계단식 변화가 있는 곳엔 집군분석
집군분석
- 아래와 같은
계단식 변화는 일정 정도의 집합군을 만들어낸다. RD디자인과 달리집군분석은 대상이 그래프의가로축 변수를 조작할 수 있는 상황에도 적용할 수 있다.- 책의 예제에서는 분석대상은 자동차였고, 가로축의 변수는 자동차의 무게였다. 그리고, 연비 정책에 따라서 자동차의 무게가 어떻게 바뀌는가에 대해서 설명하였다.
- 즉,
가로축의 변수의 변화에 대해 초점을 맞추고있으며,집군분석에서 이는 중요함을 알 수 있다.
- 경계선에서의
데이터 집적을 분석함으로써인과관계를 검증한다.
집군분석의 가정
분석하고 싶은 변수 X value가 계단식으로 변화하지 않는다면 Y value의 분포는 연속적이며 집적하지 않는다.
- 아래의 자료를 기준으로 연비 규제 정책이 계단식으로 변화하지 않았다면, 자동차수의 분포는 자료에서 점선의 형태를 보여주었을 것이다.
- 다른 분석과 마찬가지로, 이 가정이 온전히 성립하는지는 검증하기 어렵다
(counterfactual potential outcome). - 데이터 분석자는 자신의 가정이 성립할 것이라는 증거를 최대한 열거시키는 수밖에 없다.
(책의 예제에서는 다음과 같은 증거들을 열거하였다.)- X가 변화하는 경게점 이외의 지점에서는 Y의 분포가 전체적으로 매끄러웠다.
- 실험 당시 Y에 영향을 줄 수 있는 정책은 X뿐이였다.
- X에 따라 Y의 집적 위치가 변화하였다. (X가 변화하는 계단의 경계선이 오른쪽으로 이동할 수록 집적의 위치도 경계선을 따라 오른쪽으로 이동하였다.)
집군분석의 강점
RCT를 실시하지 않고도RCT에 가까운 상황을 만들어 낼 수 있다.
(RD디자인과 마찬가지로 노력 및 비용면에서 이득…!!!22)- 그래프를 이용해 분석 결과나 가정을
시각적으로 설명하여 투명한 분석을 가능하게끔 한다. 계단식으로 인센티브가 변화하는 상황은 다양하다. (RCT가 불가능할 경우 유용)
- 그래프를 이용해 분석 결과나 가정을
집군분석의 약점
RCT에비해 가정이 성립할 것이라는 근거만을 제시할 수 있다. (입증이 불가능)계단식 인센티브에 반응한 대상(즉 집적한 대상)에 대해서만인과관계를 분석할 수 있다.
시간의 흐름에 따른 패널 데이터 분석
패널 데이터 분석
패널 데이터: 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터를 가르킨다.RCT가 불가능할 경우 사용할 수 있는 자연 실험 기법 중 하나- 개입 전후 두 집단의 데이터가 있으면 설득력 있게 인과관계를 분석할 수 있다는 사고방식을 이용
- 개입집단의 결과 평균값($Y_t$)와 비교집단의 결과 평균값($Y_c$)가 있을 때 다음과 같이
개입효과를 도출한다. (이중차분법(difference in differences methods)or고정효과추정법(fixed effect estimation))- A = 개입 “전”의 $Y_t$ 와 $Y_c$ 차이
- B = 개입 “후”의 $Y_t$ 와 $Y_c$ 차이
- 개입효과 = ABS(A-B)
패널 데이터 분석의 가정
패널 데이터 분석에는평행 트렌드 가정(parallel trend assumption)이 필요하다.
[ 평행 트렌드 가정 ] 만약 개입이 일어나지 않았다면 개입집단의 평균값($Y_t$)과 비교집단의 평균값($Y_c$)은 평행한 추이를 보인다.
평행 트렌드 가정또한 다른 분석법의 가정과 마찬가지로 데이터로 입증할 수 없기에 분석자는 이 가정이 성립하리라는 증거를 최대한 열거해야 한다.- 개입 이전의 데이터를 통해 개입집단과 비교집단 사이에
평행 트렌드 가정이 성립하는지 조사한다. - 개입 이후 개입집단에만 영향을 미친 다른 사건이나 변수가 없었는지 확인한다.
- 만약에 고려했던 개입사건이외에 다른 사건이 같이 발생할 경우, 이후에 나타나는 변화가 고려했던 개입사건에 의한 것인지 다른 사건에 의한 것인지 알 수가 없게된다.
- 단, 개입집단과 비교집단 양쪽에 똑같이 영향을 주는
공통 쇼크(common shock)의 경우 문제가 되지 않는다. 즉,공통 쇼크는평행 트렌드 가정을 무너뜨리지 않는다.
- 개입 이전의 데이터를 통해 개입집단과 비교집단 사이에
패널 데이터 분석의 강점
평행 트렌드 가정이 지켜지는 한, 개입집단과 비교집단 간에 원래 차이가 있어도 문제가되지 않는다.RD디자인과집군분석이 경계선 주변의 대상에만 분석할 수 있다는 한계를 가졌지만,패널 데이터 분석의 경우 개입을 받은 모든 대상의 개입효과에 대해 인과관계를 측정할 수 있다.
패널 데이터 분석의 약점
평행 트렌드 가정은 많은 상황에서 성립하지 않는다…ㅠ- 복수 기간에 걸쳐 개입집단과 비교집단의 데이터를 수집해야한다.
- 예상문제1 : 개입집단의 데이터만 수집하고 비교집단의 데이터를 수집하지 않을 수 있음
- 예상문제2 : 개입이후의 데이터만 수집하고 개입이전의 데이터는 수집하지 않을 수 있음
데이터는 어떻게 전략이 되는가
데이터 분석의 성공 요건
- 데이터 분석 전문가와 협력 관계를 구축한다.
- 데이터에 접근할 수 있는 길을 연다
- 방법1 : 모든 사람에게 데이터를 공개하고 특별한 절차 없이 이용할 수 있게 하는 것
- 방법2 : 일정 절차를 거쳐 데이터에 접근하게 하는 것
- 방법3 : 전문가에게만 데이터를 공개하는 것
기업과의 협력 사례 : 우버
- 택시 요금도 수요와 공급의 관계에 따라 변해야 한다는 주장이 있다.
- 운전자 수 < 이용자 수 : 가격up
- 운전자 수 > 이용자 수 : 가격down
- 위와 같은 형태로 수요와 공급의 균형을 잡는다는 발상
실제 우버에서는 운전자 수와 이용자 수의 상대적인 차이에 따라서 이용가격을 변동시킨다.
- 위처럼 이용가격을 변동시키기 위해
수요곡선은 중요하다.수요곡선: 가격 인상이나 하락에 따라 이용자수가 얼마나 바뀌는지 알려줌- 이
수요곡선에 따라서 소비자들에게 책정받는 금액이 달라지며, 표시된 요금에 따라 소비자들은 운전자를 부를지 말지 선택하게 된다. - 이러한 소비자가 우버에 지불한 요금과 이용상황에 관한 데이터를 우버는 데이터 연구팀에게 전달하였다. (그중 소비자가 요금 표시 화면을 보고 우버 택시를 이용할지 말지 선택하는게 중요!)
수급핍박지수(surge generator)- 우버에서 운전자 수와 이용자 수를 실시간으로 확인함으로써 계산하는 지표
- 수급핍박지수 ⇧ ➠ 운전자 수 < 이용자 수
- 수급핍박지수 ⇩ ➠ 운전자 수 > 이용자 수
- 우버는 해당 지수를 이용해서 특정
핍박지수들을 기준으로 가격을 배로 정한다.- ex1) 1.15<= 핍박지수 < 1.25 ➠ 가격x1.2
- ex2) 1.25<= 핍박지수 < 1.35 ➠ 가격x1.3
- 아래의 자료를 참고하면, 가격이 1.3배로 상승하는 구간(핍박지수 1.25이상)부터 순간 이용률이 비연속적으로 떨어지는 것을 확인할 수 있다.
- 이 자료를 이용해 가격이 오르면 이용자가 줄어드는 것을 직관적으로 알 수 있으며, 얼마나 줄어드는지 수치로 확인함으로써 우버는 특정한 프로덕트 액션을 취할 수 있다.
불량 분석을 피하기 위한 방법
무용지물의 데이터
- 데이터 측정에 문제가 있고, 수치가 바르지 않은 데이터
- 관측치에 대량의 결측치가 있는 데이터
- 편중된 표본에서만 확보되어진 데이터
외적 타당성 문제
외적타당성(external validity) 문제: 실험이나 자연실험으로 얻은 분석 결과를 다른 대상에게도 적용할 수 있는가에 관한 문제
References
(1) 이토 고이치로, 『데이터 분석의 힘』, 전선영, 인플루엔셀(2018)
This post is licensed under CC BY 4.0 by the author.






