[book] 『데이터 분석의 힘』정리
데이터의 상관관계는 인과관계가 아니다.
인과관계를 입증하기 어렵다.
X가 Y에 영향을 미쳤다.
- 이유1 : 다른 요인이 영향을 미쳤을 가능성이 존재한다.
- Y가 변화한 것의 원인이 X이외의 다른 요인 때문일 수도 있다.
- 이유2: 인과관계가 반대일 가능성이 있다.
- Y가 X에 영향을 주는
역인과관계(reverse causality)
의 가능성을 부인할 수 없다.
- Y가 X에 영향을 주는
인과관계는 상관관계와 다르다.
X와 Y가 상관관계가 있다.
의사결정의 열쇠가 되는 것은
상관관계
가 아니라인과관계
이다.
- X와 Y가
상관관계
가 있을 경우 다음과 같은 가능성들이 있다.- X가 Y에 영향을 주었을 가능성
- Y가 X에 영향을 주었을 가능성
- V가 X와 Y 양쪽에 영향을 주었을 가능성
인과관계
와상관관계
를 구분하는 전통적인 방법에는잠복변수(lurking variable)V
를 최대한 모은 다음 통계분석에 의해 V의 영향을 최대한 배제하는 것- But, 아무리 많은
잠복변수V
를 모아도 다른 요인이 영향을 미쳤을 가능성을 완전히 배제하지 못하기에 한계가 존재한다.
- But, 아무리 많은
- 데이터 수가 늘어도
인과관계의 문제
를 근본적으로 해결하지는 못한다.인과관계
에 대한 문제를 통계학 용어로편향(bias)
라 부른다.- 데이터 관측수가 아무리 늘어나도 편향 문제는 해결되지 않는다.
- 빅데이터가 모든 것을 해결해준다는 주장은 적어도 인과관계 분석에는 맞지 않는다.
인과관계
를 찾는 가장 좋은 방법은무작위비교시행(RCT)
이다.
최선의 데이터 분석법 RCT
개입효과
인과관계에 의한 효과를 지칭하는 개입효과
개입효과
를 이용하여인과관계
를 설명하게될 경우…인과관계
는A가 개입을 받았을 때의 결과(Y1)
과개입을 받지 않았을 때의 결과 (Y0)
의 차이로 정의해야한다.- 데이터로만 인과관계를 계산하는 것은 불가능하다.
- 만약, A라는 개입을 받았을 때, A라는 개입을 받지 않았을 떄의 결과 데이터는 존재하지 않는다. 이렇게 관측이 불가능한 결과를
실제로는 일어나지 않은 잠재적 결과(counterfactual potential outcome)
라고 한다. - 따라서, 한 개인의 데이터에서 Y1과 Y0의 차이를 계산해 인과관계를 측정하는 것은 근본적으로 불가능하다(
인과적 추론의 근본 문제
).
개입집단과 비교집단
한사람에 대한 개입효과는 측정할 수 없지만, 여러 사람에 대한 개입효과를 평균한 값인
평균 개입 효과(Average Treatment Effect, ATE)
는 측정할 수 있다.
평균 개입 효과
를 측정하기 위해서는 다음의 가정이 성립되어야 한다.- 개입이 일어나지 않았을 때, 개입집단과 비교집단의 평균 결과값이 동일해야한다.
- 이 가정이 성립하기 위해서는
무작위비교시행(RCT)
이 필요하다.
무작위비교시행(RCT)
- 국제적으로는 RCT라는 명칭을 쓰기도하며, AB테스트(A/B testing)이라 부르기도 한다.
- 무작위로 집단을 나눌 경우 어느 정도의 표본수가 확보되면 두 집단은 통계적으로 동질의 집단이 된다.
- RCT의 원칙
- 적절하게 집단을 나누어야한다.
- 실험으로 해결하려는 문제의 답이 나오도록 집단을 적절하게 나눠야한다.
- 집단은 반드시 2개만 설정할 필요가 없다. 오바마 캠프 사례에서는 무려 23개의 개입집단이 만들어졌었다.
- 집단은 반드시 무작위로 나누어져야한다.
- 집단이 무작위로 나누지 않을 경우 두 집단에서는 개입이외의 다른 차이점(V)가 발생할 가능성이 있기 떄문에 인과관계를 파악하기 어려워진다.
- 무작위 방법1 :
단순 무작위 배정(simple randomization)
- 무작위 방법2 :
블록 무작위 배정(block randomization)
- 집단별로 충분한 표본수를 채워야한다.
- 표본수가 클수록 우발적인 이유(오차)에 의해 평균값이 크게 변화할 가능성이 적어진다.
- 표본수가 클수록 평균값 계산에 표준오차가 작아지고 평균값의 신뢰성이 높아진다.
- 무작위로 나누어진 집단의 개입이전 기술통계의 밸런스가 동등해야한다.
- 적절하게 집단을 나누어야한다.
- RCT의 강점
- 어떤 변수에 대해서든 실험 개입이전 각 집단이 모두 평균적으로 동등하기에, 집단 간의 실험 결과에서 차이가 나타났다면 그 원인은 실험자의 개입이라고 단정지을 수 있다.
- 단기적인 효과만이 아니라 중장기적인 효과도 분석해준다.
- 분석 기법과 결과가 투명하다.
급격한 변화의 경계선을 찾는 RD디자인
RCT를 실시할 수 없을 때, 자연실험
- 자연실험
- 우연히 발생한 실험과 유사한 상황을 활용함
- RCT와 같은 형태로 이루어지지 않는 정책이나 비즈니스상의 개입을 분석할 수 있다.
RD디자인
RD디자인
은 온갖경계선
을 활용하여인과관계
에 다가서는자연실험기법
이다.
- RD디자인 가정
경계선에서 X value가 변화하지 않는다면 Y value도 점프(or 비연속적변화)를 하지않는다
- 하지만, 이 가정이 온전히 성립하는지는 검증하기 어렵다
(counterfactual potential outcome). - 만약 지정한 X value이외에 다른 X value에 의해 Y value가 비연속적으로 변하게되면 가정이 무너진다.
- 더불어, RD디자인에는 분석 대상이 그래프 가로축의 변수를 자의적으로 조작할 수 없다라는 조건이 필요하다.
- *어떤 경우에서도 RD디자인에 필요한 가정이 적절히 지켜졌다고 단정혹은 입증할 수 없으며, 단지 이 상황에서 가정이 지켜질 가능성이 높다고 주장할 수 있을 뿐이다.
- 하지만, 이 가정이 온전히 성립하는지는 검증하기 어렵다
- RD디자인에서 해야할 것
- RD디자인에서 분석자는 가설에서 지정한 변수X(위의 예제에서는 본인부담금)이외의 변수가 특정 경계(위의 예제에서는 70세)를 기준으로 비연속적인 변화를 보이지 않는지 그래프를 만들어 확인해야만한다.
- 즉 여러 변수X에 관해서 데이터를 모아 처음 가설에서 지정한 변수X이외에 경계선을 기준으로 비연속적인 변화가 일어나지 않았다는 사실을 확인하는 것이 중요하다.
- RD디자인의 강점
RCT
를 실시하지 않고도RCT
에 가까운 상황을 만들어 낼 수 있다.
(노력 및 비용면에서 이득…!!!)- 그래프를 이용해 분석 결과나 가정을
시각적으로 설명하여 투명한 분석을 가능하게끔 한다. - RD디자인은 이용할 수 있는 상황이 의외로(?) 많다.
- RD디자인의 약점
경계선 부근
에 있는 분석대상에 대한 인과관계만 측정할 수 있다. (즉 전역에 범용적으로 적용할 수 없다.)
계단식 변화가 있는 곳엔 집군분석
집군분석
- 아래와 같은
계단식 변화
는 일정 정도의 집합군을 만들어낸다. RD디자인
과 달리집군분석
은 대상이 그래프의가로축 변수를 조작
할 수 있는 상황에도 적용할 수 있다.- 책의 예제에서는 분석대상은 자동차였고, 가로축의 변수는 자동차의 무게였다. 그리고, 연비 정책에 따라서 자동차의 무게가 어떻게 바뀌는가에 대해서 설명하였다.
- 즉,
가로축의 변수의 변화
에 대해 초점을 맞추고있으며,집군분석
에서 이는 중요함을 알 수 있다.
- 경계선에서의
데이터 집적
을 분석함으로써인과관계
를 검증한다.
집군분석의 가정
분석하고 싶은 변수 X value가 계단식으로 변화하지 않는다면 Y value의 분포는 연속적이며 집적하지 않는다.
- 아래의 자료를 기준으로 연비 규제 정책이 계단식으로 변화하지 않았다면, 자동차수의 분포는 자료에서 점선의 형태를 보여주었을 것이다.
- 다른 분석과 마찬가지로, 이 가정이 온전히 성립하는지는 검증하기 어렵다
(counterfactual potential outcome). - 데이터 분석자는 자신의 가정이 성립할 것이라는 증거를 최대한 열거시키는 수밖에 없다.
(책의 예제에서는 다음과 같은 증거들을 열거하였다.)- X가 변화하는 경게점 이외의 지점에서는 Y의 분포가 전체적으로 매끄러웠다.
- 실험 당시 Y에 영향을 줄 수 있는 정책은 X뿐이였다.
- X에 따라 Y의 집적 위치가 변화하였다. (X가 변화하는 계단의 경계선이 오른쪽으로 이동할 수록 집적의 위치도 경계선을 따라 오른쪽으로 이동하였다.)
집군분석의 강점
RCT
를 실시하지 않고도RCT
에 가까운 상황을 만들어 낼 수 있다.
(RD디자인
과 마찬가지로 노력 및 비용면에서 이득…!!!22)- 그래프를 이용해 분석 결과나 가정을
시각적으로 설명하여 투명한 분석을 가능하게끔 한다. 계단식
으로 인센티브가 변화하는 상황은 다양하다. (RCT
가 불가능할 경우 유용)
- 그래프를 이용해 분석 결과나 가정을
집군분석의 약점
RCT
에비해 가정이 성립할 것이라는 근거만을 제시할 수 있다. (입증이 불가능)계단식 인센티브에 반응한 대상
(즉 집적한 대상)에 대해서만인과관계
를 분석할 수 있다.
시간의 흐름에 따른 패널 데이터 분석
패널 데이터 분석
패널 데이터
: 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터를 가르킨다.RCT
가 불가능할 경우 사용할 수 있는 자연 실험 기법 중 하나- 개입 전후 두 집단의 데이터가 있으면 설득력 있게 인과관계를 분석할 수 있다는 사고방식을 이용
- 개입집단의 결과 평균값($Y_t$)와 비교집단의 결과 평균값($Y_c$)가 있을 때 다음과 같이
개입효과
를 도출한다. (이중차분법(difference in differences methods)
or고정효과추정법(fixed effect estimation)
)- A = 개입 “전”의 $Y_t$ 와 $Y_c$ 차이
- B = 개입 “후”의 $Y_t$ 와 $Y_c$ 차이
- 개입효과 = ABS(A-B)
패널 데이터 분석의 가정
패널 데이터 분석
에는평행 트렌드 가정(parallel trend assumption)
이 필요하다.
[ 평행 트렌드 가정 ] 만약 개입이 일어나지 않았다면 개입집단의 평균값($Y_t$)과 비교집단의 평균값($Y_c$)은 평행한 추이를 보인다.
평행 트렌드 가정
또한 다른 분석법의 가정과 마찬가지로 데이터로 입증할 수 없기에 분석자는 이 가정이 성립하리라는 증거를 최대한 열거해야 한다.- 개입 이전의 데이터를 통해 개입집단과 비교집단 사이에
평행 트렌드 가정
이 성립하는지 조사한다. - 개입 이후 개입집단에만 영향을 미친 다른 사건이나 변수가 없었는지 확인한다.
- 만약에 고려했던 개입사건이외에 다른 사건이 같이 발생할 경우, 이후에 나타나는 변화가 고려했던 개입사건에 의한 것인지 다른 사건에 의한 것인지 알 수가 없게된다.
- 단, 개입집단과 비교집단 양쪽에 똑같이 영향을 주는
공통 쇼크(common shock)
의 경우 문제가 되지 않는다. 즉,공통 쇼크
는평행 트렌드 가정
을 무너뜨리지 않는다.
- 개입 이전의 데이터를 통해 개입집단과 비교집단 사이에
패널 데이터 분석의 강점
평행 트렌드 가정
이 지켜지는 한, 개입집단과 비교집단 간에 원래 차이가 있어도 문제가되지 않는다.RD디자인
과집군분석
이 경계선 주변의 대상에만 분석할 수 있다는 한계를 가졌지만,패널 데이터 분석
의 경우 개입을 받은 모든 대상의 개입효과에 대해 인과관계를 측정할 수 있다.
패널 데이터 분석의 약점
평행 트렌드 가정
은 많은 상황에서 성립하지 않는다…ㅠ- 복수 기간에 걸쳐 개입집단과 비교집단의 데이터를 수집해야한다.
- 예상문제1 : 개입집단의 데이터만 수집하고 비교집단의 데이터를 수집하지 않을 수 있음
- 예상문제2 : 개입이후의 데이터만 수집하고 개입이전의 데이터는 수집하지 않을 수 있음
데이터는 어떻게 전략이 되는가
데이터 분석의 성공 요건
- 데이터 분석 전문가와 협력 관계를 구축한다.
- 데이터에 접근할 수 있는 길을 연다
- 방법1 : 모든 사람에게 데이터를 공개하고 특별한 절차 없이 이용할 수 있게 하는 것
- 방법2 : 일정 절차를 거쳐 데이터에 접근하게 하는 것
- 방법3 : 전문가에게만 데이터를 공개하는 것
기업과의 협력 사례 : 우버
- 택시 요금도 수요와 공급의 관계에 따라 변해야 한다는 주장이 있다.
- 운전자 수 < 이용자 수 : 가격up
- 운전자 수 > 이용자 수 : 가격down
- 위와 같은 형태로 수요와 공급의 균형을 잡는다는 발상
실제 우버에서는 운전자 수와 이용자 수의 상대적인 차이에 따라서 이용가격을 변동시킨다.
- 위처럼 이용가격을 변동시키기 위해
수요곡선
은 중요하다.수요곡선
: 가격 인상이나 하락에 따라 이용자수가 얼마나 바뀌는지 알려줌- 이
수요곡선
에 따라서 소비자들에게 책정받는 금액이 달라지며, 표시된 요금에 따라 소비자들은 운전자를 부를지 말지 선택하게 된다. - 이러한 소비자가 우버에 지불한 요금과 이용상황에 관한 데이터를 우버는 데이터 연구팀에게 전달하였다. (그중 소비자가 요금 표시 화면을 보고 우버 택시를 이용할지 말지 선택하는게 중요!)
수급핍박지수(surge generator)
- 우버에서 운전자 수와 이용자 수를 실시간으로 확인함으로써 계산하는 지표
- 수급핍박지수 ⇧ ➠ 운전자 수 < 이용자 수
- 수급핍박지수 ⇩ ➠ 운전자 수 > 이용자 수
- 우버는 해당 지수를 이용해서 특정
핍박지수
들을 기준으로 가격을 배로 정한다.- ex1) 1.15<= 핍박지수 < 1.25 ➠ 가격x1.2
- ex2) 1.25<= 핍박지수 < 1.35 ➠ 가격x1.3
- 아래의 자료를 참고하면, 가격이 1.3배로 상승하는 구간(핍박지수 1.25이상)부터 순간 이용률이 비연속적으로 떨어지는 것을 확인할 수 있다.
- 이 자료를 이용해 가격이 오르면 이용자가 줄어드는 것을 직관적으로 알 수 있으며, 얼마나 줄어드는지 수치로 확인함으로써 우버는 특정한 프로덕트 액션을 취할 수 있다.
불량 분석을 피하기 위한 방법
무용지물의 데이터
- 데이터 측정에 문제가 있고, 수치가 바르지 않은 데이터
- 관측치에 대량의 결측치가 있는 데이터
- 편중된 표본에서만 확보되어진 데이터
외적 타당성 문제
외적타당성(external validity) 문제
: 실험이나 자연실험으로 얻은 분석 결과를 다른 대상에게도 적용할 수 있는가에 관한 문제
References
(1) 이토 고이치로, 『데이터 분석의 힘』, 전선영, 인플루엔셀(2018)
This post is licensed under CC BY 4.0 by the author.