Post

[book] 『데이터 인문학』


해당 포스팅에서는 김택우 저자의 『데이터 인문학』에 대한 간단한 후기입니다. 저는 데이터 기반의 문제해결/의사결정과 관련 있는 서적에 대해서 관심이 많습니다. 그리고, 이러한 이유로 해당 책을 읽게 되었습니다. 이 책은 “역사적으로” 데이터가 문제해결/의사결정에 어떤 도움을 주었는지 혹은 어떻게 활용되었는지 알려주는 책이었습니다.

context


책 내용의 목차 중에서 “데이터 수집에는 목적이 있어야 한다”,”데이터 시각화 다르게 보면 새로운 길이 보인다”, 그리고 “팩트가 담긴 데이터”를 가장 흥미롭게 읽었습니다.


“데이터 수집에는 목적이 있어야 한다”에서는 줄리아니 시장의 교도소 폭동에 대한 고민, 강수량 측정, 그리고 해양 정보 수집 등의 목적을 가지고 데이터를 수집하고 문제를 해결한 사례에 대해서 소개되었습니다. 각 사례에서 데이터 분석에 대한 플로우(분석 작업의 목적/가설 정의 -> 필요한 데이터 수집/확인 -> 데이터 전처리/집계 -> 데이터 기반의 가설검증)를 소설 읽듯이 풀어내었는데, 회사에서 데이터 분석할 때도 비슷한 플로우로 진행을 하기에 공감하며 읽었습니다.

앤더슨은 이번 분석 작업의 목적을 ‘수감자의 탈옥 및 폭동 시기 예측’이라고 정의했다. 이렇게 정의하는 이유는 일을 추진하는 방향을 명확히 하기 위한 것이라고 했다. (생략)… 정해진 시간 안에 일을 하려면 모든 요청을 수용하기보다는 적절히 거절하는 것이 더 맞는 방법이다. (p.32)

그룹으로 묶으면 개별 품목을 분석할 때보다 데이터의 양도 풍부하고 변화도 확인하기 쉽거든요. 즉, 연관된 내용에 접근하기 쉬워지죠. (생략)… 이상 현상이 감지된 그룹은 점차 하위 품목으로 내려가면서 분석을 하는 것이었다. 그런 계층적 접근이 데이터를 이해하고 분석을 위한 뼈대라고 했다.(p.33)

데이터가 현재를 살아가는 우리에게 새로운 원유이다. 이 원유를 어떻게 활용할 것인가는 현재의 시대적 고민과 과거로부터 누적된 정보에서 찾아보는 노력을 해 보는 것은 어떨까 생각해 본다. (p.64)

데이터 정리의 목적은 수집을 넘어 활용에 있다. 데이터를 잘 활용하려면 필요 항목과 기준을 정하고 조사를 해야한다. (p.76)


시각화에 대한 내용을 다룬 “데이터 시각화 다르게 보면 새로운 길이 보인다”에서는 데이터 시각화에 대한 중요성을 소개하는 챕터입니다. 해당 챕터에서는 과거에도 사람들에게 분석된 데이터를 효과적으로 전달하기위한 직관적인 시각화에 대한 고민이 있었다는 것을 엿볼 수 있었습니다. 특히, 크림 전쟁 당시 야전병원에서 발생하는 병사 사망 원인에 대해서 분류 분석하고, 분석을 통해 알아낸 문제 해결을 위한 액션 플랜을 세우고, 시각적인 자료(로즈 다이어그램)와 함께 행정관을 설득하는 나이팅 게일의 스토리가 인상적이었습니다.

이는 같은 데이터를 가지고 있더라도 분석 방향에 따라 결과에 차이가 있음을 보여준다. 분석 방향을 올바르게 잡으려면 현상과 원인에 집중해야 한다. (p.93)

‘어떻게 그들을 설득해야 할까? 그녀(나이팅 게일)의 고민이 시작되었다. (생략)…단순 수치 나열보다는 시각화를 통해 현실을 더 잘 표현할 수 있다고 생각했다. (생략)…강조하고 싶었던 것은 사망한 병사가 전쟁터보다 병원에서 더 많이 죽었다는 것이었다. (생략)…다양한 사망 원인 중 가장 큰 사망 원인인 전염병에 초점을 두고 자료를 만들었다. (p.103~p.105)

데이터의 수집과 저장은 현상에 대한 이해를 위해서도 필요하지만, 변화하는 상황을 인지하는 데 더욱더 요긴한다. 우리는 데이터의 수집에 머물지 말고 데이터를 통한 변화를 인지할 수 있는 시각을 길러야 한다. (p.115)

데이터도 파레토 법칙처럼 전체 데이터의 20% 정도는 잘 사용되고 나머지는 수면 아래 빙산처럼 자리만 차지하고 있을 것이다. 이런 블랙데이터를 화이트 데이터화 하기 위해서는 데이터 활용도를 높여야 한다. (p.134)


“팩트가 담긴 데이터”에서는 동의보감 편찬 이전 허준이 느낀 문제 상황, 임진왜란 당시 이순신 장군의 전략적 성공요인, 메튜 모리의 향해 지도, 그리고 김정호의 대동여지도에 관한 내용을 기반으로 데이터 정확성 혹은 사실 기반의 데이터에 대한 필요성에 대한 이야기를 풀어냈습니다. 해당 챕터에서는 무엇하나 빠지지 않고 모든 스토리가 단편 영화를 보듯이 진행되어서 흥미로웠습니다.

그는 가지고 온 의서인 황제내경에 나와 있는 방법으로 치료를 시작했다. 하지만 차도는 없었다. (생략) …그의 고민은 계속되었다. ‘무엇 때문이지? 원인이 대체 무엇이란 말인가? 혹시 중국 사람과 우리 조선사람이 서로 달라서 그런 것인가? (p.142)

허투루 다룰 정보는 없다. 종합적인 분석과 데이터를 기반으로 한 판단이 전쟁에서 승리를 가져올 수 있는 밑거름이 된다. (p.168)

“구슬이 서 말이어도 꿰어야 보배”.라고 한다. 이 말은 데이터에도 적용된다. 세상에는 단편적인 지식들이 많다. (생략) …하지만 이를 위해 나서는 사람은 드물다. 왜 그럴까? 필요성에 대한 인식의 차이다. (p.175~p.176)

데이터가 많으면 좋지만 설명하기 쉬우려면 데이터를 요약하고 직관적 표현으로 재구성해야 한다. (생략)…사람들이 많은 데이터 속에서 핵심을 얻게 하려면 단일 메시지가 드러나도록 단편화해야 한다. (p.194)



This post is licensed under CC BY 4.0 by the author.