brunch

You can make anything
by writing

C.S.Lewis

by Ryan Choi Apr 09. 2024

데이터는 예측하지 않는다

김송규 저 | 좋은습관연구소

데이터 사이언스의 본질에 대해 다시금 생각하게 만드는 책이다. 부제인 '데이터에 관한 꼭 알아야 할 오해와 진실'에서도 알 수 있듯이, 그동안 대부분의 사람들이 잘못 알고 있었거나 데이터 만능주의에 빠져 오해하고 있었던, 데이터 분석의 진실에 대해 하나하나 짚어주는 책이다.


먼저 저자는 데이터 분석을 하기에 앞서 어떤 목적에서 데이터를 활용하는지 확인해봐야 한다고 한다. 데이터로 문제를 해결해야만 하는 것인지, 데이터의 문제를 해결하려는 것인지, 데이터로 설득하려 하는 것인지, 데이터로 문제를 해결하려는 것인지 말이다.


각각의 경우는 비슷해 보이지만 조금씩 그 의미가 다르다. 그리고 대부분 가장 마지막에 언급된 '데이터로 문제를 해결하려는' 목적에 해당될 가능성이 높다. 저자는 경우에, 문제의 본질을 제대로 파악하고 있는지 반드시 짚어봐야 한다고 말한다.

(34p) "내가 갖고 있는 문제는 꼭 데이터로만 해결이 가능한가?, 이 문제를 해결하는데 데이터 사이언스가 반드시 필요한가? 다시 한번 강조하지만, 데이터 분석이든 뭐든 시작하기에 앞서 문제의 본질부터 파악하는 것이 첫 번째 단추라는 것을 잊지 말아야 한다."


문제의 본질을 파악한 이후에는 데이터 분석 기법과 대용량의 데이터가 필요한 때가 언제인지를 아는 것이 필요하다. 저자는 데이터 사이언스가 세상의 여러 문제를 해결하는 강력한 도구임을 인정하면서도 상황과 여건에 따라 쓸 수 있는 다른 도구들이 차고 넘친다는 사실을 반드시 기억해야 한다고 강조한다.


이 책에서 가장 유용했던 내용은 <데이터 분석, 꼭 알아야 할 15가지> 챕터였다. 데이터 분석의 전 과정에서 반드시 체크해야 할 조언들이 망라되어 있어, 반복해서 확인하고 기억하면 좋을 내용들이다.  

<데이터 사이언스 일반>
1) Garbage in, Garbage out.
2) 분석 자체보다 분석 과정 전체를 보는 것이 훨씬 중요하다.
3) 웬만한 건 고등학교 수준의 통계학만으로도 가능하다.
4) 모든 데이터 사이언스는 "측정 → 수집 → 분석"의 단계를 따른다.
<데이터 측정>
5) 데이터 사이언스 실무에서 가장 중요한 것은 측정이다.
6) 측정에는 측정 장비와 스케일을 포함한다.
7) 그래서 중요한 것이 스케일이다.
8) 데이터 사이언스를 위해 필요한 기초 과목은 (실험) 물리이다.
9) 대체 지표로 측정한 것은 가짜다.
<데이터 수집>
10) 데이터 수집에는 전처리 과정을 포함한다.
11) 전처리에서 중요한 기초 과목은 신호처리이다.
<데이터 분석>
12) 되도록이면 적은 데이터를 모으는 게 바람직하다.
13) 가장 좋은 해결은 데이터 분석 없이 문제를 해결하는 것이다.
14) 데이터 사이언스는 만병통치약이 아니다.
15) 데이터 분석이 강력한 한방일 필요는 없다.


데이터로 미래를 예측하는 것은 불가능하다고 단언하는 저자의 주장에도 일견 공감했다. 수집된 데이터는 분명 과거의 데이터이지만 그럼에도 불구하고 많은 학자들은 데이터로 미래를 예측할 수 있다고 믿는다. 그리고 이 믿음의 근거는 과거 사건이 현재나 미래에도 재현된다는 가정에서 비롯된다.


하지만 이런 믿음은 틀렸다는 것이 저자의 생각이다. 근본적으로 미래는 재현되기 어려우며, 어제가 오늘과 다르고 오늘은 내일과 다르기 때문이다. 과거 데이터로 파악할 수 있는 것은 미래에 대한 '예측'이 아니라 오직 '패턴'일 뿐이다.


또한 저자는 데이터 사이언스는 '과학'이 아니라고 단언한다. 데이터 분석이 보장하는 것은 답의 진실이 아니라 데이터의 대표성일 뿐이라는 것. 데이터 기반 의사결정의 가장 맹점 또한 바로 지점에 있다. 데이터선택적, 편향적 수집 가능성과 데이터로 표현되지 않는 변수들은 분석에서 고려할 수 없다는 사실바로 데이터 사이언스의 한계라 할 수 있다.


도박과 확률의 차이점을 언급한 내용도 흥미로웠다. 저자는 기댓값에 대해 이야기하며, 확률이 도박과 가장 다른 점은 그 목적이 '예측'에 있는 것이 아니라 '관리'에 있다는 점이라고 말한다. 그래서 확률을 잘한다는 것은 위험성에 대한 '관리'를 잘한다는 뜻으로 이해해야 한다는 것이다.


미국의 신용평가제도와 실리콘밸리에서의 실패에 대한 관점도 그간 내가 알고 있던 부분과 사뭇 달라 흥미롭게 읽었다. 


미국의 신용등급은 오로지 신용 이력(history)만으로 산정되며 우리나라와 같이 국가적 차원의 신용 회복제도가 없기 때문에 한번 신용불량이 되면 신용등급이 회복이 될 때까지 제도권에서의 대출은 불가능하다고 봐야 한다는 것. 오히려 한국보다 더 강력하면서도 굉장히 잔인한 제도라는 생각이 들었다.


한편 미국의 스타트업 환경에서 실패를 용인한다는 것의 의미에 대해서도 이 책에 언급되어 있는데, 실리콘밸리가 실패를 용인하는 문화를 가지고 있다는 것은 착각에 불과하며, 보다 정확히 이야기한다면 '성공 가능성이 높은' 기업에 계속해서 투자하는 문화로 보는 것이 맞을 것이라는 게 저자의 주장이다.


저자는 데이터 사이언스가 자연현상이나 사회현상을 분석하는데 필수불가결한 도구라고 생각하는 일부의 사람들을 비판하며, 사실상 데이터 사이언스는 기존 기법을 대체하기보다 다른 분석 기법을 도와주는 '보완재' 성격이라는 점을 강조한다.


특히 데이터 분석 그 자체보다는 어떤 문제에 대한 최적화된 문제 형태를 찾고 해당 문제를 쉽게 풀 수 있는 기법을 선정하는 '시스템 및 프로세스 설계'가 문제의 본질을 이해하는 데 더 중요하다는 점도 이야기한다. 데이터 분석을 위해서는 일련의 절차가 갖춰져 있어야 제대로 작동이 가능하기 문이다.


책 말미에 가서는 인문학의 중요성을 강조한다. 주어진 문제의 문맥이나 인과관계를 논리적으로 추론할 수 있는 기본적인 소양을 갖추는 것이 중요하며, 인문학이 모든 문제 해결에 기본이 되는 이유는 세상을 판단하고 논리적으로 합리적으로 생각하는 데 필요한 최소한의 자원이기 때문이라는 지론을 펼친다.


데이터 분석만 하면 뭐든지 해결될 것이라고 착각하는 사람들이 한 번쯤 읽어보면 좋을 책이다. 데이터 사이언스의 이상적인 모습보다 직면한 현실을 제대로 바라보며 본질에 집중하는 관점을 가지는데 도움이 되었다. 특히 저자의 지식과 경험을 바탕으로 자신감 있게 전달하는 내용들명쾌한 주장들이 눈에 띄는 책이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari