brunch

You can make anything
by writing

C.S.Lewis

by 유저해빗 Aug 13. 2019

[부록] 초보 데이터 사이언티스트를 위한 추천 도서3

데이터 과학도 책으로 배웠어요!

몇 년 전부터 빅데이터 분석 혹은 데이터 사이언스는 크게 주목 받고 각광 받는 분야 중 하나입니다. 하지만 이 분야를 전공하거나 현업에 종사해보지 않은 사람들의 경우에는 그 접근조차 쉽지 않은 경우가 대부분인데요. 이번 시간에는 이러한 분야를 조금 더 쉽게 이해할 수 있는 추천책 3권을 준비해 보았습니다.


1. <데이터 인문학>, 김택우 지음, 한빛미디어, 2019년

초보 데이터 분석가를 위한 첫 번째 추천 도서는 ‘세상을 움직인 역사 속 데이터 이야기‘라는 부제를 가진 책, <데이터 인문학>입니다. 이 책은 16가지 역사 속 에피소드를 바탕으로 데이터란 무엇인지, 어떻게 활용할 수 있는지, 조직과 환경에서 어떤 힘을 발휘할 수 있는지 알려주고 있습니다. 어려운 수식이나 복잡한 기호 없이 실제 사례를 바탕으로 데이터의 중요성을 알기 쉽게 전달해주는 것이 가장 큰 특징이죠.


책에 담긴 실제 사례를 살펴보도록 하죠. 1854년 9월, 영국 런던에서는 콜레라가 창궐했습니다. 당시 콜레라는 공기를 통해 전염된다고 알려졌는데요. 당시 환자를 돌보던 의사 존 스노우는 환자들이 보이는 증상을 기반으로 다른 가능성을 염두에 두고 있었습니다. 그러던 중 그는 감염에 따른 사망자 수와 주소가 담긴 데이터를 확보하게 되었는데요. 이를 지도에 표시하자 다른 모습이 나타났습니다. 바로 공용 펌프가 있는 브로드가를 중심으로 콜레라가 발생했다는 것을 알게 된 것이죠.


콜레라 환자들을 대상으로 해당 공용 펌프에서 물을 길어다 먹은 사실이 있는지 여부를 확인한 스노우는 오염된 물로 콜레라가 전염된다는 것을 확신합니다. 그는 시청 담당자에게 펌프의 폐쇄를 요청했고, 그 결과 콜레라의 확산을 막을 수 있었죠. 데이터와 이를 기반으로 한 스노우의 노력이 수많은 생명을 구한 겁니다.


존 스노우의 콜레라 지도


데이터를 통한 변화 사례는 이뿐만이 아닙니다. 농업을 기반으로 한 사회였던 조선에서는 가장 중요한 강우량의 측정과 수집을 위해 전국 330여 곳에 측우기를 설치하여 체계적인 데이터를 수집했으며, 그에 앞서 조선의 개국공신 정도전은 토지의 등급별 면적에 대한 기준표를 배포하고 이를 통해 모인 데이터를 바탕으로 국가 운영을 위한 자금을 결정했죠. 즉, 데이터의 중요성이 강조된 것은 비교적 최근의 일이지만 이를 수집하고 활용하려는 노력은 오랜 기간 이어져 왔다는 것을 알 수 있는 것이죠.


2. <데이터 과학 무엇을 하는가?>, 김옥기 지음, 이지스 퍼블리싱

초보 데이터 분석가를 위한 두 번째 추천 도서는 20여 년간 현업에서 데이터 과학자로 일한 김옥기 엔코아 데이터 서비스 센터장의 <데이터 과학 무엇을 하는가?>입니다. 첫 번째 책이 데이터의 중요성을 일깨우는 책이었다면, 이 책은 실제 필드에서 데이터 과학이 어떻게 활용되고 있는지, 데이터 과학자란 어떤 일을 하는 사람인지 등 보다 더 실질적인 도움을 얻길 원하는 사람들을 위해 쓰여진 책입니다.


김옥기 센터장은 책을 통해 데이터 분석가와 데이터 과학자는 엄연히 다른 일을 하는 사람이라고 구분합니다. 데이터 분석가의 업무가 과거 데이터를 바탕으로 한 일반적인 기초 통계를 통해서 전반적인 상황을 파악하고, 이해하며, 확인하는 '현황분석'에 치우쳐 있다면, 데이터 과학자는 과거나 현재 데이터에 기초해서 실제 존재하고 있지만 모르는 사실을 추정하는 것, 또는 가까운 미래에 발생할 가능성이 있는 사안들을 추측하는 '예측분석'과 추정 또는 예측 분석 모델을 실제 실행했을 때 가장 바람직한 결과가 예상되는 모델이 무엇인지를 분석하는 '예측 최적화 분석'에 초점을 맞춰 업무를 진행한다는 것이죠.


책에 담긴 예를 살펴보죠. 어느 백화점에서 판매 데이터의 분석을 시작했습니다. 이때 지점별 한 달 매출을 합산한 뒤 과거 데이터와 비교하여 어떤 지점의 매출이 왜 적게 나왔는지 진단하는 것을 우리는 ‘현황 분석‘이라고 말합니다. 그리고 이 데이터와 다양한 경제 변수, 내부 비즈니스 환경을 고려해 내년 매출을 추측하는 것을 우리는 ‘예측 분석‘이라고 말하죠. 마지막으로 내년 매출과 함께 반품률을 함께 예측하여 내년 구매 예산에 반영하는 시나리오까지 만들어진다면 우리는 이를 ‘예측 최적화 분석‘이라고 말합니다. 말 그대로 예측을 최적화해 기업이 보다 효율적으로 운영되고 발전해나갈 수 있도록 돕는 것이 바로 데이터 과학자의 역할인 것이죠.


이와 더불어 이 책에서 가장 많은 부분을 할애하고 있는 내용은 미국과 한국의 데이터 과학 또는 데이터 분석 사례들입니다. 저자는 이 부분을 자신의 실제 경험을 중심으로 저술했는데요. 그러다 보니 개별 사례들을 수박 겉핥기식이 아니라 보다 심층적이고 구체적인 형태로 다루고 있는 것이 큰 장점입니다.


3. <그림으로 배우는 데이터 과학>, 히사노 료헤이, 키와키 타이치 지음, 김성훈 옮김, 영진닷컴

초보 데이터 분석가를 위한 마지막 추천 도서는 <그림으로 배우는 데이터 과학>입니다. ‘컴퓨터 구조부터 딥러닝까지 10시간 만에 배우는 데이터 과학‘이라는 부제가 달려 있는데요. 물론 10시간만에 ‘제대로’ 데이터 과학을 배울 수는 없겠지만, 데이터 과학자의 업무와 해당 업무에 필요한 기초적인 지식을 습득하기에는 매우 유용한 책입니다.


프로그래밍과 알고리즘, 데이터베이스 등 데이터 과학의 기초 기술은 물론, 통계학 및 머신러닝의 기초가 되는 여러 방법론, 코퍼스와 네트워크 분석, 딥러닝 등 분석에 필요한 기본 정보들을 망라하고 있는데요. 대부분의 내용이 짧은 글과 함께 이를 도식화하여 설명하는 구조로 짜여져 있어 데이터 분석에 대한 기초 지식이 전혀 없더라도 어느 정도 시간을 들이면 이해가 어렵지 않은 책이라고 할 수 있습니다.


총 20개 파트로 나누어 핵심적인 개념과 내용을 다루고 있는 것도 이 책의 큰 특징 중 하나인데요. 함께 공부할 만한 분이 계시다면 스터디 형태로 함께 책을 읽어 나가셔도 큰 도움이 되지 않을까 싶습니다. 사실 책을 읽는다고 해서 그 분야의 모든 것을 다 알 수 있는 것은 아닐 겁니다. 하지만 누구의 도움을 빌리지 않고, 가장 빠르게 정보를 습득할 수 있는 방법에는 책 만한 것이 없으리라 생각합니다. 데이터 사이언스에 관심을 가지고 계신 분들이라면 한 번쯤 시간을 내어 이 책들을 읽어 보시기를 권해드립니다.


▶︎ 데이터 사이언스 책 추천 영상으로 만나기! https://youtu.be/_Z46Duxjnpk


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari