brunch

You can make anything
by writing

C.S.Lewis

by Jin Young Kim Feb 07. 2016

데이터 과학자의 책 쓰기 (1)

  계획부터 마무리까지 데이터 과학으로 만들어진 책 '헬로 데이터 과학'


먼저 나에게 적용할 것, 반드시 성공할 것
그다음 상이한 조건에서 다른 사람이나 조직에 활용할 수 있는지 실험할 것
내가 가지고 있지도 않은 것을 나눠 주려는 잘못을 범하지 말 것    
- 구본형

변화 경영 사상가로 그리고 1인 기업가로 필자가 존경하는 (고) 구본형 소장님께서는 전문가로서 스스로에게 적용하는 원칙을 위와 같이 밝히고 있다. 무슨 일을 하던 스스로 선택한 길에서 전문가가 되고 싶다는 목표를 설정한 이래, 필자 역시 위의 가르침을 가슴에 항상 새기고 있다. 따라서 데이터 과학자의 길을 선택하고 그 여정에서의 배움과 깨달음을 요약한 책을 쓰겠다고 결심했을 때, 그 과정에 최대한 데이터를 활용하겠다고 결심한 것은 결코 우연이 아니었다.


보고 감탄하는 데이터가 아니라, 실제로 해보고 삶과 업무에 활용하는 데이터라는 컨셉의 책을 계획하고 집필에 착수한 후 결과를 보기까지 일 년 반이 걸렸다. 그 과정 동안 겪은 갈등과 좌절, 때로는 환희의 순간을 요약하는 것은 쉬운 일이 아니다. 하지만 어떤 일이든 그 결과물 만큼이나 과정이 중요한 법이고, 특히 집필의 전 과정에서 데이터의 도움을 많이 받았기에, 그 과정을 공유하는 것도 의미 있을 것이라는 생각을 했다.


(주: 이 과정을 거쳐 탄생한 필자의 책 '헬로 데이터 과학'은 전국 서점에서 판매 중이다.)


집필 결심: 내가 책을 쓸 수 있을까?

초등학교 시절 내 어머님께서 어린 나를 항상 책방에 두고 옆에서 책을 읽으시거나, 잠깐 볼일을 보러 다녀오셨던 기억이 난다. 어린 나이에도 서점에만 있으면 몇 시간이고 보내는데 문제가 없었으니 책을 좋아하는 마음은 그때나 지금이나 한결같았던 모양이다. 한국에서 회사를 다니던 시절 주말마다 국립중앙도서관에서 그날 정한 주제에 대한 책을 열 권이고 스무 권이고 쌓아놓고 읽었던 기억도 새롭다. 


그러다가 미국의 대학원 박사과정에 진학해서는 전공 분야의 논문을 읽기에도 바쁜 나머지  교양서적을 읽는 일은 줄어들었다. 가끔 짬이 날 때는 주변에 한글로 된 책이 없으니 영어로 된 책을 읽기 시작했다. 뭔가 읽어야 직성이 풀리는 습성은 이렇게 영어 공부를 하는데도 도움을 주었다. 대학원을 마칠 무렵에 내 전공 분야에 멋진 저서를 남기고 싶다는 포부가 있었지만, 학위 논문을 마치는 일에 우선순위가 한참 밀리고야 말았다.


그러다가 박사 학위를 받고 전공 분야였던 검색 데이터를 다루는 업무를 시작했다. 일을  시작한 지 삼 년, 업무가 어느 정도 손에 잡힐 무렵  그동안 배운 내용을 기록하기 시작했다. 업무상으로 빅데이터의 대표 격인 검색 데이터를 다루고 있었지만, 나 자신의 행복도 등 다양한 개인 데이터 프로젝트를 수행하며 스몰 데이터의 다양한 가능성을 발견했다. 따라서 내 글의 주제는 주로 데이터라면 뭔가 거창하고 어려운 것이라는 통념을 깨는 것이었다.

데이터에 대한 기존의 통념을 깨려는 노력의 일환이었던 필자의 브런치 글들

그렇게 시작한 글쓰기의 결과물이 차곡차곡 쌓여갈 무렵, 내 목소리가 담긴 책을 쓰고 싶다는 생각이 다시 고개를 들기 시작했다. 서점에 데이터 전문가를 위한 책은 많지만 데이터에 관심이 있는 일반인이 손쉽게 데이터 활용을 시작할 수 있게 도와주는 책은 별로 없었고, 검색엔진의 빅데이터와 개인 차원의 스몰데이터를 모두 경험한 나만의 목소리를 낼 수 있다는 생각도 들었다. 마침 그 당시 연락을 받은 출판사도 있었고, 몇 군데 접촉한 끝에 다행히 책의 컨셉에 적극적으로 지원해주는 출판사를 만날 수 있었다.


우여곡절 끝에 책 만드는 일에 본격적으로 착수하게 되었지만, 이는 결코 간단한 작업이 아니었다. 여유 시간을 쪼개 틈틈이 해도 무방한 블로그 쓰기와는 달리 책을 만드는 일은 시장에서 팔릴 수 있는 상품을 만드는 일이기 때문이었다. 즉, 블로그가 내가 하고 싶은 이야기를 하고 싶은 만큼 하는 공간이라면, 책은 일관된 주제와 양과 질이라는 측면에서 어느 정도 수준에 도달한 컨텐츠로, 독자들이 돈을 지불하고 사서 소기의 목적을 달성할 수 있게 도와주는 수단이 되어야 한다.


이를 깨달은 필자는 책을 쓰기 시작한 사람이라면 누구나 해봄직한 고민에 부딪히게 된다. 어떤 사람들이 내가 하려는 이야기에 관심이 있을까? 어떤 내용을 어떻게 써야 좋은 책이 될까? 책의 표지와 제목은 어떻게 결정해야 할까? 이는 실제 독자와의 소통을 통해 풀 수 있는 고민이지만, 책을 쓰기 시작하는 사람에게는 당연히 독자란 존재하지 않는다. 많은 독자를 만날 수 있는 책을 쓰기 위해 독자를 먼저 알아야 하는 '닭이 먼저냐, 달걀이 먼저냐 하는' 상황인 것이다.


집필을 계획한 필자로서 독자에 대해 상상하는 바가 있었지만, 이런 직관이 얼마나 정확한지는 의문이 들었다. 직관의 부족함을 데이터로 보완하라는 것이 책의 기본 메시지가 아니었던가? 데이터 과학자로서의 본능이 발동한 필자는 한 권의 책이 만들어지기까지의 모든 의사결정을 데이터화할 수 있는 방법을 고민하기 시작했다. 데이터의 유용성을 설파하는 책을 만드는데 데이터가 결정적인 공헌을 했다면, 그 자체가 책의 가치와 진정성을 보증하는 증거가 될 것이다. 


이 글의 주제는 '헬로 데이터 과학'을 집필하는 전 과정에서 어떻게 데이터를 활용했는 지다. 여기서 다루는 내용은 책  집필뿐만 아니라 어떤 종류의 컨텐츠를 계획하고 만들고 상품화하는 과정에 적용이 가능하지 않을까 한다. 이제 필자가 책 작업에 데이터를 활용한 과정을 컨텐츠 계획하기, 컨텐츠 완성하기, 그리고 컨텐츠 상품화하기의 삼단계로 나누어 알아보자. 이번 글에서는 컨텐츠 계획까지 다룰 생각이다.

'헬로데이터 과학'의 집필 프로세스

컨텐츠 계획: 잠재 독자를 파악하라!

집필을 시작하던 당시 필자는 블로그를 운영하고 있었다. 하지만 블로그를 방문해주는 독자들의 취향이나 경험의 수준을 예측하기는 쉬운 일이 아니었다. 그래서 우선 독자들과 소통할 수 있는 방법을 찾다가 시작한 것이 메일로 운영되는 독자그룹이었다. 블로그에 오시는 독자분들께 내가 다시 연락할 수 있는 쌍방향 소통의 준비를 갖춘 것이다. (주: 독자그룹 분들께서는 집필과정 내내 엄청난 도움을 받았기에, 이 자리를 빌어 감사의 말씀을 전한다.)

헬로 데이터과학 독자그룹 가입 양식

독자 그룹의 분들께는 새 글도 먼저 보내드리고, 데이터 과학 관련 자료를 공유하기도 했다. 메일링 리스트 관리를 위해서 사용한 MailChimp는 이런 메일 기반의 소통을 위해 굉장히 효과적인 도구였다. 내가 보낸 메일에 대한 독자들의 응답률 등을 실시간으로 알 수 있었기 때문이다. 주기적으로 독자 분들의 관심사 및 주로 사용하는 도구를 파악하기 위한 서베이도 진행했다. 아래 서베이 결과 중 일부를 소개한다.

독자들의 관심 주제를 파악하기 위한 서베이 (전체 응답 보기: https://goo.gl/0F8dS9)


이런 노력 끝에 어떤 분들이 내 글에 관심을 가져주시는지, 그리고 어떤 주제와 수준의 글을 써야 할지를 좀 더 명확히 파악할 수 있었다. 몇 가지 흥미 있었던 것은 독자분들이 여전히 엑셀을 많이 사용하지만 R을 사용하는 분들도 상당수 된다는 점, 그리고 전체적으로 온라인 서비스/마케팅에 관심이 많으시지만,  생각보다 많은 분들께서 개인 데이터 분석에 관심을 나타내셨다는 점이다.


물론 독자그룹의 구성원들은 필자의 글에 이미 관심을 갖고 메일링 리스트에 가입하신 분들이다. 따라서 이 분들의 성향이 전체 독자층을 대변한다고 볼 수는 없다. 데이터 수집 단계에서 나타나기 쉬운 '편향'의 문제가 발생하는 것이다. 이런 편향을 보완하기 위하여 IT 쪽 출판 경험이 많으신 편집자분의 의견에 귀를 기울이고, 관련 커뮤니티에 올라오는 글을 참고하며 전체 독자층의 취향을 파악하기 위해 노력했다.


요약하면 집필 계획 단계에서 독자들과 쌍방향으로 의사소통할 수 있는 인프라를 갖추려고 노력했고, 이 결과 책 전체의 방향과 수준에 대한 구체적인 아이디어를 얻을 수 있었다. 결과적으로 '헬로 데이터 과학'은 데이터 활용의 필요성과 구체적인 방법 및 기본적인 도구 사용법 (엑셀과 R), 그리고 개인 및 공공 데이터 등 주변에서 손쉽게 접할 수 있는 생활 속 데이터 활용 사례를 다룬 책으로 만들겠다는 방향을 잡을 수 있겠다.


컨텐츠 구상: 저자의 지식 관리

웬만한 블로그 글이라도 써보신 분은 아시겠지만 글은 진공 상태에서 마술처럼 써지는 것이 아니다. 글은, 특히 제대로 된 글은 오랜 시간의 경험과 배움 그리고 깨달음이 시간의 세례를 거쳐 자연스럽게 흘러나오는 결과물이라는 것이 필자의 생각이다. 하지만 시간은 누구에게나 동일하게 주어지는 법이니, 책을 쓰려는 사람에게는 주어진 시간에서 최대한의 배움을 축적하여 이를 좋은 글로 표현할 수 있는 능력이 필요하다.


원래 개인의 정보 관리에 관심이 많은데다 대학원 이후 계속 연구직에 종사해 왔던 필자는 이처럼 보고 듣고 느낀 점이 다양한 형태로 축적되고, 그중 일부가 다시 글이나 발표자료 등의 형태로 출력되는 과정에 관심이 많았다. 예전에 나의 정보흐름 분석이라는 이름으로 글을 쓴 적도 있지만, 특히 책 작업을 시작한 이후에는 좀 더 체계화된 지식 관리를 해야 할 필요성이 생겼다. 아래 그림은 필자가 집필을 위한 자료를 습득하고, 정리하고, 이를 초고로 만드는 과정을 정리한 것이다.

'헬로 데이터 과학' 집필 초반의 정보 흐름. 참고 자료에서 노트 및 메모로, 그리고 초고가 되기까지

이 과정을 차근차근 살펴보자. 우선 왼쪽의 지식 습득 부분에서는 온라인 아티클과 논문, 그리고 책의 형태로 집필할 내용에 대한 다양한 자료를 섭렵하였다. 끊임없이 진화하는 데이터 과학이라는 분야의 특성상 집필 작업을 하는 중간중간에도 계속 새로운 자료가 쏟아졌는데, 집필 일정이 늦어지더라도 이를 최대한 습득하려고 애썼다. 온라인 아티클의 경우 우선 포켓에 저장하고, 주의 깊게 읽을 자료는 에버노트에서 읽으면서 주석을 달았다. 종이책의 경우 읽은 후 최대한 빨리 주요 부분을 에버노트 등에 옮겨 적었다.


이렇게 필자의 업무와 직접 관련되지 않은 영역에 이르기까지 폭넓은 지식을 습득하게 된 것이 책 작업을 통해 얻은 소득이 아니었나 싶다. (이 과정에서 필자의 연구 주제에 대한 논문을 읽을 시간이 줄었다는 문제가 있었지만, 이 부분은 올해 보충하기로 했다) 어느 정도 자료가 쌓인 이후에는 독자그룹에 보낸 메일과 홈페이지에 데이터 과학 자료 모음을 통해 수집한 자료를 공유하기도 했다. 이 과정에서 독자그룹에 더 많은 분이 가입하시기도 했고, 때로는 좋은 자료를 소개받기도 하였다.


필자가 경험적으로 쌓은 지식과 깨달음, 그리고 위와 같이 습득한 자료는 결합하여 글감이 된다. 어떤 경우 원래 쓰고 싶은 주제에 대한 자료를 찾기도 하고, 뭔가 읽다가 글감에 대한 영감이 떠오르기도 하였으니, 직접 경험과 간접 경험은 글쓰기에 있어서 보완적인 역할을 하는 것 같다. 어쨌든 필자가 중요하게 생각한 부분은 순간순간 떠오른 아이디어를 놓치지 않고 다양한 형태로 메모하는 것이었다. (주: 최근에 신정철 님께서 이 주제에 대해 메모 습관의 힘이라는 좋은 책을 써주시기도 하셨다.)


메모 방법에 있어서는 때와 장소, 구상의 단계에 따라 다양한 방법을 사용하였다. 우선, 밖에 나온 경우에는 (주로 까페) 아이패드의 Paper 앱이나 몰스킨 노트에 글감을 적기도 하였으며, 이렇게 초기 구상이 끝난 글감은 집에서나 주말에 출근한 오피스에서 대학노트에 좀 더 발전시키거나 컴퓨터에 바로 초고를 적기도 하였다. 이렇게 다양한 도구를 사용한 탓에 구상한 내용을 찾기 힘든 경우도 있었지만, 무조건 한 가지 도구만 사용하려고 하는 것보다는 그때그때 상황에 맞는 도구를 조합해 사용하는 것이 장점이 많다는 생각이다.


실제 글 작성에 있어서는 텍스트 문서에 다양한 서식을 입힐 수 있는 마크다운(Markdown)을 지원하는 에디터를 사용하였다. 마크다운으로 작성한 글을 워드프레스 블로그에 바로 올릴 수 있는 편리함도 있었고, 텍스트 파일을 처리하여 집필 진행상황에 대한 통계를 내기 편한 장점도 있었기 때문이다. 윈도에서는 마크다운 패드(MarkdownPad), 아이패드에서는 에디토리얼(Editorial)을 추천한다. 집필 과정 및 원고를 책으로 만드는 과정에서 데이터를 활용하는 방법에 대한 좀 더 구체적인 이야기는 다음 글에서 다룰 예정이다.


맺음말

이 글에서는 필자가 집필을 결심하기까지의 과정, 그리고 글감을 계획하고 구상하는 과정을 다루었다. 지난 일 년 반의 여정을 정리하는 과정에서 책 한 권을 만드는 것이 어떤 일인지에 대한 많은 생각을 했고, 이 과정에 대한 기록에서 여러분들이 뭔가 얻어갈 수 있었으면 하는 바람이다. 특히 데이터 과학자로서 데이터를 주제로 하는 책을 쓰면서 집필 과정에 대한 다양한 데이터 활용을 시도했는데, 돌이켜보면 이런 노력 없이는 책을 끝낼 수도 없었을 것이라는 생각이다. 이런 의미에서 필자에게 집필은 데이터의 가치를 다시금 깨닫게 해주는 과정이었다.


흔히 요즘 세대는 책을 더 이상 읽지 않는다는 말을 한다. 과거의 책이 지식을 전달하는 거의 유일한 매체였다면, 웹과 온라인 강의, 그리고 소셜 미디어를 소비하기에도 바쁜 현대인들에게 책을 사서 본다는 것은 상당한 결심이 필요한 일일 테니 말이다. 하지만 책을 쓰는 일은 어떤 주제에 대해 자신의 경험과 생각을 정리하고, 관련 자료를 폭넓게 섭렵하여 뭔가 완결된 결과물을 만들어내는 과정이라는 측면에서 여전히 가치를 갖는다. 책이라는 '핑계'가 아니라면 일 년 남짓한 시간 동안 필자의 에너지를 이렇게까지 한 곳에 집중시키기는 어려웠을 것이다.


또한 흔히 말하는 '소셜 미디어 시대'는 책을 쓰고자 하는 사람에게는 기회이기도 하다. 반면에 과거에 골방에서 몇 달 혹은 몇 년간 작업을 마친 후에야 독자를 만날 수 있었던 데 비해, 집필 과정 내내 잠재적인 독자와 다양한 채널을 통해 소통할 수 있다는 가능성이 열렸기 때문이다. (주: 이 주제에 대해서는 김류미 님의 소셜미디어 시대의 출판 마케팅을 참고하자.) 이번 글에서도 밝혔지만 필자의 경우에도 독자그룹, 블로그, 브런치 및 기타 SNS에서 수많은 잠재 독자를 만날 수 있었기에 여기까지 올 수 있었다. 소셜 미디어를 집필에 활용하는 부분은 다음 글에서 좀 더 자세히 다룰 생각이다.


p.s. 위 과정을 거쳐 탄생한 책 '헬로 데이터 과학'은 전국 서점에서 판매 중입니다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari