brunch

You can make anything
by writing

C.S.Lewis

by Jin Young Kim Feb 28. 2016

데이터 과학자의 책 쓰기 (2)

‘헬로 데이터 과학을’ 쓰고 독자를 만나기까지 일 년 반의 여정

숨이 막힌다고요? 예, 세상의 모든 노력은 치열함을 요구합니다. 저는 그 숨 막히는 노동의 세월을 ‘글감옥’이라고 표현했고, 그 노동을 하고 있을 때 가장 행복을 느끼는 것이었습니다. 그렇게 할 수 있으니 ‘작가’라는 직업으로 평생을 살아온 것 아니겠습니까. - 조정래의 ‘황홀한 글 감옥’에서

지난 글에서는 헬로 데이터 과학의 집필 동기와 컨텐츠 기획 과정을 살펴보았다. 필자가 책을 쓰기로 결심한 이유, 블로그와 책을 쓰는 과정의 차이점, 책을 계획하는 과정에서 어떻게 독자의 목소리를 수렴할 수 있는지를  살펴보았다. 마지막으로 원고 작성 과정에서의 메모의 중요성과 저자를 위한 정보 및 지식 관리의 방법을  알아보았다.집 짓기와 빌딩 건축에 전혀 다른 계획과 기술이 요구되듯, 한 권의 책을 쓰기 위해서는 그만큼의 준비가 필요한 것이다. 


이번 글에서는 본격적으로 책에 들어갈 컨텐츠를 만들어 가는 과정과, 만들어진 컨텐츠를 한 권의 책으로 상품화하고, 또한 컨텐츠가 많은 독자를 만날 수 있도록 마케팅하는 과정을  살펴보겠다.  지난 글에서와 마찬가지로 필자는 이 과정에 최대한 데이터를 활용하기 위해 애썼다. 원고의 분량과 품질, 그리고 완성된 원고에 붙일 적절한 제목과 표지를 선정하는 과정에 어떻게 데이터의 힘을 빌릴 수 있는지 살펴보자. 


(주: 이 과정을 거쳐 탄생한 필자의 책 '헬로 데이터 과학'은 전국 서점에서 판매 중이다.)


컨텐츠 완성하기

집필 진척도 및 속도 측정하기

어느 정도 책의 방향이 잡힌 상태에서 다음 과제는 그야말로 '닥치고 쓰는' 것이다. 하지만 이는 말처럼 쉬운 일이 아니다. 태백산맥의 작가 조정래 씨는  대하소설을  집필하는 작업을 황홀한 글 감옥에 들어가는 것이라고  표현하기도 하였다. ‘황홀한 글 감옥’에 등장하는 조정래 씨의 집필 원칙을 들어보자.

첫째, 집필 기간 단축을 위해 저는 집필 기간 동안 술을 마시지 않습니다. 만취하도록 마시는 시간, 숙취로 보내는 다음날, 컨디션을 회복하는 기간까지 3일을 낭비하고 싶지 않았습니다.

둘째, 하루 집필량을 30장으로 정하고, 이를 꼭 지키기 위해 한 달 집필량 합산 표를 만들어 책상 위에 놓습니다.

셋째, 소설이 잘 풀리지 않는다고 해서 다른 방법으로 기분 전환을 하려 하지 않고 더욱 책상으로 다가앉아 끝끝내 마음먹은 대로 써내고 물러나기로 한 것입니다.

블로그를 꾸준히 써왔던 필자에게도 책 한 권 분량의 원고를 쓰는 일은 보통 힘든 것이 아니었다. 처음에는 일정상 여유도 있고 해서 쓰고 싶은 때만 몰아서 원고를 썼지만 금방 한계에 부딪혔다. 원고의 양도 문제지만, 책 한 권의 일부로서 갖추어야 할 일관된 스타일을 유지하기도 힘들었기 때문이다. 그래서 매일 조금씩 쓰기로 결심하고, 집필 현황을 쉽게 측정할 수 있는 방법을 모색하게 된다.


집필 현황은 결국 단어 수로 측정할 수 있고, 텍스트 문서의 단어수를 세는 것은 프로그래밍 초보라도 할 수 있는 간단한 일이다. 그래서 필자는 파이썬을 사용하여 각 장별로 현재 시각과 단어수를 세는 프로그램을 만들고, 집필의 시작과 끝에 프로그램을 수행하여 집필에 소요된 시간과 단어수의 증가량을 파악할 수 있었다. 그 결과물은 아래와 같다.

집필에 소요된 시간과 장 별 단어수의 증가량

그렇게 시작된 집필 현황 데이터는 집필을 거의 마무리한 11월까지 꾸준히 쌓였다. 아래 그림은 집필 현황에 대한 엑셀 시트, 그리고 같은 내용을 차트로 표현한 것이다. 같은 데이터지만 차트로 표현했을 때 집필의 진척도가 한눈에 들어오는 것을 볼 수 있다.

위 그래프를 보면 몇 번의 슬럼프와 도약이 있지만, 집필 과정 내내 어느 정도 페이스를 유지했음을 알 수 있다. (갑자기 분량이 늘어난 부분은 다른 곳에서 쓴 원고를 붙여 넣은 경우다.) 4월에 본격적인 집필을 시작했을 때 약 15,000자의 원고가 있었고, 10월에 완성한 최종 원고가 5만 자 정도였으니, 매일 약 200 단어를  쉬지 않고 쓴 셈이다.


이렇게 매일 쓴 분량을 확인해가며 리듬을 유지하려고 애썼지만, 무리해서 쓰지는 않으려고 했다. 억지로 쓴 글은 읽기에도 재미가 없을 것이라는 신념이 있었기 때문이다. 또한 취미로 시작한 글쓰기가 책을 쓴 부작용으로 지겨워지는 사태는 피하고 싶었다. 그래서 하루 한 시간 정도는 꼭 글을 쓰되, 그 이상은 그날 그날 컨디션에 따라 결정했다.


글쓰기 진행상황 데이터를 글 별로 집계해보면 아래와 같이 각 글 별 분량을 알 수 있다. 독자의 리듬을 위해 상품으로써의 책은 각 장 및 절의 분량을 어느 정도 맞출 필요가 있기에 아래 데이터도 유용하게 활용되었다. 그래프를 보고 분량이 모자라는 내용은 좀 더 내용을 보완하는 식이다. 이처럼 호기심에 시작한 집필량 데이터에는 다양한 용도가 있었다.

글 별 분량 비교 차트

필자는 마크다운으로 문서를 작성하고 이를 파이썬 스크립트로 통계 처리를 했지만, 시중에는 스마트폰 앱 및 온라인 서비스의 형태로 다양한 집필 현황 측정기가 나와 있다. ‘writing tracker’ 등으로 검색하여 자신에게 맞는 앱을 찾도록 하자. 또한 대부분의 워드프로세서는 단어수 등의 기본적인 통계를 제공하고 있다.


원고의 품질 측정하기

원고의 양은 단어 수로 간단히 알 수 있지만, 원고의 품질은 어떨까? 글의 난이도를 측정하는 데에는 텍스트에 사용된 단어의 수준에 기반한 가독성(readability)이라는 지표가 알려져 있다. 하지만 글이 독자의 흥미를 불러일으키고 해당 주제에 대한 이해를 높였는지를 측정하는 자동화된 방법은 알려져 있지 않다. 따라서 최선의 방법은 잠재 독자들에게 주관적인 만족도를 물어보는 것이었다.


필자가 사용한 방법은 이전 글에서 소개한 독자 그룹 분들에게 다음과 같은 설문을 실시한 것이다. 설문에서는 글의 흥미도 / 정보성 / 전체적인 만족도 등을 문의했다. 이 중 필자가 종합적인 만족도를 측정한 ‘이 글을 얼마나 다른 사람에게 추천하겠습니까?’라는 질문은 Net Promoter Score라는 것으로 고객 만족도의 조사에 널리 사용되는 방법이다. 설문 마지막에는 독자들의 세부적인 피드백을 모았다.


이렇게 수집된 피드백은 초고의 전체적인 방향이나 세부사항을  수정하는 데 사용되었다. 필자가 흡족하게 생각한 글은 독자들도 좋게 평가하는 경우도 있었지만 반드시 그렇지는 않았기에, 독자들의 피드백을 읽는 것은 큰 도움이 되었다. 피드백을 통해 필자가 잘못 사용하고 있던 한글 통계 용어를 알 수 있었고, 구체적인 사례 없이 추상적으로 흘러가는 경향이 있었던 필자의 글쓰기 습관도 바로잡을 수 있었다.

컨텐츠 제품화하기

지금까지 필자가 책에 사용될 초고를 작성하는 과정을 살펴보았다. 하지만 초고가 그대로 책에 들어가는 것은 아니다. 책의 전체적인 방향과 분량에 맞게 내용이 구성되고 첨삭되며, 상품으로써의 품질 기준을 만족시켜야 하기 때문이다. 그래서 완성된 초고는 장별 원고의 형대로 수합되어 다시 리뷰어에게 넘겨졌다. 필자의 지인 가운데 각 장별 내용에 전문성과 흥미를 가진 분들에게 리뷰어의 역할을 부탁드렸다. 리뷰어의 검증을 거친 원고는 ‘완성 원고(완고)’라는 이름으로 수합되어 조판 및 편집자분들과 다시 수정하게 된다. 이 과정을 도식화하면 다음과 같다.

'헬로 데이터 과학'의 컨텐츠 완성 과정

상품으로써의 책은 원고와 함께 제목과 부제, 그리고 표지와 같은 요소를 갖추어야 한다. 제목과 표지는 책의 전체적인 인상을 좌우하는 요소이기에 쉽게 결정하기 힘든 부분이다. 다행히 이 과정에서도 예비 독자 분들의 도움을 받을 수 있었다. 우선 제목 설문은 독자그룹을 통해 다양한 의견을 수집하고, 이를 추후 편집자 분들과의 회의를 거쳐 확정하였다. 

제목 설문의 응답 내용

그리고 표지에 대한 반응은 필자가 책과 관련하여 진행한 몇 차례의 공개 강연을 통하여 얻을 수 있었다. 강연 중간에 ‘왼쪽과 오른쪽 표지 중 어떤 게 더 마음에 드세요?’라고 여쭤보는 것이다. 필자의 얼굴(?)이 들어간 왼쪽의 시안이 좀 더 좋은 반응을 얻어 이를 최종 표지 디자인의 기본 바탕으로 삼았다.

'헬로 데이터 과학'의 표지 디자인 시안들

컨텐츠 홍보하기

마지막으로 컨텐츠 홍보 과정을 살펴보자. 최근에는 블로그, 트위터, 페이스북, 그리고 글쓰기에 특화된 미디엄이나 브런치와 같은 다양한 플랫폼이 등장하고 있다. 책이라는 컨텐츠를 이런 다양한 채널을 사용하여 홍보하는 최선의 방법은 무엇일까? 필자가 많이 고민한 부분이다. 우선 아래 그림에서 컨텐츠 홍보를 위해 필자가 사용한 다양한 채널을 살펴보자. 

'헬로 데이터 과학'의 컨텐츠 홍보 과정

위 그림에서 주목할 점은 채널의 특성에 따라 그 역할을 나눈 점이다. 트위터나 페이스북과 같이 공유에 초점을 맞춘 채널로 독자들을 유입시키고, 실제 컨텐츠 소비는 필자의 블로그나 브런치 등에서 일어나게 한 것이다. 그리고 독자들과의 쌍방향 소통을 위해 메일링 리스트를 꾸준히 키웠다. 이 분들 가운데 많은 분들이 실제 책을 구매할 수도 있을 것이라는 생각이었다.


실제로 필자가 올린 글에 대한 독자들의 반응을 보면서 컨텐츠의 방향 및 깊이를 결정하는데 많이 참고하기도 했다. 아래 그림은 필자가 올렸던 글 중 비교적 많은 반향을 일으켰던 몇 개를 해당 시기의 페이스북 페이지의 LIKE 증가량과 함께 나열한 것이다. 이 글들은 모두 책에 보완 및 확장된 형태로 포함되어 독자들을 만나게 되었다. 반면에 온라인 독자들의 반응에 근거하여 책에서 제외한 글도 있다. 

페이스북 페이지에 올린 글에 대한 독자들의 반응 (일별 LIKE 수 증가)

지금까지 ‘헬로 데이터 과학’ 작업에 소셜 미디어를 활용한 과정을 소개했다. 이처럼 필자는 책에 포함된 글의 상당 부분을 다양한 채널을 통해 널리 공유하면서 작업을 했다. 여기서 독자들은 이런 의문을 가질지도 모른다. ‘그렇게 다 공개하면 누가 책을 사나요?’ 이에 대해서는 몇 가지로 답할 수 있다.      

1. 온라인에 공개된 내용은 책의 일부에 불과하고 완성도도 당연히 떨어진다. 따라서 온라인 독자라도 책을 살 이유가 충분히 있다.

2. 온라인에 공개된 컨텐츠는 그 자체가 책에 대한 광고다. 따라서 좋은 컨텐츠는 잠재 독자를 지속적으로 유입시킨다. 

3. 컨텐츠를 잠재 독자에게 공개함으로써 다양한 피드백을 받을 수 있고, 이는 컨텐츠의 질을 높이는데 크게 기여했다.

요약하면 필자는 책의 일부를 공개하는 편이 책의 품질을 높이기 위해서나, 홍보 목적을 위해서나 더 낫다는 결론을 내린 것이다. (이 부분은 편집자 분께서도 동의를 하셨다.) 물론 공개된 글을 읽고 충분하다고 생각하는 독자도 있을 테니 책 판매량이라는 관점에서 정확한 득실을 따지기는 어렵다. 


하지만 좀 더 근본적으로 생각해 보면 필자가 책을 통해서 거두고자 하는 목적은 필자가 쌓은 지식과 경험을 필요한 분들께 전달하는 것이다. 앞선 글에서 밝힌 대로 ‘빅데이터’라는 용어의 범람과 데이터에 대한 오해를 바로잡고 데이터 활용에 대한 장벽을 낮추겠다는 목표를 가지고 시작한 일이니, 온라인 독자라도 필자에게는 고마운 분들인 것이다.


맺음말: 출간은 끝이 아닌 시작

이런 과정을 거쳐 탄생한 ‘헬로 데이터 과학’은 예약 판매만으로 Yes24에서 IT/모바일 분야 종합 3위까지 오르는 등 좋은 성적을 거두고 있다. 하지만 진정한 평가는 실제 책을 읽은 독자들만이 내릴 수 있을 것이다. 책이 많이 팔리는 것은 물론 저자에게는 기쁜 일이지만, 동시에 자식을  시집보낸 부모의 마음처럼 ‘내 책이 독자분들에게 도움이 될 수 있을까’ 하면서 가슴을 졸이게 되는 일이다.


지금까지 집필 결심에서부터 출간에 이르기까지의 여정을 되짚어보았다. 하지만 필자는 출간이 끝이 아닌 또 다른 시작이라고 믿는다. 책이라는 공식적인 컨텐츠를 통해 많은 독자분들을 만난다는 것도 흥분되는 일이고, 책의 내용도 독자 분들의 피드백을 통해 꾸준히 보완할 수 있는 기회가 있다고 생각한다. 소프트웨어도 그렇지만 책에도 ‘완벽’이라는 수식어를 붙이기는 힘들다. 끊임없이 완성에 다가가려는 노력이 있을 뿐이다.


필자는 이미 독자들과 소통하기 위한 다양한 채널을 만들어 두었다. 독자들의 질문과 의견을 청취하기 위한 헬로 데이터 과학 Q&A 게시판과 구매자 피드백 양식을 준비하였다. 또한 데이터를 생활 속 문제에 활용하는 사람들의 커뮤니티인 생활데이터 그룹을 운영하고 있다. 아래는 작년 12월에 있었던 첫 정모에서 발표하신 분들의 목록이다. 필자의 비전은 Quantified Self와 같은 커뮤니티를 한국에도 만드는 것이다.

데이터를 생활 속 문제에 활용하는 사람들의 커뮤니티인 '생활데이터' 그룹

일 년 반 전, 데이터에 대한 열정과 전하고자 하는 메시지는 있었지만 ‘책’을 쓴다는 것에 대해 주저하던 필자의 모습이 떠오른다. 책을 다 써서 독자들에게 내놓은 지금, 필자는 조정래 작가가 말하는 ‘황홀한 글감옥에’ 일 년간 들어갔다 온 느낌이다. 후회는 없지만 다시 할 수 있을지는 잘 모르겠다. 필자가  그동안 책 쓰기에 대해 배운 점을 요약하면 다음과 같다.      

잠재 독자의 목소리를 최대한 빨리, 자주 만날 수 있는 방법을 찾아야 한다. 이런 의미에서 온라인 상에 꾸준히 올리는 글쓰기도 책 쓰기의 좋은 출발점이 된다.

어느 정도 기본 컨셉이 잡힌 후에는 최대한 빨리 출판사(편집자)를 만나야 한다. 보통 온라인 미리보기 정도 분량의 원고가 있으면 최소한의 준비가 된 것이다.

책과 관련된 SNS를 (예: 책 홈페이지 / 페이스북 페이지) 미리 만들어 꾸준히 홍보해야 한다. 책이 나온 뒤에 마케팅을 하는 데는 한계가 있다.

글쓰기에 적합한 형태로 생활 습관을 바꿔야 한다. 필자는 주중 밤에 두 시간, 주말에 하루 네 시간 정도를 할애했다. 주변 분들에게도 미리 양해를 구한다. 

원고가 어느 정도 완성되면 책을 리뷰해주실 분들께 최대한 빨리 부탁을 드린다. 이 과정에서 같은 분야의 훌륭한 분들과 교류하게 되는 효과도 있다.

가장 중요한 깨달음은 책 쓰기가 골방에 혼자 들어가서 이루어지는  것이라기보다는, 잠재 독자, 편집자, 리뷰어 등등과 끊임없이 소통하면서 이루어지는 행위라는 것이다. 특히 소셜 미디어의 시대에 책이라는 미디엄의 역할, 그리고 책이 만들어지고 팔리는 과정도 많은 변화를 겪었다. ‘헬로 데이터 과학’이 세상의 빛을 보기까지 도와준 수많은 분들께 다시 감사드리며, 이 글이 열정과 목소리는 있지만 아직 ‘내가 책을 쓸 수 있을까’를 고민하는 예비 필자 분들에게 도움이 되었으면 하는 바람이다. 


p.s. 위 과정을 거쳐 탄생한 책 '헬로 데이터 과학'은 전국 서점에서 판매 중입니다. 

매거진의 이전글 데이터로 살펴보는 SF 영화 속 로봇  (2)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari