brunch

You can make anything
by writing

C.S.Lewis

by 욜수기 yollsugi Mar 22. 2018

3. 데이터 세계에 진입해보기 (2)

학교 밖에서 데이터를 배우기 for 데이터, 코딩 입문자

(1)에서 이어서

2. 도서- 수많은 빅데이터, 코딩, 컴퓨터 언어, 분석툴 관련 도서, 뭘 고를까


데이터를 공부해야겠다고 마음을 먹은 이후 바로 다음날부터 3일간 내가 있었던 곳은 서점이었다. 교보문고 광화문점과 영풍문고 종각점, 그 두 곳에서 하루종일 책을 읽었다. 아무래도 3년의 시간동안 수험서적만 읽고 책을 보는 것이 아닌 푸는 것으로 접하다보니, 보는 것 만으로도 내가 얻어갈 수 있고, 책을 읽으면서 생각을 할 수 있는 그런 도서들에 대한 갈증이 컸던 것 같다. 그래서인지, 정말 유익하고 재밌는 시간이었다. 한편으로는 그간의 시간에 대한 약간의 회의도 찾아오긴 했다. 서점에서부터 수십, 수백권의 책들이 최근의 트렌드를 논하고, 변해가는 산업구조를 다루며, 많은 사람들이 이미 그에 대해 접하고 준비를 해 나아가고 있었는데, 나는 아는게 없었다. 너무 막연했다. 그동안 시험준비라는 명목으로 너무 하나의 틀에 갇혀있었던게 아니었나 하는 생각을 했었다. 하지만, 제대로 준비하고, 몰입하면 늦은건 없다라는 평소의 신조에 맞추어 빅데이터 서적들을 일단 무작정 읽어보기로 했다. 빅데이터의 전문가가 되어서 관련 커리어를 시작하려고 하면 일단 속된 말로 '빠삭하게' 알아야 할 것이니 말이다. 하지만 생각보다 내가 원하는 것을 얻을 만한 책들은 몇권 되지 않았다. 대부분 추상적이고 천편일률적인 빅데이터 강조 뿐이었다. 어떻게 빅데이터가 조명을 받았고, 이미 조명받기 시작한지 10년이 넘어가는 이 시점에서도 앞으로의 전망이 뚜렷하게 각광받는 이 분야를 어떻게 해석하고 이해하면 될지에 대한 답이 필요했다. 그나마 전반적인 통계, 데이터, 그리고 빅데이터에 대한 이해에 도움이 된 책들이 바로 이 두 권이었다. 나처럼 지식이 전무한 상태에서 빅데이터에 대한 이해를 얻고자 할 때 이 두 권이 꽤 도움이 될 것이다. 개인적으로 생각하기에 전반적인 산업에 대한 이해와 기술이 어떤 능력을 요하는지에 대해 알 수 있었던 좋은 책이었다.

그 다음은 실무적으로 R 프로그램을 다루는데 있어 도움을 줄 책들을 찾아보았다. 사실 이에 대해서는 인터넷 블로그들을 검색해보면서 상당 부분 미리 알아보고 가긴 했었다. 단순히 읽기만 하는 서적이 아니라 R패키지를 잘 다룰 수 있는 능력을 기뤄줄 책을 골라야 했기 떄문에 더 신중할 수 밖에 없었다. 그리고 여기에서 내가 선택한 책은 'R까기 2 : 입문용'이라는 책이었다. 

사실 처음에 왜 2이지, 1 없나 하면서 한창 찾다가, 이 책이 1의 속편이 아님을 알아차리고는 이 책을 차분히 훑어보기 시작했다. 개인적으로 무언가를 구매함에 있어(지금과 같이 책을 구매한다던가, 맛집을 찾는다던가) 개인 블로그들을 맹신하지는 않는 편이다. 일정 부분 광고의뢰를 받은 포스트들이 많다고 생각하기 때문이었다. 하지만 참고는 많이 한다. 계중에 광고 성향이 짙은 포스트들과 개인적인 생각이 많이 담긴 포스트들을 구별하는 능력이 없지는 않다고 생각한다. (결국 하고 싶은 말은 오랜 시간 검색 끝에 결정하게 된 책이라는 것이다..!) 이 책은 철저히 입문용 책이다. 내가 다른 책들과 비교하여 이 책이 더 낫다고 생각하게 된 이유는 예제의 친절함이다. 초심자의 입장에서 한 단계 한 단계 따라가면서 배우고 싶은 생각은 누구나 비슷할 것이라 생각한다. 그러한 니즈를 상대적으로 가장 잘 채워준 책이 이 책이라고 판단하였다. 다른 책들은 가독성이 떨어지거나, 예제가 너무 나열식이거나 한데 반해 이 책은 친절, 깔끔 그 자체였다. 진입장벽이 높다고 인식하는 나 같은 초심자들에게 매우 매력적인 안내서가 되어 줄 것이다.


3. 학원- 가격, 접근성, 임팩트의 쌈박자


마지막에 무엇이든 하이라이트가 등장하는 법이다. 기술을 배우고, 능력을 키우기 위해서는 일정한 투자가 필요하다고 생각한다. 우리 학교가 빅데이터, 코딩 부문에 있어 상당히 양질의 교육을 제공하고 있어 앞서 언급한대로 당연히 복수전공과 학교의 커리큘럼을 따라갈 생각이지만, 그에 앞서 일단 이번학기에 일정 단계는 넘어보고 싶은 욕심이 있었다. 책만으로는 그 기대치를 채울 수 없을 뿐더러, 현직자 혹은 전문가의 도움의 손길을 받고 싶기도 했기 때문에 2월말, 상반기에 나를 스텝업 시켜줄 학원을 알아보게 되었다.

학원을 알아보면서 예상했지만 그럼에도 가장 놀라웠던 부분이 있었으니, 바로 가격이었다. 세상에나, 빅데이터의 진입장벽이 새로운 분야에 대한 막연한 두려움 때문만인 줄 알았는데 교육 자체의 진입장벽이 크다는 생각을 처음 하게 되었다. 1,2개월, 즉 6회에서 8회 정도의 수업에 백만원이 넘는 수강료는 우습다는 듯이 여기저기 프로그램마다 강하게 박혀 있었다. 선택을 하지 않은 곳이라 정확한 언급은 하지 않겠지만, 광고를 통해 가장 접하기 쉬운 곳이 있었다. (후에 친구들이나 지인들과 이 얘기를 하였을 때, 모두들 코딩을 배우려 할 때 페이스북, 인스타그램 등 SNS의 광고를 타고 이 기관을 가장 먼저 알게 되었다고 했다. 광고의 힘이란...) 광고비를 충당하기 위함인지, 너무 비쌌다. 그리고 아직 내가 이 분야에 대해 소양을 쌓은 상태가 아니라 섣불리 판단할 수는 없겠지만, 끼워팔기 전략을 많이 사용한다는 생각도 들었다. 그래도 그간 경제, 경영, 재무 관련 공부는 오랜 기간 하면서 다양한 사례들을 보지 않았던가! 왠지 높은 가격을 상쇄시키기 위하여 여러 항목을 하나로 묶고 끼우면서 그 사이의 강한 연관성을 부여하여 판매하고자 하는 기관의 전략이 숭어있지는 않을까 하는 우려가 굉장히 강하게 찾아왔었다. "물론 착각이고 망상일수도 있다..하지만 소비자의 입장에서 이러한 인상이 강하게 왔다는 건, 무의미하다고 보기는 어렵지 않을까?"

프로그램의 다양성은 마음에 들었으나 가격은 큰 벽일 수 밖에 없었다. 그렇게 나는 새로운 기관을 알아보기 시작하였다.


그렇게 해서 찾게된 것이 지금 내가 수강하고 있는 DS School이다. 이 역시 페이스북 광고를 통해서 처음 접하게 되었다. "30일만에 데이터 사이언티스트" 라는 슬로건이 꽤나 임팩트 있었다. 아무래도 평소에 '짧아도 굵게, 컴팩트하고 임팩트한!' 것에 큰 가치를 부여하는 나의 성향과 맞아 떨어진 것 같기도 했다. DS School 홈페이지에 들어가면 커리큘럼별 강의일자에 대한 간단한 소개 외에는 다른 정보가 없다. 그 대신 설문조사를 제시한다. 내가 데이터에 대해 얼마나 알고 있는지, 코딩이나 데이터 공부 경험이 있는지, 목표하고 있는 방향이 어디인지. 이에 대해 DS School은 '당신에게 맞는 수업은....'하면서 커리큘럼 중 하나를 제시한다. "이 역시 데이터에 기반해 제시하는거겠지? 오옹 센스있는데.." 이미 마음은 기울었다. 그리고 나에게 적합한 커리큘럼으로는 입문반이 떴다. 파이썬과 파이썬 중에 데이터분석에 특화된 판다스라는 것을 사용하는 방법에 대해서 배우는 수업이었다. 3월 한달동안 5회 회당 4시간 수업. 그리고 가격은 49만 5천원이었다. 99만원을 50% 할인가격에 제공한다고 적혀있지만, 사실 그 또한 마케팅 수단이겠거니 하고 생각하긴 했다. 물론 50만원이라는 돈 자체는 부담스러운 가격이지만, 앞서 다른 기관들의 2배,3배되는 가격의 돈들을 보고 오다보니 굉장히 합리적으로 느껴졌고, 이 정도의 금액은 한달을 투자할만 하다는 생각이 들어 빠르게 실행에 옮겼다. 3월 22일 현재 3회의 수업이 끝났다. 차차, 자세하게 수업과정에 대해서, 그리고 내가 배운 것에 대해서 정리하겠지만 간단히 요약해보자면, 굉장히 목적지향적이고 전개가 빨라 만족스러운 수업방식이라는 생각이 들었다. 첫 주에 1시간 가량 20~30명 정도 되는 다른 수강생들과 아이스브레이킹 시간을 가진 뒤, 온라인 코딩&데이터분석 경진대회인 Kaggle에 접속하여 가장 기본이 되는 프로젝트인 타이타닉 데이터 분석을 실시하였다. 타이타닉의 승객 정보 데이터를 받아 분석한 뒤에 별개의 새로운 해상사고의 승객 리스트를 받고, 최대한 생존율과 여러 승객 특성의 상관관계를 분석하여 생존률을 올리는 과제였다. 그리고 강사님이 "데이터는 어느 정도의 프로그램을 다루는 수준이 되면 어느 누구나 할 수 있다. 그리고 코딩의 문제가 아니라 정말 데이터 분석을 하는 사고의 문제이다" 라는 점을 계속 강조하셨는데, 첫 수업에서 파이썬도 아닌 엑셀로 첫번째 실습을 시행하고 나니 그 말이 확 이해가 가면서 방향이 조금 더 서는 기분이었다. 두번째 주에는 똑같은 과정을 파이썬을 이용해 설명하면서 파이썬의 기초 문법과, 파이썬 중에 좀 전에 언급한 판다스의 기초에 대해서 설명해주셨다. 그리고 셋째 주에는 이를 이용해 타이타닉 분석을 마무리하면서 판다스에서 디씨젼 트리의 기능을 불러와 기초적인 머신러닝을 실시하는 방법을 배웠다. 굉장히 빠른 속도이지만 상당히 많은 것들을 알기 쉽게 배운다는 점이 놀랍고 만족스러웠다. 앞으로 차차 이 부분에 대해서는 자세하게 다룰 것이다. 분명한건, 2주를 남겨둔 지금, 이 DS 스쿨의 수업은 상당히 만족스러운 수업이다.

똑같은 titanic 데이터를 엑셀 피벗테이블을 이용해 분석한 것과 파이썬의 판다스 기능을 사용하여 분석한 것. 결국 데이터 분석은 툴의 문제가 아님을 알았다.


요즘 내 일상을 보면, 상당히 많은 시간을 이 세계에 빠져들려고 노력하고 있다는 것이 스스로도 느껴진다. 학교에서 한 수업에서는 엑셀을 배우며 엑셀을 활용해 나중에 분석을 할 것에 대해 고민을 하고, 한 수업에서는 R프로그램에 대해 배우며 새로운 툴을 익혀 나간다. 금요일마다 DS스쿨에 가서 파이썬과 판다스에 대해 점점 깊게 탐구하며, 그리고 이 분야에 관심이 있는 많은 사람들과 얘기를 나누어보며 어떤 방향으로 나가야할지에 대해 좀 더 심도있는 고민을 해본다. 그리고 스스로 책을 읽어보면서 복습하고, 익숙해지도록 하는 것. 이것이 요즘 나의 굵직한 일상 중 하나인 데이터와 함께하는 일상이다.

매거진의 이전글 2. 데이터 세계에 진입해보기 (1)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari