brunch

You can make anything
by writing

C.S.Lewis

by 우드 Jan 20. 2019

'빅데이터'가 두려운데 궁금한
문과를 위하여

<문과생을 위한 데이터 사이언스>에서 '로드맵'을 구해왔습니다

저는 마케팅을 합니다. 경영 비전공 출신의 마케터입니다. 마케터는 누구보다 숫자와 친해야 한다고 들었습니다만, 회사에서 저는 그렇게까지 숫자와 친한 사람은 아닙니다. 저는 마케팅 쪽에서도 브랜드 마케팅, 말하자면 크리에이티브 쪽을 주로 담당합니다. 콘텐츠와 광고 소재 개발을 위해서는 고객을 직접 만나고 고객의 말을 직접 듣는 편을 선택하고 있습니다. 회사에서 고객과 직접 만나는 걸 중요시하는 덕분입니다. 팀에서 숫자와 지표 관리가 필요한 부분은 카이스트 졸업, 개발자 출신의 숫자와 매우 친한 팀 동료가 전담해주고 계십니다.


하지만 지금 당장 하지 않아도 된다고 불안이 사라지지는 않습니다. 유발 하라리도 최근작 <21세기를 위한 21가지 제언>에서 이야기하지 않았습니까. 빅데이터와 이를 활용한 알고리즘을 이해하는지 이해하지 못하는지(Algorithm literacy)에 따라 인류가 다른 종으로 분화될 거라고요. 이런 세상에 저는 초등학교 때부터 지능 발달의 편향이 굉장했던 슈퍼 문과 of 문과입니다. 여러 번 코딩 공부에 도전했다가 실패했으며, 작년에도 데이터 공부를 기웃거렸지만 도대체 어디에서 어떻게 시작해야 할지 모르는 문송이고요 (...)


그리고 여기, 또 다른 슈퍼 문과들이 모였습니다. 북저널리즘의 스터디인 BOOKJOURNALISM LAB #5 <문과생을 위한 데이터 사이언스>에 말입니다. 종로구 사직동에 모인 10여 명의 사람들은 비슷한 불안감과 무지를 공유하고 있었습니다. 3Vs 나만 모르는 줄 알았는데 다들 몰라서 너무 다행


유우머와 해학 속에 좀 파본 사람만이 가질 수 있는 자신만의 의견과 인사이트가 넘쳤던 고승연 DBR 기자 역시 "슈퍼 문과충"이셨습니다. (정치외교학 학사, 석사, 박사... 게다가 기자....) 때문에 어떤 계기로 데이터 세계에 입문했고, 무엇을 어떤 과정으로 배워 나갔고, 그 과정에서 '문과생들이 특히' 어려움을 느낄 부분은 무엇이며, 그걸 어떻게 해결했는지. 궁극적으로 문과가 데이터를 배우면 무엇이 될 수 있는지를 문과생들의 심금을 울리게 설명해주실 수 있었죠.


다시 한번 말씀드리지만 저는 언어나 외국어, 정치, 사회문화 같은 건 수능도 내신도 크게 공부할 필요 없었던 문과 중의 슈퍼 문과입니다. 데이터 사이언스의 d도 모르는 사람이죠. 제 입장에서 기억에 남았던 부분을 Q&A 형식으로 정리해 공유합니다. 따라서 저보다 나은 분들께는 심심하고 배울 게 없는 글일 것입니다. 또한 제가 이해한 대로, 받아들인 대로 Q와 A를 정리용으로 씁니다. 연사의 발언 및 의견과 상이할 수 있습니다.

-> 1/23 고승연 기자님의 피드백을 바탕으로 일부 수정했습니다!



Q. 빅데이터란? 

= 이전에도 이 말은 쓰였으나 2012년 HBR 아티클이 깔끔하게 빅데이터의 특징을 정리해줬다. 3V, 즉 Volume(양), Velocity(속도), Variety(다양성) 때문에 데이터는 빅데이터가 되었다. 핵심은 Velocity다. 기술의 발달로 데이터 처리 속도가 굉장히 빨라지면서 우리는 이전보다 많은 양의 데이터를 처리할 수 있게 되었고 이전에는 분석할 수 없었던 텍스트 같은 형태의 데이터도 분석할 수 있게 되었다. 


-> 여기에서 데이터 처리 속도가 빨라지게 된 기술의 발전으로 scale up 방식과 scale out 방식을 설명해 주셨는데, 완벽하게 이해하지 못한 문송은 이만 패스. 


Q. 지금의 일을 열심히 하면 살아남을 수 있는 거 아닐까?

= 화이트칼라는 결국 소멸될 것이다. 빅데이터와 AI의 발달은 '사무자동화'를 가져올 것이다. 

미국에서는 1970년대 공장 자동화가 진행되며 제조업에서 서비스업으로 인력이 대거 이동했다. 제조업과 달리 서비스업에서는 노동자들의 단체 행동이 힘들고 임금 교섭력이 그만큼 떨어진다. 맞벌이가 시작됐다. 소득 수준과 생산성의 그래프는 양의 상관관계를 가지고 항상 붙어서 올라가는 상승선을 보여오다가 1970년대 이후 달라졌다. 소득도 오르긴 오르지만 생산성과 격차가 심하게 벌어지기 시작한 것이다. (1/23 수정)


아디다스 스마트 팩토리는 생산공정의 대부분을 이미 기계가 알아서 한다. 발주가 들어오면 기계가 자동으로 제작을 시작한다. 50만 켤레 생산 공장에 필요한 사람은 10명 이하다. 기존엔 600명 이상이 필요했던 공정이다. 아디다스 스마트 팩토리에서 인간은 "기계가 인식할 수 있는 곳에 자재를 가져다 놓는" 일을 한다.


2018년, BCG는 현대카드에 400명을 해고하라고 조언했다. 반면 디지털 인력은 150명 확충할 예정이라고 한다. 비용절감이 아니라 Digital Transformation이다. 인건비는 오히려 두 배로 늘어난다. 3~4년전 현대카드의 데이터과학자는 40명에 불과했으나, 지금은 그 10배인 400명이다. 

정태영 현대카드 부회장은 회사의 정체성을 기존 신용카드 업무가 아닌 머신러닝과 인공지능(AI)을 중심으로 한 ‘데이터 사이언스’에 초점을 맞추고 체질 변화를 추진해왔다. 

“150명을 충원하려면 다른 부문에서 최소 300명을 줄여야 비용을 맞출 수 있다”


Q. 우리 같은 문과가 데이터 사이언스를 배운다고 되겠나...

= 일부 뛰어나고 특이한 사람들은 문과지만 다시 학교를 들어가거나 공부를 해서 정말 리얼 데이터 사이언티스트가 되기도 한다. 유명 블로그인 ratsgo's blog를 쓰신 분은 국문과에 기자 출신인데 고대 산업공학과의 데이터 과학 관련 랩실에 들어가 현재는 데이터 과학자로 일하고 있다. 


하지만 대부분의 문과들은 이렇게까지 하고 싶지도 않고, 한다고 이렇게 되리라는 보장도 없다. 그렇기에 '시티즌 데이터 사이언티스트(시민 데이터 과학자)'를 권한다. 이해한 대로 가볍게 적자면, 데이터를 활용해 협업할 수 있는 사람을 '시민' 데이터 과학자라 칭할 수 있겠다. 보다 정확한 정의는 여기


* 나의 직무 전문성 

+ 내가 속한 업(domain, field, 산업)에 대한 지식 

+ 데이터 과학과 빅데이터 분석에 대한 이해 

____________________________ 

= 실제 데이터 과학자, 개발자 및 데이터 전문가와 협업이 가능한 정도 


Q. 시민 데이터 과학자? 이해가 안 가는데? 

= 데이터 과학자와 시민 데이터 과학자는 다음과 같은 차이를 지닌다 

1) 통계학자가 데이터 과학자라면 SPSS랑 R이라는 툴을 사용할 줄 아는 사람이 시민 데이터 과학자

2) 재무제표를 만들어내는 회계사가 데이터 과학자라면 그걸 읽고 활용할 수 있는 사람이 시민 데이터 과학자

3) 리눅스 환경을 쓰는 개발자 vs. 일반 사무직의 윈도


Q. 그냥 이과 느님을 뽑아서 쓸 거 같은데... 시민 데이터 과학자가 왜 필요하지?

(한동안은) data literacy를 가진 문과의 도움이 절대적이다. 분석과 기획은 전 과정에서 가장 중요한 파트다. 문제 정의와 분석 계획은 현재 이 프로젝트가 어떤 의미를 지니는지 이해한 사람이 할 수 있다. 데이터가 중요해질수록 데이터와 관련된 에이전시나 전문가 그룹(컨설팅 펌)이 많이 생겨날 것이다. 그들은 데이터 처리 능력이 아주 뛰어나지만, 파트너사의 니즈를 속속들이 알 수는 없다. 사정을 잘 알고 데이터 사이언티스트들과 의사소통도 충분히 잘할 줄 아는 사람이 필요한 이유다. 대충이라도 분석 코드를 읽고 여기에서 이런 이런 데이터가 필요하고 결과물은 이렇게 도출돼야 한다고 방향 제시까지 할 수 있는 사람이 있어야 한다.


Q. 무엇을 어떻게 공부해야 하나?

1) 기본적인 통계분석

2) R로 통계분석이나 데이터 분석을 해볼 수 있는 수준 + 경험

3) 파이썬 코드를 '독해' 가능한 수준: 크롤링이든 판다스(PANDAS)든.. 

4) 머신러닝과 딥러닝 등의 메커니즘이 대충 어떤 개념인지 알 수 있고 기반이 되는 수학이 뭔지 정도

-> 엔지니어의 언어를 배우는 과정. 엔지니어와의 소통을 위해 필요하다. 

-> 이때 수학에는 벡터 공간, 차원, 행렬 개념의 이해, 편미분과 경사 하강법 등이 포함된다.

-> 특히 문과의 머리에서 벡터를 이해하는 게 참 어렵다. 문과생은 머릿속으로 상상이 안 되는 걸 이해하려 할 때 엄청 힘들다. 이때 굉장히 도움이 되었던 조언은 머리로 벡터를 상상하고 이해하려고 하지 말고 그냥 행렬로 풀어버리라는 이야기였다. 


이런 책들로 공부하기를 추천한다. 

- 수학

<처음 배우는 딥러닝 수학>

<데이터 분석을 떠받치는 수학>


- 데이터 과학에의 입문과 흥미를 위해

<대량살상 수학 무기>

<자동화된 불평등>

<모두 거짓말을 한다>

<빅데이터가 만드는 세상>


마음에 남았던 여담

1. Python이냐 R이냐: R은 기본적으로 통계 툴. 숫자 분석을 향후 많이 해보고 싶으면 R이 좋다. 하지만 감정분석 등 텍스트 등으로 분석하고 싶은 욕구가 있다면 파이썬을 추천한다. 


2. 코딩이 진짜 어렵다. 파이썬이 쉬운 언어라고 문과가 쉽게 도전할 수 있는 건 아니더라. 개발자 분들은 반면, 커리어 전환을 위해 오신 분들도 금방 한다. C언어가 라틴어라면 파이썬은 영어라서, 라틴어를 알면 그 계열의 외국어들은 쉽게 배울 수 있는 것과 같다 

-> 이 부분에서 내 생각: '와 진짜 문과 같은 비유다.....'

-> 이 부분에서 영어교육업체에서 일하는 사람의 생각(직업병): 맞아. 영어도 읽고 듣는 건 되는데 쓰고 말하는 게 안 되지. 나도 꽤 잘 읽고 잘 듣는 것까진 한국에서만 살아도 됐다고..!


3. 사회과학은 인과관계를 파악하는 게 목적이다. 원인을 파악해 어떤 사회 문제를 설명하기 위해 가설을 세우고 모수를 모르기 때문에 샘플링으로 가설 검증을 하여 문제를 해결하려는 학문이다. 하지만 원인을 알아봤자 해결할 수 없는 사회 문제가 태산이었다. 


반면 데이터 과학은 굳이 원인을 찾지 않는다. 패턴만 찾는다. 그리고 문제를 해결한다. 전체 모수를 알 수 있기 때문에 샘플링하지 않아도 되고, 그렇기 때문에 패턴 찾기의 정확성은 더 향상된다. 예를 들어, 뉴욕의 맨홀 뚜껑이 폭발하는 사고가 연이어 터진다고 하자. 다음 터질 맨홀 뚜껑은 어디일까? 패턴을 찾으면 다음 터질 맨홀 뚜껑을 예측할 수 있고 이를 해결할 수 있다. 하지만 왜 터졌는지는 모를 수도 있다. 무슨 상관이야? 어쨌든 해결은 가능하다. 


이 둘을 합쳐 생각했을 때 오히려 빅데이터로 사회과학이 부활할 수 있을지 모른다고 생각한다. 


금번 Bookjournalism LAB을 한 문장으로 표현하자면, "목차를 본 느낌"이었습니다. 


데이터 공부를 "왜" 해야 하는지, 어디에서부터 어떻게 하는 건지, 내가 지금 이 정도를 배웠으면 어느 정도 레벨인 거고, 나중에 이걸 배워서 어디에 써먹는지 등등에 대한 그림이 안 그려지니 해야 한다는 생각만 했을 뿐 진짜 뛰어들 마음이 안 생기더라고요. 의지는 없는데 불안만 있으니 python 깔짝, R 깔짝대다가 어떤 글 보니 뭣보다 통계와 수학이 중요하대서 또 통계 강의부터 들어야 하나.... 이러면서 결국 아무것도 안 하고 있었거든요. 


저는 여전히 제가 데이터 사이언티스트가 될 재목은 아니라고 생각합니다. 타고난 적성과 지능을 살려 잘하는 걸 더 잘할 수 있도록 갈고닦는 게 인생 전반에 긍정적인 길이라고 믿는 사람인 저는 초등학교 때부터 못했던 수학을 본업으로 할 자신이 없어요 (...)


하지만 '시민 데이터 과학자' 정도는 괜찮을 거 같아요. 그간 데이터를 무시무시한 것, 본업 하는 것만큼의 시간을 투자해야 하는 것, 모르면 바보 되는 것 등 막연한 공포감만 가지고 바라봤다면 이제는 더 많은 사람과 더 깊이 소통하고 더 즐겁게 일할 수 있는 '도구'로 데이터를 바라볼 수 있을 것 같습니다. 


저는 처음에 Google Analytics 배우는 것도 참 어려웠는데요. 중요하다는데 뭐부터 해야 하고 어디까지 배우는 게 끝인지 모르겠을 때, 즉 막연한 공포감 + 중압감이 더해졌을 때 대상이 가장 무서운 것 같습니다. 혹시 '데이터 과학'이나 '빅데이터'에 이런 감정을 느끼고 계셨다면, 오늘의 글이 조금이라도 도움이 되었길 바랍니다. 



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari