복잡한 세상, 데이터로 커뮤니케이션 해야 하는 이유
"Absorb what is useful, reject what is useless, add what is essentially your own." - Bruce Lee
(유용한 것을 흡수하고, 불필요한것을 거부하며, 자신의 고유한 것을 집어넣어라/이소룡)
세상은 데이터의 시대가 됐다. 현재 사람들이 주고받는 메시지, 사진, 동영상 등 정보의 양은 돌도끼를 들고 들판을 뛰어다니던 시대부터 최초로 인터넷이 시작된 시기까지 인류가 열심히 쌓아온 데이터를 훨씬 뛰어넘은지 오래다(심지어 2010년 기준 이야기이다!)
하지만, 이런 말을 깔아놓고 앞으로 데이터 과학자가 매력적인(혹은 모 신문에 따르자면 섹시한!) 직업이 될 것이고, 머신러닝이 과학인들의 기본 소양이 될 것이며, 인공지능이 세상을 지배할 것이라는 상투적인 이야기는 딱히 하고 싶지 않다. 사실 모든 세상의 소문들이 그렇듯이 이런 이야기에는 음습하고 사람들을 속이는 면이 있으며, 무엇보다도 데이터 과학이란 말이 너무 많이 남용돼서 이제는 데이터 과학에 대한 존중(?)이 사라졌기 때문이다.
이런 존중이 없어진 자리에는 으레 수많은 광고와 '꾼(!)'들이 붙기 마련이며, 이에 따라 향토적인 솔루션인 "된장 바르면 다 낫는다"와 같은 "머신러닝으로 해결하면 다 된다"라는 식의 머신러닝 불패론과, 앞으로는 "AI님이 다 해결해주실 것"이라는 머신러닝 메시아론이 사회 전반에 은근슬쩍 자라고 있는 중이다 (개인적으로는 AI로 튀긴 치킨이 나오면 한국 AI 마케팅의 끝이 도래한게 아닐까... 생각하고 있다).
참고로 통계로 튀긴 치킨은 놀랍게도 존재한다(링크)
그렇지만, 이런 신비주의적 입장과 달리 현대의 데이터 과학은 사실 갑자기 튀어나온 새로운/혁신적인 개념은 아니다. 새로운 기술에 관심을 가지거나 필자와 같이 한 순간의 유혹에 따른 잘못된 선택(?)으로 대학원에서 수박 겉핥기나마 이를 공부하게 된 사람들은 알겠지만, 데이터 과학에서 다루는 개념은 사실 수학/통계 분야의 광대한 지식을 우아하게 묶어 현대의 "엄청난 연산 능력"에 던져놓은 것에 가깝다(물론, 기존의 아이디어들을 묶는 과정에는 수학/통계학 + 컴퓨터 스킬을 토대로 인생을 불태운 천재들의 눈물이 담겨있다)*.
* 이를 실제로 확인하고 싶은 사람들은 구글에서 대학의 Data Science 석사/박사 코스를 검색해 보면, 과목 이름만으로도 현기증이 나는 것을 체험할 수 있다. 혹은 가벼운 수준에서 공부할때, 필독서(?)격인 "가볍게 시작하는 통계학습" 같은 책을 한번 읽어보는 것을 추천한다(불면증 치료에 아주 좋다).
그렇다면 데이터 과학에 대한 뉴스나 사람들이 말하는 혁신은 잘못된 내용일까? 이런 질문에 대해서 필자는 "이야기하는 방향이 잘못됐다."라고 생각한다. 데이터 과학(혹은 그 유명한 "머신러닝")은 세상을 바꾸지만, "머신러닝이 세상을 바꾸는 것" 아니라 "머신러닝을 통해 사람들이 세상을 바꾼다"고 정확하다고 보기 때문이다.
실제로, 우리가 머신러닝/딥러닝이 기존 사람들의 직업을 대신 해 준다고 할 때, 사람들이 생각하는 것은 기계가 사람의 자리를 대체하는 영화에서나 나올법한 무엇인가를 상상하지만, 실제로 기계가 담당할 수 있는 작업은 "반복적이고/체계적이고/단순한" 작업에 불과하고, 이 "인공지능" 뒤에는 아까 말한 천재들의 엄청난 노력이 갈려들어간(?) 작업들이 버티고 있다. 세상의 모든 일이 으레 그렇듯 단순한 작업에도 뭔가 아닌 일이 발생할 가능성은 항상 존재하고(e.g. 너X리에 다시마가 5-6개 들어있거나...) 이런 불가피한 상황(어렵게는 데이터 노이즈가 증폭되어 모델의 예측 능력이 영향을 받는다고 말한다)에 대처하도록 유연성을 만드는 데는 결국 사람들의 노력이 필요할 수밖에 없다.
다만, 현대의 머신러닝과 데이터 과학이 이렇게 화제가 된 이유는, 나름대로 고급기술(?)이었던 머신러닝 기술을 누구나 쉽게 이용할 수 있게 만들어준 환경이 큰 역할을 차지한다. 옛날에는 보기만 해도 머리가 아팠던 수식이나 복잡한 연산을 간단히 코드 몇 줄로 처리할수 있는 기술이 개발되고, 고차원의 연산을 쉽게 계산할 수 있을 정도로 컴퓨터의 성능이 증가함에 따라 전문가가 아닌 사람도 쉽게 복잡한 머신러닝 기술을 다양하게 활용 할 수 있게 됐기 때문이다. 예전과 달리 데이터 과학에서 파생된 손쉬운 머신러닝 기술을 다양한 분야에서 적용하다 보니, 이런 저런 분야에서 의미있는 결과가 나왔고, 이런 결과가 투자를 만들고, 더 쉬운 기술이 개발되고... 이런 식으로 다양한 분야에서 머신러닝 기술이 활용되고 발전되는 속도가 무서울 정도로 증가한 것이다.
그리고, 이런 면에서 사람들이 이해하는 데이터 과학과 실제 데이터 과학의 차이가 생긴다. 미디어에서 다루는 데이터 과학은 "컴퓨터가 사람의 일을 대신 하게 만들어주는 무엇인가(신비한것?)"에 위치에 있다면, (높은 연봉을 받는다는) 데이터 과학자들 연구자들이 다루는 데이터 과학은 "데이터에 대한 경험, 수학과 통계를 우아하게 응용해서 현실의 문제를 해결하는 종합적인 기술(예술?)"에 가깝기 때문이다. 이런 의미에서 볼 때, 흔히 말하는 세상을 바꾸는 데이터 과학(혹은 미디어에서 다루는 데이터 과학의 희망)은 "기술의 발전(깊이)"를 말하는 것이 아니라 "기술을 활용하는 사람들의 상상력(넓이)"이라고 봐야 할지 모른다.*
* 물론 탑티어 연구자들은 깊이와 넓이를 다 잡는다(무서운 사람들이다) (링크)
그렇다면 이런 "데이터 과학"의 시대에서 우리가 건질 것은 무엇인가? 이에 대해서는 여러가지 의견이 있을 수 있지만, 개인적으로는 "문제를 데이터를 이용해서 해결하는 능력" 혹은 "데이터라는 시각에서 세상을 보는 능력"을 갖는 것이 필요하다고 본다. 물론, 요즘 뉴스 등에서 엄청나게 강조하는 코딩 능력이나 컴퓨터 관련된 기술도 중요하지만, 이런 현란한 기술(?)을 모두 익히기는 어렵고 대부분의 문제는 현란한 코딩 기술(?) 보다는 단순하지만, 효과적인 데이터 분석으로 해결되는 경우가 많기 때문이다. 결국 중요한 것은 "내가 가진 문제를 어떻게 데이터를 통해서 풀 것인가"가 될 수 밖에 없다.
예를 들어서 새로운 상품을 출시한다고 했을 때, 기본적인 분석 방법으로 좋다/나쁘다 혹은 항목에 대한 점수를 매기는 식으로 평가가 이뤄질 수 있다. 하지만, 데이터 과학을 이용한다면 인터뷰 내용을 바탕으로 핵심 키워드를 추출하거나, 좋은 평가를 주는 요소들을 영향력 순서로 나열해 보거나, 인터뷰 결과를 자동으로 주제별로 나눠 확인해 보거나, 물건에 대한 점수와 인터뷰 한 사람의 정보를 이용해서 소비자 타입을 나눠 본다거나 하는 식의 분석을 수행할 수 있다(그리고, 이런 방법은 원리만 알면 코드 몇십줄로 간단히 해결 가능하다). 물론, 이것도 어렵다면 "평균, 분산"만 제대로 이해하고 있어도 상당히 많은 분석을 할 수 있다. 제대로 데이터를 보는 법만 알고 있다면 "엑셀"만 써도 충분히 의미있는 결과를 뽑아낼 수 있는 것이다.
또한, 굳이 통계를 끌어들이지 않아도 필자는 사람들이 "데이터 과학"을 알아야 한다고 생각한다. 구체적으로는 데이터 과학의 한 단계 중 하나인 "데이터를 다루는 법(전처리)"만 익히더라도, 어떻게 해결해야 할지 막막한 문제들은 의외로 쉽게 해결할 수 있기 때문이다. 예를 들어서 A4용지로 40-50장 되는 정리 안된 주소록(한줄로 쭉 이어진)에서 전화번호, 이메일만 뽑아내거나, 서울 시내에서 치킨집이 어떤 지역에 가장 많은지, 몇시에 주문이 많이되는지 확인하거나, 학원 수가 가장 많은 지역, CCTV가 가장 많은 지역과 범죄율을 확인해 보거나 하는 식의 실생활과 밀접한(?) 작업을 조금의 노력을 통해 쉽게 해결할 수 있다.*
* 모두 실제로 해봤던 작업으로 기회가 되면 자세한 과정을 설명하도록 하겠다
이런 흐름에서 요즈음의 데이터 과학(의 파생 기술들은) 연구자가 아닌 일반인들도 쉽게 현실의 문제를 해결할 수 있도록 빠르고 간단한 분석 방법들을 발표하고 있다. 이런 환경에서 복잡한 기술은 아니더라도, "문제가 생기면 데이터를 분석할 수 있는 능력" 하나만 기르더라도 꽤 매력있는 인재가 되지 않을까? 굳이 인재가 되고 싶은 생각이 없더라도, 현재의 흐름으로 가면 "데이터를 다루고, 처리하는 능력"이 현대인의 교양이 될지도 모를 일이다.
오늘은 여기까지 이야기 하고 차후 더 재미있는 이야기(실제 사례)들을 다뤄보도록 하자