brunch

You can make anything
by writing

C.S.Lewis

by 채규병 May 08. 2018

데이터 세상으로의 초대

데이터 과학자를 꿈꾸며

빅데이터?  


빅데이터가 요새 핫합니다. 사실 핫하다고 하기에도 민망할 정도로 이야기가 나온 지는 꽤 되었습니다. 빅데이터는 지금까지의 기술로는 처리하기 힘들 정도로 많이! 빠르게! 다양하게! 수집되는 데이터를 말합니다. 괜찮은 관련 동영상이 있어 아래에 링크를 걸어둡니다.


빅데이터 관련 KBS 동영상 클릭



빅데이터는 새롭지 않다?!  


저는 통계학 학사이고 데이터 과학자를 꿈꾸며 글을 쓰고 있습니다. 통계학을 전공했다고 하면 빅데이터에 대해서 굉장히 많은 걸 알고 있다고 생각하실 수도 있는데요. 사실 빅데이터라는 단어와 그에 대한 내용을 어느 정도는 남들보다 빠르게 알고 있었지만 크게 관심이 없었습니다. 왜냐하면 통계학에서는 Big 데이터가 전혀 새로운 내용이 아니었거든요.


무려 1994년에 나온 Rudolf Dutter, Wilfried Grossmann 교수의 <COMPSTAT Proceedings in Computational Statistics>라는 책을 보면 다음과 같은 표현이 나옵니다.


1994년 초판     Huge data set
1998년 판        Massive data set


이외에도 1998년이 되면 다른 통계학자들이 giga-mining이라고도 표현한 책을 쓰기도 했습니다.


2014년 여름 Chalmers' Initiative Seminar on Big Data(Chalmers 홈페이지)에서 Terry Speed 교수는 "빅데이터와 통계학은 같이 살 수 있는가"에 대해 두 가지 다른 시선에 대해서 말합니다.


통계학의 황금 시기이다
- 하지만 통계학자는 굳이 필요하진 않다.

통계학을 무시하는 사람들은
결국엔 그것을 처음부터 다시 만들어야만 하는 저주를 받는다.



Terry Speed 교수 강연의 마지막 슬라이드


위의 두 문장은 서로 다른 말을 하고 있습니다. 하지만 강연을 듣다 보면 Terry 교수가 왜 이러한 상반된 문장을 결론으로 내렸는지 이해가 갑니다. 그는 다음의 책을 인용하며 이렇게 주장을 합니다.

  

비록 요즘에 많은 컴퓨터를 활용하는 통계학자와 데이터 분석가에 대한 지대한 관심이 있지만, 빅데이터 영역(massive data sets)은 아직까진 통계 과학의 주류가 되진 못했다.

그렇지만 통계학을 가르치는 우리는 이러한 흐름이 모든 영역의 변화에 공헌할 것이고 곧 관심을 일으킬 발효 단계로 본다.

출처 : Buja A, Keller-McNulty S. Introduction to the special section on massive datasets. J Comp Graph Statist 1999


놀랍게도 무려 1999년에 쓰여진 책에서 말한 예측이 일어났습니다. 빅데이터 세상이 도래한 겁니다! 하지만 안타깝게도 통계학에서 빅데이터는 주류가 되지 못했습니다. 그 이유는 많은 통계학자들이 굳이 많은 데이터를 다루는 기술을 연구할 필요성을 못 느꼈기 때문일 겁니다. 혹은 애써 무시하고 있었을지도 모릅니다. 그렇기에 빅데이터 영역이 지금처럼 크게 발전한 데에는 통계학의 발전보다는 컴퓨터 기술의 발전이 더 크게 작용했습니다.


다음의 질문에 대한 답을 생각해보시죠.


US NSF는 2012년 빅데이터 영역의 100명의 전문가를 초빙하는 워크샵을 진행했다. 몇 명의 통계학자가 있었을까?
17명의 US NIH BD2K(빅데이터 관련 조직)의 경영 위원회에서 통계학자는 몇 명일까?




정답은 바로 0명입니다.


놀랍지 않나요? 1명도 아니고 0명이라니까요. 분명히 데이터 분석은 통계학자가 가장 잘하는 일일텐데 왜 이런 일이 벌어졌을까요? 그 이유는 컴퓨터 기술의 발전으로 복잡한 통계 이론 없이도 데이터 분석이 가능해졌기 때문입니다. 이전에는 컴퓨터의 계산 속도나 메모리 문제로 인해서 다루지 못했던 행렬의 계산이 가능해졌습니다. 또 컴퓨터의 빠른 계산을 이용하여 알고리즘이라는 순서 논리를 가지고 복잡했던 수학식 없이도 확률을 계산하는 방법도 연구-발전되었습니다. 통계학이 아닌 물리학 분야에서 말이죠. 정말이지 이 정도면 통계학자는 빅데이터 세상에 필요없는 거 아닐까요?




빅데이터에서 통계학은 쓸모없다?!


Terry Speed 교수는 빅데이터 영역에서 통계학이 외면당한 원인을 다음과 같이 지적했습니다.


빅데이터 영역에서 수많은 문제들은 제대로 정의되어 있지 않다. 그리고 통계학자는 아마도 이러한 문제를 해결하려고 하기보다 부끄러워 하며 꺼리는 경향을 가지고 있었다.

아마도 통계학자는 어느 정도 맞는 것보다 정확히 틀리는 것을 선호했다.

아마도 통계학자는 착각하고 있었다. 혹은 더 나쁘게 말하면 "이해"하고 있었다.

통계학자는 IT기술이 부족했다 (마케팅이라는 단어도 첨가하고 싶다).

아마도 이 주제에 대한 고찰을 받아들일 수 없는 "높은 인지 부담"의 영역에 두었다.

수많은 빅데이터 프로젝트는 거대한  팀을 이루어야만 한다.


또한 여러 빅데이터 프로젝트를 진행했던 Mike Flowers는 이렇게까지 말합니다.


저는 경험있는 통계학자에게 전혀 관심이 없습니다.
왜냐하면 그들은 문제를 푸는 참신한 접근법을 꺼려하기 때문입니다.
예전에 이상거래탐지에 대한 프로젝트를 하기 위해 인터뷰를 한 적이 있었습니다.

주로 전통적인 통계학자(stat guy)들이 대상이었습니다.
그들은 수학적인 방법에 대한 걱정만 일으키는 경향이 있습니다.

하지만 저는 제가 사용하는 모델이 수학적으로 무엇인지에 대해 관심이 없습니다. 제가 오로지 관심있는 것은 그것이 "활용 가능한 것인가"입니다.





통계학은 여전히 필요하다!


수많은 문제들에 불구하고 Terry Speed 교수는 빅데이터란 어찌되었든 데이터에 관한 것이라고 말합니다. Terry 교수의 통계적 방법론을 보면 지금의 빅데이터 연구 과정과 다르지 않다는 것을 알 수 있습니다.


Terry 교수가 말하는 통계방법론

  

통계적 모델을 사용한다. 그 모델은 확률변수와 연관된 방정식의 집합이다. 그리고 그와 연관된 분포적인 가정과 어떠한 현상에 대한 데이터라는 형태로 구분되는 가정을 통해서, 질문의 맥락에 따른 임시적인 대답(tentative answer)과 이에 관련한 불확실성에 대한 측정(measure of uncertainty)을 이끌어낸다.


개인적인 방법론이라고 이야기했지만, 이는 아주 기본적인 통계 방법론이기도 합니다. 결국 통계적 방법은 아무런 의미가 없던 데이터를 여러 가지 가정과 모형을 통해 정보로 가공하는 것입니다. 이는 빅데이터 영역에서도 유효한 방법입니다. 결국 데이터 분석을 하는 궁극적인 목표는 과거의 경험을 통해서 미래의 예측가능성을 높이고자 하는 것이고 이는 곧 통계라는 것입니다.


그러면 빅데이터 세상에서 통계학자가 살아남으려면 어떻게 해야할까요? Terry 교수는 통계학자들은 다음과 같은 문제를 알고 이를 해결하려고 해야 한다고 말합니다.


빅데이터를 실행하기 위한 알고리즘의 복잡성은 결국엔 선형/부분 선형의 문제이다.

데이터는 메모리를 잡아먹는다.

데이터에 대한 계산도 메모리를 잡아먹는다. 왜냐하면 컴퓨터는 계산 중에 중복 데이터의 복사가 언제나 발생하기 때문이다.

이용가능한 CPU(중앙처리장치)들과 RAM들을 연결하기 위해서는 아주 효율적인 알고리즘이 요구된다.


결국 이러한 문제들을 위해선 다음과 같은 새로운 알고리즘이 필요하게 되고 여기에 통계학자의 역할에 있다고 Terry 교수는 말합니다.


당황스러울 정도로 아주 많은 병렬 문제

통신(communication)을 활용하는 병렬 계산

임의화 알고리즘 혹은 표본 추출을 통한 데이터의 용량 줄이기

맵리듀스 혹은 하둡의 사용(분산처리)


http://m.post.naver.com/viewer/postView.nhn?volumeNo=8032868&memberNo=1834



[Introduction to the special section on massive datasets]에서는 앞으로의 통계학자들에게 두 가지의 능력이 요구된다고 말하고 있습니다.

통계학과 데이터베이스 그리고 관련된 이슈들의 통합

더 증가된 컴퓨터 지식


여기에 더해 Terry 교수는 다음과 같은 역량이 필요하다고 합니다.

소통 그리고 리더십: 중요한 문제에 대한 접근(엔지니어는 더 팀워크로 일해야 할 것이다!)

컴퓨터적 지식

통계 이론적 지식

데이터에 대한 감각: 비판적인 생각과 여러 분야의 상식





데이터 세상으로의 첫걸음


대학을 다니면서 삶에 대해서 고민하며 여행도 다니고 동아리 활동도 열심히 했습니다. 그러나 제 직업에 대해서는 진지하게 고민하지 않았었습니다. 인생에서 가장 중요한 것이 직업일텐데 이에 대해서 고민하지 않았다는 게 참 어이가 없기도 합니다. 막연하게 대학을 졸업하면 어디든 데려가주지 않을까라는 자만심도 있었던 거 같습니다. 하지만 졸업 학기가 되니 불안한 마음에 관심도 없던 회사 3~4군데 공채를 지원했습니다. 남들은 20개씩 혹은 그보다도 많이 한다는데 졸업 학기에서조차 별다른 고민이 없었습니다. 남들 다 있다는 토익 성적도 2년이 넘어 유효한 것이 없었습니다. 유효했다고 해도 점수가 엄청 낮았으니 별 소용없었겠지만요. 자격증도 없었구요.


그렇게 성의없이 쓴 (당시엔 나름 열심히 썼지만) 자기소개서는 은행 한 군데만 붙고 다 떨어졌습니다. 그렇게 은행에 면접을 보러 갔습니다. 한나절 면접을 보면서 여러 지원자 분들과 말을 나누게 되었고 참으로 다들 은행원이 되기 위해 준비를 많이 했다는 생각이 들었습니다. 그리고 저는 준비도 되어 있지 않았고 은행원이 되고 싶지 않다는 걸 깨닫게 되었습니다. 면접을 보면 그 회사의 분위기나 지원자에게 원하는 게 무엇인지 보이는데요. 그 은행은 센스있고 재빠른 서비스가 가능한 사람을 찾는다고 느꼈습니다. 하지만 저는 전문가로서의 역량을 키우고 싶었습니다. 서비스만 하다보면 제가 원하는 통계 공부가 소용이 없으니 열심히 하지 않게 될 것 같기도 했습니다.


결국엔 허무하게 졸업 학기의 공채 시즌을 보냈습니다. 방학 중에 인턴을 써보기도 했지만 기준이 높은 곳만 지원해서 그런지 이 역시 다 떨어졌습니다. 하지만 덕분에 제가 원하는 직업이 무엇인지 치열하게 고민할 수 있었습니다. 저는 컴퓨터를 이용해서 통계 분석하는 것을 좋아하더라구요. 코딩하는 것도 좋아하고... 그리고 점점 빅데이터가 늘어나는 세상에서 이와 관련된 인력이 필요해질 것 같았습니다. 또 제가 공부해오던 것이 필요한 분야인거 같기도 하고 말입니다! 그렇게 데이터 과학자를 꿈꾸게 되었습니다.



이런 저런 사연으로 빅데이터 세상에 첫걸음을 내딛습니다.

전공을 살려 통계를 통해서 빅데이터 세상을 바라보려고 합니다. 하지만 Terry 교수가 지적했듯이 통계만으로는 가능하지 않습니다. 그래서 파이썬, 자바 그리고 C언어 까지 컴퓨터 언어에 대해서도 공부하고 있습니다. 그러면서 컴퓨터 운영 방식이나 메모리 구조에 대해서도 궁금증이 생겨 공부하고 있습니다. 앞으로 저는 데이터의 처음과 끝, 다시 말해 저장과 분석-활용까지 전문적인 지식을 갖춘 데이터 과학자가 되고자 합니다.


또한 지식을 공유한다는 건 참 중요하다고 생각합니다. 혼자서는 할 수 없어도 생각을 나누며 발전한다면 가능하게 되니까요. 앞으로 데이터 과학을 공부하며 여러 자료를 공유하고 기초적인 통계 지식에 대해서 정리하고자 합니다. 이처럼 저는 글로써 같은 길을 가시는 선배님들의 행적을 잘 따라가고 이 길에 관심있는 후배님들은 초대하고자 합니다.

          

데이터 세상으로 당신을 초대합니다.
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari