brunch

You can make anything
by writing

C.S.Lewis

by 채규병 Jun 06. 2019

형편없는 데이터 과학자

누군가에게 도움이 되는 존재이길 바라면서

아티스트로서 되살아나기 위해서는 

형편없는 아티스트가 될 것을 각오해야 한다.

    - 아티스트 웨이, 줄리아 카메론, p.77












글의 공백이 길어졌습니다


직장을 구하고 나니 바빴습니다. 직장 근처로 이사하면서 처음으로 고향에서 벗어난 곳에 주민 등록을 했습니다. 또 워크와 라이프의 균형을 이루는 방법도 잘 몰랐습니다. 여전히 워크에 치우쳐져 있긴 합니다만... 하지만 이보다도 글을 쓰는데 걸림돌이 되었던 것은 두려움입니다. 직장을 다니면서 학생 때는 만나지 못했던 그야말로 실력자 분들을 실컷 만나고 있습니다. 같이 일하면서 능력의 부족함을 한없이 깨닫고 있습니다. 



정말 모르는 것 투성이 입니다. 프로젝트를 하다 보면 감당할 수 없을 정도로 수많은 문제들이 있습니다. 주어졌기 때문에 하고는 있지만, 과연 해결할 수 있을까 하는 외줄 타기의 심정으로 하는 일이 많습니다. 자격증 공부를 하면서 참으로 배울 지식도 많으나 쓸 데 없다고 생각되는 것도 꽤 있었습니다. 또 모든 일을 다 할 수는 없다고 느꼈습니다. 이럴 때마다 직업의식이 무엇인지 참으로 많이 생각하게 됩니다. 프로페셔널과 아마추어의 차이라... 팽개쳐버리고 싶은 심정이 매일 듭니다. 그러다가 결국은 왜 이 회사를 왜 선택했고, 이 직업을 택했는지 잊게 되는 것 같습니다.










나는 무엇을 하고 있는가?


데이터 과학자가 되고 싶다는 생각으로 공부해왔습니다. 하지만 직업을 가지면서 조금 관점이 달라졌습니다. 회사가 데이터 과학자라는 타이틀을 달아주었지만 만족을 느끼진 못 했습니다. 타이틀을 달았지만 여전히 모르는 것뿐입니다. 혼자 해결할 수 있는 일은 작고 가지고 있는 능력은 더욱 작습니다.



데이터 과학자(data scientist)란 
데이터를 수집, 정리, 조사, 분석, 가시화할 수 있는 전문가이다.

    - 빅데이터 시대, 데이터 과학자 양성 방안(2013), 조완섭, 과학기술정책, (192), p.44-55



한 마디로 슈퍼맨을 요구하고 있습니다. 툴을 잘 쓴다고 데이터 과학자일까요? 아니면 위에서 요구하는 프로젝트를 이끌 수 있는 프로젝트 리딩 능력이 있어야 할까요? 모든 걸 다 하려다 보면 모든 걸 못하는 것이 세상의 이치이거늘 왜 나한테 이러는 걸까요? 하지만 일을 하다 보면 경계가 모호한 부분이 있습니다. 이것도 내가 해야 할 거 같고, 저것도 내가 해야 할거 같은데..


과연 이 모든 것을 할 수 있을까 라는 고민이 생깁니다.

수집? 데이터를 수집하는 경로는 다양합니다. RDBMS에서? 하둡에서? 파일 서버에서? 아니면 웹 크롤링?? 데이터베이스에 있으면 데이터를 가져오는 게 쉽나? 뭔지나 알고 가져오는가?

조사? 뭐를? 얼마나? 언제까지? 뭐하고 싶은데?

분석? 이게 모델링인가? 진짜 그 모델 믿고 의사 결정할 수 있어? 제대로 데이터 말아온 거야?

가시화? 시각화.. 디자이너의 영역인 것인가, 개발자의 영역인가? 임원이 보나? 현업이 보나? 어디까지 맞춰줄 거야?


여전히 모르겠습니다. 하지만 데이터 과학자는 새로운 걸 하는 사람이 아니라는 것을 피부로 느끼게 되었습니다. 없는 기술은 없습니다. 제가 모를 뿐이죠. 원래 데이터 과학자 역할을 하는 분들도 많습니다. 단지 타이틀이 다를 뿐입니다. 결국은 새로운 것은 없습니다. 














빅데이터?


데이터 과학자와 빅데이터라는 키워드는 붙어 다닙니다. 빅데이터라는 용어가 생기면서 이 직업이 생겨났으니까요. 하지만 이는 마케팅에 불과하다는 비판도 큽니다.


하지만 현실은 그렇지 않았다. 컴퓨터 모델이 점점 더 거대해질수록, 그 모델은 현실과 비슷해져서 더 이상 이해할 수도 없고, 더 이상 수정할 수도 없게 되어버렸다. 현실을 이해하기 위해 모델링을 하는 것이다. 그런데 모델이 또 하나의 현실이라고 할 만큼 거대하고 복잡해지면서, 이해할 수 없는 또 다른 현실이 등장한 상황과 다름 없어진 것이다. 이것이 보니니의 역설이다. 그렇기 때문에 경험이 많은 컴퓨터 모델링 학자는 모델을 단순하게 만드는 것의 중요성을 역설한다. 모델이 단순해야 이해하기 수월하고, 수정과 보완이 편하며, 현실에 맞는 전략적 시사점을 발견 해내가기도 쉽기 때문이다. 


사실 빅데이터에 근거한 모델보다 스몰데이터에 근거한 모델을 만들기가 훨씬 더 어렵다. 빅데이터에 기반한 모델은 아무리 많은 결함이 있다고 하더라도, 그 결함이 수천 개의 변수들 속에 숨어 있어서 잘 보이지 않는다. 하지만 스몰데이터에 기반한 모델의 경우에는 결함이 금세 드러난다. 그렇기 때문에 모델링을 잘 못하는 사람들은 자신의 모델을 점점 더 복잡하게 만들어서 그 취약점을 숨기고 싶어 하는 법이다.


- 빅데이터는 거품이다(2016), 김동환, p.98-99



하지만 데이터의 양이 많다고 해서 측정과 개념의 타당성과 일관성, 자료 간의 비독립성 등의 기초적인 문제를 간과할 수는 없다는 것이다. 양이 질을 보완할 수는 있지만, 보장하거나 대체할 수는 없기 때문이다. 특히 자료의 타당성 문제는 모든 자료 분석에 공통되는 가장 근본적인 것이고, 자료의 규모가 커진다고 해서 해소되는 것이 아니다. 게다가 빅데이터는 이런 기초적인 문제들에 대한 엄밀한 검토가 이루어진 도구와 절차에 의해 생산된 것이 아니라는 점도 다시 환기해야 한다. 빅데이터 분석을 보통 ‘짚더미 속에 떨어진 바늘 찾기’에 비유하곤 하는데, 그만큼 더 어렵고, 그만큼 실수의 가능성이 더 높다는 경고의 뜻으로 받아들일 필요가 있다.


- 한신갑. (2015). 빅데이터와 사회과학 하기. 한국사회학, 49(2), 161-192.



본질은 필요성에 있을 뿐입니다. 원하는 정보가 방대한 양의 데이터에 있을 수 있습니다. 그래서 빅데이터 처리 기술이 필요할 수 있습니다. 이는 굉장히 골치 아픈 일이기 때문에 전문가가 필요한 것도 사실입니다. 그러나 굳이 필요하지도 않습니다. 주식 시장이 생겨난 이후부터 검증한다고 알고리즘이 돈을 더 잘 버는 것이 아닙니다. 단군 이래의 날씨 데이터를 다 모은다고 해도 내일 비가 오는지 모를 수 있습니다. 기술에 점철되어서는 안 됩니다. 그래서 데이터 과학자가 무엇인지 정의하는 것은 크게 중요하지 않습니다. 


요새 굉장히 많은 기업들이 데이터 과학자라는 직무 타이틀로 구인을 하고 있습니다. 하지만 원하는 역할이 명확하지 않거나 모든 걸 요구하는 곳이 대부분입니다. 이보다는 내가 하고 싶은 일이 무엇일까, 내가 하는 일의 가치는 무엇일까? 사용자가 정말로 좋아하나? 이러한 고민을 하지 않고서 타이틀에 만족하면 안 되겠습니다. 





하고 싶은 일이 있나요? 

거기에 데이터 과학이 꼭 필요할까요?





작가의 이전글 [번역] 맵리듀스(MapReduce) - 1

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari