brunch

You can make anything
by writing

C.S.Lewis

by Jin Young Kim Jan 28. 2020

현업 데이터 과학자가 컨텐츠를 만들어야 하는 이유

그동안 공부하고 일하면서 나는 항상 논문, 책, 강의, 팟캐스트 등의 형태로 내가 각종 데이터로 일하면서 배우고 느낀 것을 정리하고 공유해왔다. 결혼하고 아이를 갖기 전에는 시간이 많아서 그러기도 했지만, 두살 딸아이를 키우는 지금까지도 컨텐츠 생산에 대한 관심과 노력은 계속되고 있다. 오히려 누군가 내가 배운 것을 공유할 기회를 빼앗아간다면 굉장히 화가 날 것 같다. 


예전에는 내가 좀 특이해서 그런다고 생각을 했지만, 최근 들어 지식 컨텐츠 생산은 데이터 과학자로서 내 일의 본질을 관통한다는 점을 깨달았다. '과학'의 본령이 지식의 생산이고, 또한 '과학'을 제대로 하려면 꾸준히 배워야 하기 때문이다. 또한 주변의 많은 동료들도 형태는 다르지만 비슷한 일을 하고 있다는 것을 발견했다. 오늘은 데이터 과학과 컨텐츠 제작과의 관계를 다루어볼까 한다. 


현업의 부산물로서의 컨텐츠

우선 데이터 관련 분야 종사자로서 회사에서 꾸준히 성과를 내기 위해서나 혹은 회사를 중간에 옮기기 위해서나, 자기 분야의 변화를 꾸준히 따라잡고 이를 현업에 적용할 수 있는 능력은 선택이 아닌 필수다. 딥러닝과 클라우드를 필두로 내가 대학원을 졸업한 2012년과 지금 사이에 일어난 이론 및 도구의 혁신은 이루 나열할 수 없을 정도다. 아마 5년전에 세계 정상급에 있던 사람이, 올해 다시 입사 면접을 본다면 아마 합격을 장담할 수 없을 것이다.


그렇다면 어떻게 해야 꾸준히 배울 수 있을까? 현업 실무에 있다고 자연스럽게 배움이 생기는 것은 아니다. 배움은 실무에서 부딪히는 문제에 대한 해법을 꾸준히 고민하고 그 해법을 (예: 머신러닝 모델) 실무에 적용하는 과정에서 생긴다. 그리고 본질적으로 불확실성을 내포하는 데이터 과학 및 인공지능 기술의 특성상, 보통 잘 작동하는 해법이 꼭 성공하는 것도 아니며 성능 차이가 미미한 경우도 많으니, 기존 해법과 새로운 해법을 비교하고 그 결과를 문서화하는 것도 필수적이다. 


따라서 데이터 과학 및 인공지능 분야에서 제대로 된 일을 하는 개인과 조직은 자연스럽게 문서화된 배움, 즉 ‘컨텐츠’를 축적하게 된다. 새로운 UI 및 알고리즘의 개발 과정, 실험 결과, 회사 내부에서 사용하는 기술 솔루션 및 프레임워크 등이 모두 컨텐츠에 해당한다. 이들 컨텐츠는 기업의 데이터 역량 확보에 큰 역할을 하며, 개인의 입장에서는 자기 분야에서의 전문성을 개발하고 인정받는데  이런 컨텐츠를 생산하는 것이 큰 도움이 된다.


그리고 세계적인 추세는 이런 컨텐츠를 조직 안팎으로 공유하는 것이다. 이유는 여러 가지가 있겠지만, 컨텐츠 공유에서 파생되는 이득, 즉, 기술 브랜드에 기반한 마케팅 효과가 이런 노하우를 비밀로 유지하는데서 오는 경쟁우위를 능가한다는 공감대가 형성된 까닭이 아닐까. 적어도 미국에서는 많은 구직자들이 기술 트렌드를 선도하는 기업에서 일하고 싶어하며, 이에 따라 대부분의 테크 회사에서는 논문 및 블로그 포스트의 형태로 자사의 기술을 공유하고 있다.


배움의 수단으로서의 컨텐츠

성장을 위한 방법으로서 컨텐츠 제작이 유효한 것은 쏟아지는 컨텐츠의 양과도 관련이 있다. 아마 업계 종사자라면 다들 동의하시겠지만, 이미 데이터 관련 분야, 특히 인공지능 분야에서 쏟아지는 뉴스, 논문, 책, 강의, 도구 등의 컨텐츠를 모두 소화하는 것은 이미 불가능에 가깝다. ML논문의 주 소스인 Arvix에 2019년 10월에 제출된 논문만 14,600건, 하루에 500개에 가깝다. 

Arvix에 매달 올라오는 논문 수 (출처: https://arxiv.org/stats/monthly_submissions)

이런 컨텐츠의 양적인 폭발은 분야 자체로는 좋은 일이지만 실제로 제대로 된 공부를 어렵게 만든다. 우선, 제대로 된 컨텐츠를 선별하는데도 많은 노력이 들고, 개별 컨텐츠를 깊이 있게 소화하기도 어렵기 때문이다. 이런 환경에서 학습자들이 흔히 빠지기 쉬운 함정은 수많은 논문이나 책을 소화하면서 오히려 혼란에 빠지는 것이다. 주어진 컨텐츠를 소화하며 해당 분야에 대한 본인의 지식을 쌓아올리는 공부를 하는 것이 그다지 쉬운 일이 아니기 때문이다.


예를 들어 머신러닝을 위한 데이터 전처리를 공부한다고 하자. 어떤 책에서는 누락된 (missing) 데이터를 채워야 한다고 가르치고, 다른 책에서는 그냥 두어아 한다고 한다. 이런 경우 책을 여러 권 읽는 것이 지식의 깊이를 쌓기보다는 오히려 혼란을 가중시키는 것이다. (물론 적어도 문제의식은 생길 테니 아예 읽지 않는 것보다는 나을 것이다) 절대적인 공리보다는 경험적 진실의 축적에 가까운 데이터 과학 이론의 특성상 이런 사례는 얼마든지 있다. 


그래서 필자가 최근에 사용하는 방법은 어떤 분야에 대한 컨텐츠 제작을 목적으로 공부를 하는 것이다. (바이러스 의사 시절의 안철수씨도 비슷한 이야기를 했다.) 컨텐츠 제작이라면 거창하게 들릴수도 있지만, 공부한 내용에 대하여 다른사람에게 유용한 형태로 전달하는 과정이라고 생각하면 된다. 아무리 게으른 사람이라도, 다른 사람에게 전달하겠다는 목적이 있다면 최대한 내용을 잘 소화하여 요약하고 체계화시키려고 노력하게 된다.


전달 목적과 대상에 따라 실로 다양한 컨텐츠 제작 시나리오를 생각해볼 수 있다. 예를 들어 현재 회사에서 진행하는 프로젝트에 대한 논문 요약을 팀원들과 나눈다던가, 특정 주제에 관심이 있는 사람들끼리 논문 발표를 하면서 스터디를 하는 등의 활동이 다 여기 해당한다. 필자가 진행하는 팟캐스트도 해당 분야 전문가를 찾아서 인터뷰하는 과정에서 배움과 컨텐츠 생산을 겸하는 일이다.


데이터 관련 컨텐츠의 수요

열심히 컨텐츠를 만들어도 수요가 없다면 힘이 빠질 것이다. 하지만 데이터 과학 및 인공지능 분야가 전 사회적인 관심을 받고있는 만큼 데이터 관련 컨텐츠의 수요도 적지 않다. 관련 전공을 원하는 학생들도 많아지고, 다른 분야에서 전직을 준비하는 사례도 늘었다. 직접 데이터 관련 일을 하지 않더라도 혁신을 선도하는 데이터 산업 및 기술에 관심을 갖지 않기는 어려운 일이다.


필자가 생각하는 데이터 관련 컨텐츠 마켓의 구조는 다음과 같다. 우선 일반 대중을 대상으로 트랜드나 단편적인 지식을 전달하는 캐주얼한 컨텐츠가 있다. 그리고 이보다 좀더 깊이를 갖춘 책이나 비디오 강의, 마지막으로 취업 준비 및 직업 훈련 등의 분명한 목표를 갖는 부트캠프가 있다. 각 컨텐츠 유형에 따라 대상 청중도, 컨텐츠 소스도 다를 것이다. 

데이터 관련 컨텐츠의 유형과 대상 고객, 그리고 컨텐츠의 원천


좋은 데이터 컨텐츠의 조건

이처럼 다양한 깊이와 목적을 갖는 컨텐츠 시장이 존재하지만, 한가지 공통점은 좋은 컨텐츠를 생산하기 위해서는 해당 분야 실무 경험자의 참여가 필수적이라는 점이다. 전통적인 수업이나 텍스트북으로는 엄청나게 쏟아져나오는 신기술을 따라잡기도 벅차고, 경험을 통해 체득되는 암묵지가 많은 분야의 특성상 이론만 가르쳐서는 실무에 별 도움이 되지 않기 때문이기도 하다.


하지만, 실무 종사자의 경험이 제대로 된 컨텐츠로 전달되기에는 많은 노력이 필요하다. 팟캐스트나 유튜브와 같은 캐주얼한 컨텐츠라면 큰 노력 없이도 가능하겠지만, 책, 강의, 부트캠프와 같은 경우에는 만드는 쪽에서나 소비하는 쪽에서나 많은 노력과 비용이 드는 컨텐츠다. 따라서 컨텐츠의 원천이 될 수 있는 전문가와, 실제 컨첸츠 제작에 전문성이 있는 제작자가 협업하는 모델이 바람직하다는 생각이다.   



이전 06화 주니어 데이터사이언티스트에게 하고 싶은 이야기들
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari