11월 21일 용산 드래곤시티 호텔에서 2018 빅콘테스트 시상식과 더불어 데이터 분석 직무 취업을 희망하는 학생들을 대상으로 한 취업토크를 진행했었습니다. 오픈 카톡방을 통해 들어온 학생들의 질문에 대해 저와 LG전자의 서희 책임님, LG 유플러스의 정재철 책임님, 신한카드의 우상수 셀장님이 돌아가며 답변을 하는 형식이었습니다. 그런데 시간이 부족하여 전체 질문 중 일부만 다룰 수 밖에 없었던 데다가 제가 이런 형식에 익숙하지 않다 보니 두서 없이 대답하여 아마 질문하신 분들에게 그리 만족스러운 답변을 드리지 못했다고 생각합니다. 그래서 이 글을 통해서나마 그 때 부족했던 답변을 보완하는 한편, 시간이 없어 다루지 못했던 질문들 중 제가 할 수 있는 부분에 대해 답변드리고자 합니다.
질문1) 본인이 생각하는 앞으로의 데이터 분석과 관련된 트렌드 및 주요 방향은?
데이터 분석과 관련된 현재의 트렌드에 대해선 다른 분들이 잘 설명해 주셨으니 전 반대로 현재 봉착하고 있는 한계점과 이와 관련된 좀 더 장기적인 화두에 대해서 얘기해 보겠습니다.
여러 미디어를 통해 다양한 데이터 분석 성공 사례가 쏟아져 나오고 있습니다. 이를 테면, 타겟이라는 쇼핑몰에서 고객의 소비 패턴을 분석한 결과 고등학생의 임신 사실을 가족들보다 먼저 알아냈다거나 넷플릭스에서 시청자의 취향을 분석해 '하우스 오브 카드'를 만들어 대박을 냈다거나 혹은 페이스북이나 트위터 등의 소셜 서비스를 분석해서 고객의 취향이나 성향을 파악하여 마케팅에 적용해 매출이 향상되었다 등등의 사례들을 한번쯤 들어보셨겠죠.
그러나 비판적으로 보자면, 이런 널리 알려진 성공 사례들은 대부분 실상 '촉 좋은' 분석가의 그럴듯한 스토리텔링에 의해 만들어진 우연한 성공인 경우가 많습니다. 다시 말해 지속성이나 재현성이 떨어진다는 한계점을 갖고 있습니다. 그런데 이런 우연한 성공에 기대어 도입하기에는 소위 말하는 '빅데이터 분석'에 필요한 비용이 매우 큽니다. 대규모의 데이터를 수집하고 적재/관리하는데 필요한 인프라와 인력을 유지하기 위한 비용도 만만치 않을 뿐더러 우수한 역량을 갖춘 분석 조직을 구축하는데에도 많은 시간이 필요하죠. 따라서 남들보다 앞서 대규모 투자를 했던 기업들이 몇 년 간의 시행 착오를 겪으며 이제는 점차 한계점을 깨닫고 있습니다 (물론 최근에 뒤늦게 뛰어들고 있는 기업들 역시 유사한 시행착오를 겪을 가능성이 높습니다).
때문에 기업에서는 이제 '어떻게 하면 데이터 분석을 통해 지속적인 가치를 창출할 것인가?' 를 고민하고 있습니다 (이를 야구에 비유하자면, 가끔 터지는 홈런 한방 보다는 출루율을 높이는데 집중하는 것이죠). 그리고 이를 위해선 단지 일회적인 분석을 통해 어떤 '인사이트'를 뽑아내는 것을 목표로 할 것이 아니라 분석을 통해 만든 모델을 지속적으로 활용할 수 있는 체계와 절차를 구축하는 것이 필요합니다. 쉽게 말해 데이터 분석의 최종 산출물이 '보고서'가 아니라 '제품 (혹은 서비스)'이 되어야 합니다.
지속적인 서비스를 위해 필요한 중요한 요소 중 하나는 모델의 유지보수입니다. 대부분의 경우 기계학습 모델은 시간이 지날수록 노후화가 됩니다 (이것을 전문 용어로 'concept drift'라고 합니다). 대표적인 예가 (한때 빅데이터의 성공 사례로 많이 회자되었던) 구글의 독감 예측 모델입니다. 사용자의 검색 트렌드를 이용해 독감을 예측하는 모델을 만들어 서비스하면서 크게 관심을 끌었으나 이후 몇 달 만에 해당 모델은 예측이 어긋나기 시작했고 결국 지금은 더 이상의 예측 서비스를 제공하지 않습니다 (다만 과거 자료는 조회가 가능합니다).
반대로 현재 기계 학습이 가장 성공적으로 제품화된 분야는 이미지 인식, 음성 인식 및 추천입니다. 이들의 공통점은 모델의 지속성에 있습니다. 이미지나 음성은 시간이 지남에 따라 패턴이 쉽게 바뀌지 않습니다. 다시 말해 '강아지'를 인식하는 모델을 잘 만들고 나면 강아지가 진화해서 다리가 6개가 되고 귀나 코의 형태가 크게 바뀌지 않는 한 모델이 노후화될 확률은 낮습니다.
한편, '추천'은 모델을 지속적으로 관리하는데 필요한 '피드백' 구조를 구축하기 쉬운 분야입니다. 쉽게 말해, 상품 추천의 경우 추천을 했을 때 고객이 해당 상품을 사거나 클릭해서 확인하는지 등의 이력을 추적해 반응 결과를 모델 재학습에 활용할 수 있습니다.
그런데 이런 분야를 제외한 대부분의 분야에서는 아직 지속성을 갖는 분석 모델이나 시스템 구조가 없습니다. 게임 분야를 예로 들면, 게임은 컨텐츠의 변화가 무척 빠르기 때문에 어떤 예측 모델을 만들었을 때 6개월에서 1년 정도만 지나면 쓸모가 없어질 정도로 노후화가 빠릅니다. 또한 봇탐지와 같은 fraud detection 분야는 상품 추천과 같은 피드백 구조를 적용하기가 매우 어렵습니다 (일단 조금이라도 봇으로 의심되면 제재하고 해당 유저가 어떻게 반응하는지 보겠다...라고 하면 큰일나겠죠).
정리하자면, 상당수의 분야에서는 아직까지 '어떻게 하면 지속성을 갖춘 데이터 모델을 효과적으로 제품화할 수 있는가?' 라는 질문에 대한 답을 찾지 못하고 있습니다. 지금 당장은 대규모의 다양한 데이터에서 (소위 말하는) '인사이트'를 뽑아 다른 사람들(특히 상위 직책자들)에게 감동을 줄 수 있는 스토리를 만들지에 더 관심이 많은 것이 사실입니다. 그러나 이제 데이터 분석 분야에 막 발을 디디고자 하는 분들이라면 지금 당장 필요한 역량을 갖추는 것도 좋지만, 좀 더 장기적인 화두에 대해 관심을 갖고 이에 대해 대비하는 것도 중요하리라 생각합니다.
질문2) 엔씨소프트의 인재상은?
제가 생각하는 가장 큰 덕목은 '진지함'입니다. 간혹 IT 분야를 보면 회사 업무보다 본인의 관심사나 신기술을 습득하는 재미를 더 추구하는 '스마트 가이'들이 있습니다. 혹은 게임 분야이다 보니 업무 자체도 다소 가볍게 생각하는 사람들도 있고요. 결코 바람직한 자세가 아니라고 생각합니다. 어떤 직종/직무를 떠나서 자신의 일과 그로 인해 발생하는 결과에 대해 진지하게 생각하는 자세는 꼭 필요하다고 생각합니다.
질문3) 올해 엔씨소프트 신입 공채 필기 시험 문제가 많이 어려웠는데 시험에 나온 정도의 통계 지식이 있어야 업무를 할 수 있는가?
아닙니다. 필기 시험에서는 '가급적 특정 세부 분야에 치우치지 않고 다양하게 문제를 내려는 의도 + 출제자들의 과도한 의욕'이 더해서 다소 난이도 조절에 실패했던 것 같습니다. 필기 시험에서 요구한 수준은 '필요 조건' 이 아니라 '충분 조건' 이라고 생각하시면 좋겠습니다.
질문4) 현재 병원의 빅데이터분석팀에 근무하고 있는데 의료 분야에 있다가 게임 분야로 이직이 가능한가?
충분히 가능하며 실제 이렇게 분야를 넘나드는 경우는 매우 흔합니다. 게다가 다른 분야에서의 경험이 분석에 대한 관점을 넓힐 수 있어서 장점이 많다고 봅니다. 예를 들어, 현재 저희 팀이 관심을 갖는 주제 중 하나가 '생존분석 (survival analysis)' 인데, 이 기법이 가장 활발하게 적용되는 분야가 의료 분야죠. 따라서 이 경우엔 오히려 병원 분석팀에서의 경험이 장점이 될 수 있다고 봅니다.
질문5) 앞으로 AI가 발전하면 데이터 사이언티스트도 사라질 것이라 생각하는가?
우선 '어떤 직업이 사라질 것인가?' 라는 질문은 적절치 않다고 생각합니다. '어떤 식으로 변할 것인가?' 라고 묻는 것이 더 적절하겠죠.
예를 들어, 마부나 대장장이는 사라졌을까요? 지금도 유원지에 가면 마차를 끄는 사람들이 있으며 청계천 뒷골목에 가면 여전히 대장장이 일을 하는 사람들이 있습니다. 다만 1) 이런 일을 하는 사람들이 이젠 거의 남아 있지 않으며, 2) 이런 일들이 다른 업무로 변했습니다. 가령, 현재 차량 운전을 직업으로 삼는 사람들은 과거 기준으로 보면 마부와 비슷한 역할을 하고 있지만 활용하는 기술이 다릅니다.
그렇다면 데이터 분석가는 어떻게 바뀔 것인가...아마 대부분의 직업들이 그렇듯 단순 반복적인 업무는 점차 자동화될 것입니다. 따라서 현재 기준으로 볼 때 데이터 분석가가 하는 상당수의 업무는 사라질 것입니다. 더 나아가 꼭 AI가 아니더라도 분석 도구들이 점차 편리하게 바뀌고 있으며 관련 기술들이 보편화되고 있습니다. 10년 전에는 선형 회귀 모델만 만들 수 있어도 엄청난 전문가 취급을 받았으나 지금은 학생들도 앙상블 같은 고급 기법을 아무렇지 않게 사용하죠. 때문에 전문적으로 데이터만 분석하는 직업은 상당 부분 축소되고, 대신 각 분야 종사자들이 분석을 직접 담당하게 될 것입니다. 이건 과거 사례를 통해서도 쉽게 짐작할 수 있는데, 예전에는 타자기나 워드 프로그램을 이용해 문서를 작성하는 전문직이 있었으나 지금은 문서 작성 뿐만 아니라 더 복잡한 컴퓨터 작업들도 일상적인 업무가 되었죠. 즉, 현재 하는 데이터 분석의 상당 부분은 전문 기술이 아니라 보편적인 도구가 될 가능성이 매우 높습니다.
그렇다면 데이터 사이언티스트는 사라질 것인가 라고 하면 꼭 그렇지는 않을 것입니다. 다만 그들이 전문직으로써 남기 위해 필요한 기술은 지금과 많이 달라질 것입니다. 그것이 뭔지는 저도 잘 모르겠지만 아마도 앞서 '질문1)'에서 얘기한 화두를 해결하는 방법과 관련이 높을 것이라 생각합니다.
질문6) 신입 사원이 데이터 분석 직무로 입사하면 주로 어떤 업무를 맡는가?
회사마다 조금씩 차이는 있지만 주로 다음과 같은 일을 합니다.
정보 요청 처리 - 사업이나 기획/전략 부서에서 알고 싶어하는 여러 가지 현황 자료를 집계하여 요청 부서에 제공하는 업무
지표 보고서 개발 - '정보 요청 처리' 에서 다루는 여러 가지 자료 중 자주 필요로 하는 주요 지표들을 정기 보고서로 만들어 서비스하는 업무
특정 주제에 대한 심화 분석 및 보고서 작성 - '지난 달에 있었던 게임 업데이트 이후 유저의 동향은 어떤가?' 라거나 '최근 유저수가 급감하고 있는 원인은 무엇인가?' 와 같은 주로 임원들이 궁금해 하는 질문에 답을 하기 위한 분석 보고서를 만드는 업무
통계(기계학습) 모델을 이용한 서비스 개발 - 아마 대부분의 취준생들이 희망하는 바로 그 업무
그런데 위에 나열한 순서는 실제 회사에 가서 신입 사원이 맡게될 가능성이 높은 순입니다.
질문7) 빅데이터 관련해서 취직하기 위해서는 석사 학위가 필수적이라는 견해가 많던데 정말 그런가?
신입 공채만을 기준으로 본다면 석사 졸업생이 학사 졸업생보다 여러 면에서 유리합니다. 지원서나 포트폴리오 내용 면에서도 차이가 있으며 면접에서 전문적인 내용에 대한 답변 수준도 차이가 있죠. 즉, 석사 학위가 필요한 것이 아니라 평균적으로 학사 학위자에 비해 석사 학위자들이 좀 더 스펙이 좋기 때문에 좀 더 채용이 잘 되는 것처럼 보이는 것입니다.
그렇다면 모두가 석사 학위를 따야 할까? 라고 한다면 전 그렇지 않다고 생각합니다. 채용은 절대 평가가 아니라 상대 평가입니다. 다시 말해 모두가 석사 학위를 딴다면 석사 학위는 아무런 경쟁력을 갖지 못합니다. 결국 취직에서 중요한 건 '경쟁률'입니다.
게다가 전 취직을 위해 석사 학위를 따는 건 대단히 비효율적이라고 생각합니다. 취직이 목적이라면 석사 과정에 가는 것이 아니라 경쟁률이 낮은 (즉, 다른 사람들이 선호하지 않는) 회사를 찾아 취직하는 걸 더 추천합니다. 한쪽에선 취업난이라고 하지만 다른 한쪽에선 구인난이라고 합니다. 바로 그런 구인난을 겪는 회사를 찾아 취직하길 권합니다. 좋은 회사가 드문 만큼 정말 나쁜 회사도 많지 않습니다. 대부분의 회사들은 크게 다르지 않습니다. 그러니 좋은 (그래서 경쟁률이 높은) 회사를 찾기 보다는 나쁘지 않고 경쟁률이 낮은 회사를 찾아 일단 실제 회사 생활을 해보면 취준생때는 막연했던 부분들이 좀 더 명확해 지리라 생각합니다. 좋은 회사는 이렇게 사회 생활을 해본 후 결정해도 늦지 않습니다.
누군가는 첫출발을 잘해야 한다고 조언합니다. 그러나 제가 보기에 데이터 분석 분야에는 맞지 않는 조언입니다. 더 나아가 IT 분야에서 신입 공채가 갖는 의미는 거의 없습니다. 에전처럼 순혈주의를 강조하지도 않을 뿐더러 이직율이 높고 평균 근속년수도 짧기 때문에 '공채 출신' 이 갖는 장점은 거의 없습니다.
이쪽 분야는 신입 공채보다 경력직 수시 채용이 훨씬 경쟁률이 낮아 상대적으로 들어가기 쉽습니다. 심지어 본인이 엄청난 성과를 쌓지 않는 한 연봉 인상률이나 승진 기회가 내부에 있을 때 보다 적당한 시점에 이직하는 경우가 더 유리하다는 의견들도 많습니다.
한편으로는, 공부를 더 하고 싶다면 회사를 다니면서 파트타임으로 학위 과정을 밟는 것도 한 가지 방법입니다. 누군가는 회사 다니면서 공부하기 쉽지 않다고 하지만 제가 볼 때, 지금 취준생들이 취업 준비하는 노력에 비해 더 어렵지는 않은 것 같습니다. 게다가 회사에 다니면서 대학원에 가면 교수 갑질이나 프로젝트 하느라 자기 공부 못하는 등의 폐해를 겪을 일도 없습니다. 이와 관련된 좀 더 구체적인 얘기는 제가 예전에 쓴 '직장생활과 학업 병행하기 (http://agbird.egloos.com/5940032)' 라는 글을 참고하시기 바랍니다.
질문8) 데이터 유통 산업이 어떻게 발전할 것이고 이 산업이 데이터 분석가 및 타 산업에 어떤 영향을 미치게 될 것으로 생각하는가?
어떤 대상이든 여기에 직접적인 가치가 부여 되면 그 산업은 커지기 마련입니다. 이것이 가장 극단적으로 발휘된 사례가 '블록체인'이죠. 데이터 역시 유통을 통해 직접적인 가치가 부여되면 중요도가 훨씬 더 올라갈 것이라 생각합니다.
데이터 분석가 입장에서 보자면, 다양한 데이터를 공식적으로 입수할 수 있는 기회가 많아질테니 좀 더 다양한 분석이 가능해질 것이고, 이로 인해 다시 데이터 분석 결과물의 가치가 상승하는 '양의 되먹임' 현상이 생길 수 있습니다. 그럼 데이터 분석 결과물의 가치와 중요도는 비약적으로 높아질 것이라 기대합니다. 다만 이건 어디까지나 유통업이 활성화된다는 가정하에 상상한 모습이고 실제로는 개인 정보 이슈나 일종의 '죄수의 딜레마'와 같은 업체간의 눈치 보기 때문에 활성화 되기는 쉽지 않은 것 같습니다.
다만 빅데이터 관련 인프라를 투자했지만 별다른 소득이 없고 앞으로도 그런 역량을 쌓기 힘든 업체들을 중심으로 데이터 유통업에 대한 참여 움직임은 계속 커질 것이고 이런 틈새 시장을 노리는 스타트업들이 생겨날 것이라 생각합니다.
질문9) 데이터 분석을 할 때 주로 어떤 방법론을 이용하는가?
아직 데이터 분석 분야는 어떤 정립된 방법론을 가질 만큼 성숙하지 못한 상황입니다. 분석가의 직무 역량도 그리 높지 않을 뿐더러 업계의 경험 역시 어떤 체계를 구축할 만큼 충분히 쌓이지 못했습니다. 그래서 지금은 그냥 '케바케' 인 것 같습니다.
질문10) 코딩과 통계 중 어떤 쪽이 더 중요하다고 생각하는가?
사람을 채용하는 목적 중 하나는 자신들의 약한 분야를 보충하려는 것입니다. 즉, 코딩쪽이 약하면 코딩을 잘하는 사람을 뽑고 분석 역량이 부족하다고 판단하면 통계 이론에 강한 사람을 뽑는 것이죠. 저희도 매번 채용할 때마다 중점을 두는 부분이 다릅니다. 그러니 어느 쪽이 중요한가 라는 질문은 무의미하다고 생각합니다.
질문11) 비전공자가 통계나 컴공 전공자와 동일한 수준이 되려면 어떤 걸 해야 하는가? 뭘 우선 순위에 두고 취업을 준비해야 할까?
제가 비전공자 입장이 되어 본적이 없어 잘 모르겠습니다. 다만 제가 생각하기에 이 질문은 '질문7)'과 '질문10)'을 잘 읽어 보시면 어느 정도 답변이 될 것 같네요.