brunch

You can make anything
by writing

C.S.Lewis

by 송근일 Mar 25. 2020

데이터 사이언티스트 현실

주니어 데이터 사이언티스트의 진솔한 이야기

빅데이터 시대라고 한다. 데이터 저장 및 처리 기술이 급속도로 발전하며 이를 분석하는 데이터 사이언티스트라는 직업이 많은 사람들의 주목을 받고 있다.


하지만 정작 데이터 사이언티스트의 현실을 제대로 알고 있는 사람들은 적은 것 같다취준생들은 데싸(데이터 사이언티스트)에 대한 수요가 많을 것이라고 막연히 기대하는 경우가 많으며, 인사 담당자는 데싸가 낼 수 있는 성과를 종종 과대평가한다.


나도 입사 이전에 오해했던 시기가 있었다. 그 당시엔 캐글을 열심히 하며 내가 하고 있는 모델링과 시각화가 데이터 사이언스의 전부라고 생각했다.


이 글에서 나는 데이터 사이언티스트의 현실과 그들이 실무에서 부딛치는 어려움을 정리해보았다. 그리고 내가 어떤 방식으로 이를 해결했는지(혹은 해결하려고 노력했는지) 공유하겠다. 데싸를 꿈꾸는 이들에겐 조금 현실적인 내용일 수 있다. 데이터 직군 취업준비생 혹은 데싸를 채용하려고 하는 인사 담당자들이 참고하면 도움이 될 것 같다.


(저의 경험으로부터 나온 지극히 개인적인 의견일 수 있습니다! 여러분의 생각과 의견도 많이 공유해주세요! 저는 토론을 사랑합니다~)




의사결정권을 가지고 싶지만 그렇지 못하는 데싸

의사결정.. 어디로 가야 할까

데이터 사이언티스트는 데이터를 분석해 인사이트를 뽑아내고 기업의 의사결정에 도움을 주는 사람이다. 즉 “분석”을 통한 “의사결정 서포터”이다. 그러므로 데싸가 의사결정 과정에 관여하는 것이 상식적이고 이상적이다. 그렇지 않다면 그들의 분석 결과는 힘없는 주장에 불과할 것이다.


그러나 현재 국내 대다수 기업은 의사결정권자가 기획자 및 임원으로 한정되어 있다. 그렇기 때문에 데싸들이 자신의 의견을 적극적으로 주장하고 설득할 기회가 없다. 기획자 및 임원들과의 긴밀한 협업을 통해 자신의 분석 결과를 꾸준히 표현해야 하는데, 현실적으로 그러기가 힘들다. 대부분의 기업에서 데이터 분석 결과는 영향력이 적다. 참고자료로 활용되면 다행일 정도로...


분석을 통해 비즈니스를 움직일 거라고 꿈꾸던 나에게 이 사실은 큰 무력감을 주었다.


때문에 나는 어떻게든 의사결정에 개입하고 영향을 주려고 노력했다. 이를 위해 내가 고군분투하며 얻은 팁은 아래와 같다.


1. 듣지 않는다면 세뇌시켜라!

자신의 분석 결과물을 공유하면 처음엔 대다수가 무관심할 것이다. 이유는 간단하다. 각자의 업무만으로도 바쁘기 때문이다. 그래서 나는 집요하면서도 무식한 방법으로 어그로를 끌었다. 쉬는 시간에도, 밥을 먹으면서도, 전화를 할 때도, 미팅을 가는 길에도 계속 틈 날 때마다 "oo님, 내부 데이터 보니까 이러이러하던데, 어떻게 생각하나요?"라고 말하며 나의 인사이트를 은근슬쩍 세뇌시켰다. 나는 공식적인 회의에서 한 번 이런 말을 꺼내는 것보다, 비공식적인 자리에서도 집요하게 여러 번 말하는 것이 마음을 흔드는데 훨씬 효과적이란 사실을 깨달았다.


2. 끊임없이 실험하라!

기존의 데이터만 가지고는 좋은 인사이트가 나오지 않을 가능성이 높다. 분석하더라도 결과물이 너무 당연해 임팩트가 떨어진다. 그렇다면 실험을 통해 기존과는 다른 양상의 데이터를 생성해내고, 그것을 분석하는 것이 좋다. 여기서 실험이라는 것은 A/B 테스트 뿐만 아니라 기획 단에서의 큼직큼직한 실험도 포함된다. 예를 들어 교육 사업을 한다고 하면 동기부여 방법론을 바꾸어서 수강생의 반응 변화를 살펴본다거나, 강의 방식을 바꾸어 만족도를 조사해보거나 하는 식이다. 이렇게 기존의 데이터만 수동적으로 분석하기보단, 다양한 실험을 통해 비교군을 만들어 분석하면 훨씬 좋은 인사이트를 추출할 수 있다.


3. 가장 간지러운 부분을 긁어라!

모든 비즈니스에는 강점과 약점이 존재한다. 강점을 분석하고 그에 대한 인사이트를 공유해봤자 임팩트가 떨어진다. 우리 회사가 취약한 요소를 집중적으로 공략해야 한다. 그렇다면 조그마한 인사이트라 하더라도 사람들이 관심 있게 볼 가능성이 높다.



물론 내가 입사한 회사는 규모가 작은 스타트업이어서 비교적 수월했지만, 큰 회사에서도 팀 단위로 움직이기 때문에 위의 팁이 유효하다고 생각한다.



1% 향상했다고 아무도 칭찬해주지 않는다.

모델링을 할 때 의사결정권자들의 현실적인 반응

캐글(머신러닝 대회 플랫폼)에서는 모델의 정확도를 1%만 향상시켜도 대회 등수가 어마어마하게 바뀐다. 그렇기 때문에 캐글에 참가하는 많은 사람들은 이 1%를 올리기 위해 엄청난 노력을 한다. 모델을 여러 개 만들어서 앙상블과 같은 복잡한 방법을 사용하고, 파라미터 튜닝도 하드하게 한다. 그러나 실무에선 어떨까? 실제로 캐글에서 하는 것처럼 1%를 위해 많은 노력을 들일까? 나는 실무 머신러닝 프로젝트를 하면서 그렇지 않다는 사실을 알게 되었다.


단도직입적으로 이야기하자면 복잡한 모델을 사용했을 때의 정확도 상승이 비즈니스적으로 유의미하지 않은 경우가 많다. 오히려 1%를 위해 모델 복잡도를 높였을 때 inference time(모델을 활용해 예측을 진행하는데 걸리는 시간)과 용량 증가로 인해 비즈니스 측면에서 손해인 경우를 종종 보았다. 정확도는 중요하다. 하지만 실무에서는 정확도를 높이면 모델 복잡도 증가라는 tradeoff가 발생한다는 사실을 데싸는 인지해야 한다.


내가 진행했던 프로젝트 경험을 예로 들겠다. 해당 프로젝트에서 나는 어떤 대상을 예측하기 위해 기본적인 랜덤포레스트로 베이스라인 모델을 짰고 정확도가 83% 정도 나왔다. 이후에 난 모델 성능을 높이기 위해 xgboost, catboost, lightgbm 등등 다양하고 복잡한 모델을 만들어 파라미터 튜닝을 하고 앙상블을 진행했다. 그 결과 정확도가 87% 정도가 되었다. 해당 회사의 임원진 앞에서 위의 내용을 가지고 성과 발표를 하는데 한 분이 이렇게 이야기했다.


“저렇게 복잡한 모델이 기본 모델보다 성능이 고작 4%밖에 향상이 안된다면 그냥 기본 모델을 활용하는 게 나을 거 같은데요?


난 위의 말이 의사결정권자의 사고를 보여주는 명언이라고 생각한다. 이후에 난 모델의 성능만 고려하기보단 모델을 통해 회사가 얻을 비즈니스적 이득을 종합적으로 고려해 프로젝트의 방향성을 설정했다. 결국 해당 프로젝트에선 성능이 가장 좋은 모델을 사용하지 않았고, 대부분의 시간을 데이터 정제와 대시보드 제작에 집중했다.


※ 나는 여전히 캐글을 사랑하고 그곳에서 배운 많은 것들을 소중하게 생각한다. 다만 위의 글에서 나는 모델의 정확도가 비즈니스적인 가치을 완벽히 반영하진 못한다는 주장을 하는 것이다.



비즈니스의 현실

기술이 아니라 돈으로 이야기해야 한다.

데이터 사이언티스트는 의사결정 서포터인 만큼 비즈니스를 잘 이해하고 있어야 한다. 만약 데이터 사이언티스트가 비즈니스적인 이해도가 없다면, 개발자도 아니고 기획자도 아닌 낙동강 오리알이 될 수 있다.


때문에 분석 결과를 내더라도 그것이 어떤 비즈니스 가치를 지니는지 증명해야 한다. 데싸가 설득해야 하는 기획자와 임원들은 기술에 대해서는 전혀 관심이 없다. 복잡한 AI 모델을 사용하든 고급적인 통계 지식을 활용하든 돈만 벌면 된다.


비즈니스를 가장 직관적으로 표현하는 지표는 매출이다. 하지만 난 매출을 이용해 비즈니스 가치를 수치화하는 데에 어려움을 겪었다. 왜냐하면 우리 회사의 BM 특성상 당장 큰 매출을 낼 수 있는 구조가 아니었기 때문이다(대다수의 스타트업이 그러하듯). 때문에 난 매출이 아닌 다른 방법으로 비즈니스 가치를 수치화해야 했다.


결론적으로 난 서비스적인 관점에 초점을 맞추었다. 즉, 고객에게 얼만큼 양질의 서비스를 제공했는지를 수치화시키려 노력했다. 대표적인 예로는 이탈률과 같은 웹 데이터였는데, 나는 이를 내부 CRM 데이터와 결합된 형태로 우리의 비즈니스에 맞게 변형해서 KPI로 지정했다.


경험상 많은 데싸들은 자사의 비즈니스를 매출 혹은 서비스 관점에서 파악하는데 실패한다. 대부분이 팬시한 인공지능 기술에 대해서는 큰 관심을 가지면서 비즈니스를 이해하기 위해선 많은 노력을 하지 않는 것 같다. 데이터 사이언티스트가 되고 싶은 분들께 전한다. 장담컨데, 지금 공부하고 있는 인공지능이나 머신러닝 기술보다 비즈니스에 대한 이해도를 높이는 것이 100배 1000배는 더 중요할 것이다.




개발에 대한 높은 의존도

데싸와 개발자의 입장 차이

사내에 분석할 수 있는 데이터가 없다면 아무리 좋은 데이터 사이언티스트도 쓸모없을 것이다. 그만큼 데싸가 좋은 성과를 내기 위해선 데이터가 중요하다. 문제는 데이터 적재, 추출, 관리 업무는 개발자의 영역이다. 때문에 데이터 사이언티스트의 퍼포먼스를 위해서 개발자의 역할이 매우 중요하다.


그러나 개발자는 데이터 사이언티스트에게 비협조적일 가능성이 높다. 그 이유를 알기 위해선 데이터 사이언티스트와 개발자의 입장 차이를 이해하는 것이 중요하다.


데이터 사이언티스트는 인사이트를 발굴해 기획이나 의사결정에 반영해야 하므로 주도적으로 분석하고 주장해야 한다. 때문에 많은 경우 진취적인 성향이 강하다.
개발자는 시스템을 개발하고, 운영해야 하므로 시스템 안정성을 중요시한다.


결론적으로 데이터 사이언티스트는 퍼포먼스를 위해 다양한 시도를 해야 하고, 이를 위해 개발자의 도움이 필요하다. 그러나 개발자는 이런 시도들이 시스템 안정성을 저해한다고 판단하고 아니꼽게 받아들일 수 있다. 이런 상황에서 데싸는 개발자를 설득해야 한다.


예전에 마케팅 효과 분석을 위해 개발자에게 새로운 CRM 데이터를 쌓자고 제안한 적이 있다. 개발자는 시스템 안정성과 재사용성의 파괴라는 이유로 이 제안을 거절했다. 개발자를 설득하기 위해 난 해당 행위에 대한 명분과 정당성을 지속적으로 제시해야 했다. 하지만 이 작업은 매우 어려웠다. “데이터 분석을 통해 인사이트를 뽑아낼 거예요!” 정도의 불확실한 성과 예측으로는 해내기가 힘든 일이었다.


이 외에도 AB 테스팅을 위한 개발 시스템 구축, GA 데이터와의 연결 등의 이슈로 개발자를 설득하는 힘든 과정을 거쳤다.



정리하자면...


데이터 사이언티스트에겐 다양한 능력이 필요하다. 명확한 이해를 위해 개발자와 데이터 사이언티스트를 다시 한 번 비교해보겠다.


개발자는 좋은 기술력만 가지고 있어도 존재 가치가 높다. 기술력을 통해 제품을 제작할 수 있다는 사실 하나만으로 비즈니스에 도움을 주기 때문이다(물론 커뮤니케이션 스킬과 같은 정성적 능력도 무시할 수 없지만).


그러나 데이터 사이언티스트는 기술만 가지고 있으면 존재 가치가 떨어진다. 기술력을 제품 제작 뿐 아니라 기획, 최적화, 의사결정 등 다양한 분야에 활용해 비즈니스 성과를 보여줘야 하기 때문이다. 그러므로 데싸는 자신이 보유하고 있는 기술을 통해 어떤 식으로 돈을 벌지 지속적으로 고민해야 한다.


데이터 사이언티스트를 희망하는 학생 분들은 위의 사실을 충분히 숙지하고 적성에 맞는지 진지하게 고민해볼 필요가 있을 것 같다. 많은 사람들이 빅데이터가 뜬다는 여론에 휩쓸려 데이터 사이언티스트에 대해 제대로 이해하지 못한 채 공부하는 것 같다.


자신의 미래 직업 후보군인 만큼 좀 더 객관적으로 현실을 바라보고, 신중하게 결정하면 좋겠다는 말을 하며 글을 마무리한다.


(댓글과 하트는 글쓴이에게 큰 도움이 됩니다!!)




+ 데이터 사이언티스트 취업을 위한 포트폴리오 강의 

데이터 사이언티스트를 꿈꾸며 데이터 분석에 입문하는 사람들이 하는 고민과 걱정은 여러 가지가 있겠지만 가장 큰 질문은 '과연 취업을 할 수 있을까?'일 것이다. 


공부를 하다 보면 문과생들은 수학적 능력의 한계에 부딪히게 되고, 컴퓨터를 전공했거나 개발을 해보았던 경험 탓에 자신 있게 뛰어들었던 사람들도 생각과 다른 데이터 분석에 현타를 겪은 경험들이 있을 것이다. 


그리고, 내가 열심히 공부한 내용들과 분석 능력들을 어떻게 정리해서 어떤 방식으로 보여줘야 하는지, 무엇을 어필해야 인사담당자들에게 매력적으로 보일 수 있는지... 


단순히 언어와 분석 기법을 가르쳐주는 것은 유튜브에도 널렸지만 취업을 위해서 어떻게 해야 하는지를 알려주는 곳은 당최 찾을 수가 없는 것이 현실이다. 


그리고 실무경험, 실무에서 분석을 해 본 경험이 있다면 분명 엄청 큰 강점이 될 것이다. 하지만 데이터분석가로서 경험조차 없는데 실무경험은 어디서 하라는걸까?


취준생들도 답답하지만 채용을 원하는 인사담당자들 또한 답답하기는 마찬가지라는 것은 알고 있는가?


"대회와 공모전을 통해 주어진 데이터와 기법으로 돌려본 것이 전부인 지원자들은 전혀 매력적이지 않은데 대부분이 그러하다. 자신이 주도적으로 호기심을 갖고 어떤 데이터를 분석하고 싶었는지, 왜 그것을 분석하고 싶었는지, 어떻게 접근하고 어떤 결론을 도출했는지를 보여줄 수 있는 지원자가 훨씬 매력적이다."


예를들어, 나는 축구를 좋아했고 특정 팀의 선수들을 분석하여 어떤 선수가 성적을 못내고 있는지, 어떤 선수를 영입해야 팀이 더 좋은 성적을 낼 수 있는지 등을 직접 점수 기준을 만들어 데이터로 분석을 했고, 내 분석 결과는 어디서든 좋은 평가를 받았다. 


주도적으로 데이터를 선정하여 기준을 만들고 어떤 방식으로 접근해서 결론을 도출했는지를 잘 보여주었고, 그것이 좋은 평가를 받은 이유였다.


그럼, 지금까지의 질문과 고민들을 정리해보겠다.


Q1. 데이터분석가로 취업을 하기 위해서, 포트폴리오를 어떻게 만들어야 할까?

Q2. 주어진 데이터만 받아서 돌려보는 것이 아닌 주도적인 데이터 분석은 어떻게 해야할까?

Q3. 실무경험을 대체할 수 있는 프로젝트는 어떻게 할 수 있을까? 


위의 질문들에 공감이 되고, 도움을 간절히 바라고 있다면 아래의 강의를 추천한다. 

우연한 기회에 제작하게 된 온라인 강의를 통해 데이터 사이언티스트를 꿈꾸는 사람들에게 현실적인 도움을 줄 수 있는 내용을 담아내었고, 정말 도움이 될 것이라 자신한다. 위의 질문들에도 확실한 답을 줄 수 있을 것이다. 

입문자도 괜찮다. 파이썬 기초부터 머신러닝 그리고 포트폴리오까지 3인의 데이터 사이언티스트가 차근차근 따라올 수 있도록 자세하게 준비했다.


많은 사람들이 강의를 통해 자신감을 얻고, 나 또한 피드백을 통해 끝까지 도움을 줄 수 있기를 희망한다. 

bit.ly/2ZPZE5p


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari