취준생 K의 직무스터디 | 2편. 데이터 사이언티스트
'어떻게 취업해야 하지?' 고민하는 취준생들에게 많은 이들이 직무부터 정하기를 조언합니다. 하지만 세상에는 다양한 직무가 있고, 그중 어떤 것이 나와 꼭 맞을지 알아내기란 쉽지 않죠. 인터넷 속 짤막한 정보들에 의지해 직무 탐색을 이어가던 취준생 K, 이제는 카카오뱅크 곳곳을 누비며 직접 직무를 탐색해 보기로 합니다. 나와 꼭 맞는 하나의 직무를 찾아가는 여정, <취준생 K의 직무스터디>에서 카카오뱅크 현직자와의 대화를 통해 보다 상세하고 현실적인 직무 이야기를 들어보세요.
이번 시간에 알아볼 직무는 데이터 사이언티스트입니다.
빅데이터 활용이 점차 확대되고 데이터 기반 의사 결정이 더욱 중요해지며 데이터 관련 직무에 대한 관심도 높아지고 있는데요. 그중에서도 데이터 기반으로 비즈니스 문제를 해결하는 데이터 사이언티스트 직무에 대해 탐색해 보고 싶었어요.
그래서 두 번째 스터디 노트에는 카카오뱅크 데이터 사이언티스트 두 분과 나눈 인터뷰를 담았습니다.
Study Note
Section 1. 커리어의 시작
◼ 데이터 사이언티스트가 된 계기와 과정
Section 2. 데이터 사이언티스트는 어떤 일을 하나요?
◼ 데이터 사이언티스트의 업무 프로세스, 역할 설명
◼ 데이터 사이언티스트에게 필요한 능력은? (코딩? 통계학?)
◼ 데이터 사이언스 직무의 어려움과 매력
Section 3. 카카오뱅크 데이터 사이언티스트, 어떻게 일하나요?
◼ 카카오뱅크에 오게 된 계기 (+ 작은 면접 꿀팁!)
◼ 금융 도메인의 특징
◼ 카카오뱅크 데이터 사이언스 팀의 프로젝트 예시
Section 4. 데이터 사이언티스트를 꿈꾸는 사람들을 위한 질문집
◼ 공모전, 자격증, 대학원에 대한 생각
◼ 정량적인 '스펙' 외에 어떤 역량을 강조하면 좋을지?
취준생 K (이하 K): 인터뷰 참여해 주셔서 감사드립니다. 먼저 간단히 자기소개 부탁드려요!
Thomas. 안녕하세요, 토마스입니다. 카카오뱅크 AI데이터사이언스팀에서 데이터를 기반으로 사업 성과를 분석하고, 상품 추천 및 이상거래 탐지 알고리즘을 개발하는 등의 업무를 담당하고 있습니다.
Maeve. 안녕하세요! AI데이터사이언스팀 메이브입니다. 데이터 분석과 이를 기반으로 하는 모델링 업무를 맡고 있습니다.
K: 두 분께서 데이터 사이언스에 관심을 갖게 된 계기와, 커리어 시작 과정을 소개해 주세요.
Thomas. 저는 한창 진로를 고민하던 고3 시기에 <경영학 콘서트>라는 책을 읽고 '숫자에 기반한 의사결정'에 매료되어 데이터 분석에 관심을 갖기 시작했어요. 그래서 대학교에서는 통계학을 공부했는데요. 데이터 분석 관련 동아리 친구들과 스터디도 하고 공모전에도 참여하면서 점점 데이터 사이언티스트라는 직무에 확신이 생겼던 것 같아요. 이후 첫 직장에서는 기업 내 컨설팅을 담당하는 조직에서 데이터 사이언티스트로 일했어요. 여러 분야의 비즈니스 문제를 데이터 분석과 알고리즘으로 풀어보며 다양한 경험을 쌓았습니다.
Maeve. 저는 통계학과에 재학하면서 자연스럽게 데이터 사이언티스트 직무를 접했어요. 학부 시절에 다른 수업보다 학과 수업을 더 좋아했는데요. 계산기를 두드리고, 가설을 검정하며 결과를 도출하는 데 재미를 느껴 큰 고민 없이 데이터 사이언스 쪽으로 취업 준비를 시작했습니다. 코딩 테스트 공부에 매진하고, 여러 사이드 프로젝트에도 참여했죠. 그러다 카카오뱅크에서 테크 직무 채용연계형 인턴을 뽑는 공고에 지원하고, 감사하게도 합격해 2022년도에 카카오뱅크에 입사했습니다. 저의 첫 커리어는 지금 이 순간, 이 지금입니다. (웃음)
K: 이제 본격적으로 데이터 사이언티스트의 업무에 대해 여쭤볼게요. 먼저 데이터 사이언티스트가 어떤 업무를 하는지 간단히 소개해 주세요!
Maeve. 회사와 팀에 따라 데이터 사이언티스트의 업무 범위는 조금씩 달라질 수 있어요. 포괄적으로는 정의한 문제를 해결하기 위해 관련된 데이터를 수집하고, 분석 친화적으로 정제 작업을 한 후에, 데이터를 다방면으로 분석하고 인사이트를 도출하는 사람들이라고 말할 수 있을 것 같아요. 또 그 과정에서 문제 해결에 도움을 줄 수 있는 '모델'을 개발하기도 해요. 과거 데이터를 통해 미래의 결과를 예측하는 '예측 모델'도 저희가 개발하는 모델 중 하나랍니다.
K: 업무 범위가 굉장히 넓은 것 같네요. 비즈니스 문제를 정의하는 것부터 데이터 정제와 분석, 인사이트 도출과 모델링 과정까지 모두 데이터 사이언티스트의 역할이라고 보면 될까요?
Thomas. 문제 인식이나 정의는 저희가 먼저 할 때도 있지만 일반적으로 현업 실무자분들이 하세요. 그 문제를 데이터 기반으로 풀어낼 수 있을지 고민하는 것이 저희 데이터 사이언티스트의 주 역할이죠. 데이터 분석 결과를 두고 다른 팀의 실무진분들과 논의하면서 해결책을 도출하기도 하고요.
일반적으로 데이터 사이언티스트의 업무는 데이터를 추출하고, 정제하고, 분석하는 작업뿐 아니라, 분석한 데이터를 활용해 변수에 따라 예측을 할 수 있는 알고리즘이나 ML(Machine Learning) 모델을 만드는 작업까지 포함해요. 여기에 더해 비즈니스 문제를 해결하는 일까지 하니 단순 데이터 분석 작업 이상으로 업무 범위가 넓죠. 저희 업무가 여러 경계를 넘나드는 측면이 있습니다.
K: 그럼 실제 데이터 사이언티스트가 일하는 프로세스를 자세히 설명해 주실 수 있을까요?
Thomas. 예를 들어, 현업에서 '서비스를 사용하는 활성 고객의 수가 줄어들고 있다'라는 비즈니스 문제를 파악했다고 생각해 볼게요. 그렇다면 이탈률을 낮추거나 Win-Back 비율*을 높이는 게 핵심 지표가 되겠죠. 이렇게 목표와 지표가 설정되면 저희 데이터 사이언티스트들은 회사 내에 가용할 수 있는 데이터가 있는지 살펴보고, 그 데이터를 사용할 수 있게 정리하는 전처리 과정을 거쳐요.
그 뒤에는 문제 상황을 해결할 단서를 수집하는데요. 고객 이탈 문제의 경우에는 타깃 마케팅을 먼저 시도해 보기도 해요. 이탈한 고객들의 패턴과 그렇지 않은 고객들의 패턴을 비교한 뒤에, 이탈할 가능성이 높은 고객들에게 마케팅 커뮤니케이션을 시도해 보는 거죠. 그 과정에서 수집한 단서를 바탕으로 가설을 세워 '피처'(feature)**라고 부르는 가설을 검증하기 위한 변수를 만들고, 또 그 변수를 가지고 데이터를 가공해서 이탈 징후를 예측하는 모델을 만들어요. 이런 과정에 데이터 사이언티스트가 전반적으로 참여하기도 하고, 일부에만 참여하기도 합니다.
*Win-Back 비율: 고객이 일정 기간 동안 이탈한 후 다시 해당 상품/서비스를 이용한 비율
**피처(Feature): 머신러닝이나 데이터 분석에 사용되는 변수. 피처는 데이터의 특성을 나타내며, 이러한 특성들을 기반으로 데이터를 집계하거나, 머신러닝 모델이 패턴을 학습하고, 예측이나 분류를 수행하는 데에 활용된다.
출처: The Team Data Science Process lifecycle 내 이미지 재가공
K: 우와, 그렇다면 원본 소스(앱, 웹 등)에서 날것의 데이터를 끌어오는 파이프라인 구축부터, 분석과 모델링까지 모두 데이터 사이언티스트의 역할인가요? 데이터 엔지니어와 데이터 사이언티스트의 역할이 어떻게 구분되는지도 궁금해요.
Thomas. 회사나 도메인별로 각자의 역할이 달라서 일반화하기는 어렵지만, 데이터 소스에서 Raw Data를 끌어오는 '데이터 파이프라인'과 파이프라인을 통해 가져온 데이터를 저장해 두는 '데이터 레이크', '데이터 웨어하우스'나 정제된 데이터를 모아둔 '데이터 마트'의 구축 등은 주로 데이터 엔지니어분들께서 담당해 주세요. 저희가 모델링 작업을 거쳐 비즈니스에 적용될 로직을 만들면, 그걸 시스템에 반영하는 역할을 하시기도 해요. 엔지니어링적인 부분의 비중을 더 크게 갖는 분들이 데이터 엔지니어라고 볼 수 있어요.
Maeve. 데이터 엔지니어분들이 저희가 데이터를 분석하고 실험할 수 있는 기본적인 환경을 만들어 주신다고 볼 수도 있을 것 같아요. 데이터 엔지니어가 구축한 환경 속에서 저희가 데이터를 정제하고 구성하는 과정을 진행하는 거죠.
출처: Data Engineering Concepts, Processes, and Tools 내 이미지 재가공
K: 그럼 데이터 사이언티스트에게는 어느 정도의 코딩 능력이 필요한가요?
Maeve. 어느 정도냐고 물으신다면, 잘하면 잘할수록 좋은 게 사실이죠. (웃음) 현업에 와서 배우는 것도 많아요. 저도 '이 실력으로 될까?'라는 걱정을 가지고 들어와서 계속 발전했던 것 같아요. 사실 저희는 코드로 엔지니어 분들과 소통하거든요. 뭔가 에러가 났거나 더 필요한 부분이 있을 때 이전에 있던 코드를 엔지니어와 같이 확인할 때가 많아요. 코딩 실력은 사실상 커뮤니케이션을 위한 능력이기도 한 거죠.
K: 코드가 커뮤니케이션의 도구라니, 너무 멋진데요! 그렇다면 통계학적인 역량은 얼마나 필요한지도 궁금해요. 단순 통계 모델을 넘어, 고급 딥러닝이나 머신러닝 모델도 많이 사용하게 되나요?
Thomas. 모델은 다양하게 쓰이는 것 같아요. 처음부터 복잡한 딥러닝 모델을 사용할 때도 있지만, 좀 더 간단한 통계 모델로 타당성(feasibility)이나 예측 성능을 확인해 본 후에 복잡한 모델로 넘어가기도 해요. 최근 나오는 생성형 모델은 통계학적인 내용이 좀 더 많이 나오는 것 같고요. 기본적인 예측 분류 모델, 군집 분석 같은 것들에 비해서는 더 심화된 확률통계와 선형대수 개념이 필요한 것 같습니다.
Maeve. 제 모델을 설명하는 데 있어 여러 가지 통계학적 분석 방법과 모델들이 사용되다 보니, 모델의 설득력을 높이기 위해 통계학적인 역량이 꼭 필요한 것 같아요.
K: 데이터 사이언티스트에게 굉장히 다양한 역량이 요구되는 것 같은데, 이 중 핵심적인 능력이 무엇이라고 생각하시나요?
Thomas. 기술적인 스킬도 빼놓을 수 없겠지만, 개인적으로 빠른 학습력과 커뮤니케이션 역량이 더 중요하다고 생각해요. 매 업무나 프로젝트마다 마주하는 문제와 맥락이 다르고, 그에 맞는 배경지식이나 기술도 다양하기 때문이죠. 요즘 AI나 머신러닝 분야의 발전 속도나 트렌드 변화가 너무 빠르기도 하고요. 개발한 알고리즘이 실제 시스템에 적용되거나 비즈니스에 활용되려면 유관 부서와의 커뮤니케이션이 중요한 것 같아요.
Maeve. 사실 저는 취업 준비를 할 때 '코딩을 이 정도로 해야 하나?'라고 생각한 적도 있는데요. 코딩 역량은 개발 영역 유관 부서와의 커뮤니케이션을 위해서, 또 개발한 모델이 어떻게 운영될 것인지 정의하는 데 있어서 꼭 필요하다고 느꼈어요. 데이터 분석 업무에서도 빅데이터를 효율적으로 다루고 의도한 내용을 명확하게 도출하는 데 코딩 역량이 필수적입니다.
K: 코딩 역량과 통계학 역량, 커뮤니케이션 능력까지… 데이터 사이언티스트는 굉장히 다방면으로 능력을 갖춰야 하는 것 같네요.
Thomas. 데이터 사이언티스트는 확실히 여러 분야를 아우르면서도 깊이가 얕아서는 안 되거든요. 난도가 꽤 높은 직무인 것 같아요. 그래서 힘들지만, 데이터를 기반으로 제안한 분석 결과나 학습한 모델이 실제 비즈니스에 반영될 때 자기효능감과 보람을 느끼기도 해요.
K: 난도가 있는 직무인 만큼, 처음 데이터 사이언티스트가 되셨을 때 어려움은 없으셨나요?
Thomas. 공부했던 내용과 현실이 다른 점이 많았어요. 우선, 분석이나 모델링에 필요한 데이터를 준비하기가 어려웠어요. 전통적인 기업들은 대부분 주된 비즈니스가 따로 있기 때문에, 데이터 관리나 구축을 투자가 아닌 비용으로 바라보곤 하거든요. 그래서 저희에게 필요한 데이터를 찾고 정제하는 과정이 수업이나 책에서 배웠던 것보다 훨씬 어려웠죠.
또 여러 과정을 거쳐서 좋은 모델을 만들었다고 해도, 실제로 사용하기까지 다양한 제약이 있어요. 우선 모델의 필요성이나 중요성을 모델의 실 사용자에게 설득하는 과정이 필요하죠. 또 학교에서는 알고리즘을 만드는 데 집중하고 실제로 구동하는 비용까지는 잘 고려하지 않는데, 회사에서는 알고리즘의 성능뿐 아니라 현실적인 부분까지 생각해야 한다는 점도 큰 차이점이에요.
K: 확실히 책 속 예제와 실무는 다른 것 같네요. 여러 어려움에도 불구하고 계속하게 만드는 이 직무만의 매력이 있나요?
Thomas. 저는 데이터, 숫자를 기반으로 다른 사람들과 소통할 때 기분이 좋아요. 숫자에 기반해 설득력 있게 제 판단을 공유할 수 있다는 점이 좋구요. 또 모델이 실제 서비스에 반영되고, 제가 만든 코드가 서버에서 작동하며 비즈니스 임팩트(Business Impact)를 만들어내고 있다는 걸 느낄 때도 되게 재밌고 보람 있어요.
Maeve. 저도 비슷한데요, 이에 더해 업무를 할 때마다 좀 똑똑해지고 있는 느낌이 들어요. 제가 모델을 학습시키기도 하지만, 저도 학습하면서 성장하고 있는 느낌?
Thomas. 맞아요, 모델이나 알고리즘도 계속 등장하고, 툴도 계속 새로 나오니까요. 끊임없이 공부해야 한다는 점이 어렵기도 하지만, 새로운 툴이나 알고리즘을 적용하고 결과가 나왔을 때는 또 재밌기도 해요.
Maeve. 맞아요. 그런 부분에서 재미를 느껴요.
K: 데이터 사이언티스트가 어떤 일을 하는지 감을 잡았으니, 이제 카카오뱅크의 데이터 사이언티스트를 좀 더 알아볼게요. 두 분은 각각 카카오뱅크에 어떻게 오게 되셨나요?
Maeve. 카카오뱅크가 저의 첫 직장인데요. 대학 졸업 전에 코딩과 프로젝트 경험이 더 필요하다고 느껴서 사기업에서 진행하는 국비지원 프로그램에 참여했어요. 그러던 와중 카카오뱅크에서 테크 직무 채용연계형 인턴을 모집하는 걸 알게 됐고, 감사하게도 합격해 지금까지 다니고 있습니다.
K: 우와, 취준생의 로망을 이루신 것 같은데요! 카카오뱅크 합격의 비결이 있을까요?
Maeve. 비결이라기보다는, 일단 제가 참여했던 프로젝트들을 포트폴리오로 만들어 보여드렸던 게 긍정적으로 작용했던 것 같아요.
그리고 저는 취준생으로서 가장 어필할 수 있는 부분은 '내가 이 회사에 얼마나 관심이 많은가'라고 생각해요. 면접 때 "여기 와서 어떤 분석을 하고 싶나요, 그리고 그 분석을 위해 카카오뱅크에서 어떤 데이터를 다루게 될 것 같나요?"라는 질문을 받았는데요. 이 회사에 대해 자세히 알아보고, 회사에 대한 이해를 바탕으로 이곳에 어떤 데이터가 있을지, 그걸 통해 어떤 분석을 해볼 수 있을지 생각해 보면 좋을 것 같습니다.
Thomas. 맞아요. 그 고민의 깊이가 있어야 들어와서도 데이터를 더 적극적으로 탐색하고, 어떻게 다뤄야 할지 생각할 수 있으니까요.
K: 토마스는 다양한 도메인을 다루다가 카카오뱅크에 합류하셨다고 들었어요. 카카오뱅크로 오게 되신 계기가 있으신가요?
Thomas. 저는 인하우스 컨설턴트로 일하다가 카카오뱅크에 왔습니다. 컨설팅 업무로 커리어를 시작했을 때 장점은 다양한 도메인에서 여러 문제 상황을 경험할 수 있다는 건데요. 한편으로는 제가 도출한 결과가 적용되는 것까지는 보지 못하는 경우가 많아 아쉬웠어요. 프로젝트의 결과를 확인하고, 모니터링하고, 모델을 유지·보수하면서 제가 기여한 부분의 성과를 확인하고 싶다는 생각이 있었습니다. 경험해 보지 못한 금융 도메인이 궁금하기도 했고요.
K: 금융 도메인을 경험해 보니 어떠셨나요? 금융 도메인만의 특징이 있는지 궁금해요.
Thomas. 금융 도메인은 아무래도 다양한 거래 이력이 명확하게 남아 있다는 점이 장점인 것 같아요. 한편으로는 그 거래의 종류가 너무 다양하다 보니 엮는 것이 어렵기도 하지만요.
Maeve. 흔히 금융 도메인의 데이터가 방대하다고 하는데, 그 이유는 종류가 많아서인 것 같아요. 카드 거래부터 여신, 수신, 다양한 전자결제까지, 범위가 넓다 보니까 어렵다는 인식이 생긴 것 같아요. 대신 각각의 데이터별로 기준이 확실해서 좀 더 깔끔한 느낌은 있죠.
K: 카카오뱅크에서는 주로 어떤 데이터를 다루시는지 더 자세히 설명해 주세요!
Maeve. 카카오뱅크에는 다양한 상품이 있는 만큼 여러 가지 데이터 분석이 이뤄집니다. 입출금통장에서는 어떤 이체가 얼마나 발생했고, 추이가 어떤지, 체크카드로 어떤 업종에서 많은 거래가 일어났는지 등등… 금융거래 데이터를 다방면으로 분석하죠.
Thomas. 뿐만 아니라, 앱에서 어떤 행동이 일어나는지 파악할 수 있는 앱 로그 데이터도 활용해요. 특정 화면에서 얼마나 머물렀는지, 무엇을 클릭했는지, 메뉴 위치에 따라 클릭수가 어떻게 다른지 등을 파악합니다.
K: 개발하신 모델이나 진행하신 프로젝트에 대해서도 여쭙고 싶어요. 카카오뱅크에서 수행하셨던 여러 과제 중 어떤 것이 가장 기억에 남으시나요?
Thomas. 저는 '추천 모델'을 소개하고 싶어요. 메이브도 함께 했던 프로젝트인데요. 추천 모델은 카카오뱅크에 있는 여러 상품과 서비스 중 개인별로 어떤 상품/서비스를 좀 더 선호할지 추정하는 알고리즘이에요. 앱이라는 한정된 지면 안에서 어떤 상품/서비스의 순위를 높여서 보여줄까를 고민하며 문제를 푸는 게 추천 모델이라고 보시면 될 것 같아요. 저희는 '상품' 탭과 '전체' 탭을 맡아서 작업했어요.
K: 오오, 그럼 제 화면에 뜨는 상품 순서는 케이팝을 좋아하고, 저축에 약한 20대 여성인 제 특성이 반영된 결과인 건가요?
Maeve. 그렇다고 할 수 있죠. 모델에 따른 개인화의 결과라고 보시면 될 것 같아요.
K: 정말 신기하네요! 혹시 또 기억에 남는 프로젝트가 있을까요?
Maeve. 제 첫 프로젝트였던 가맹점 업종 분류 모델도 기억에 남아요. 모델링을 하거나 데이터 분석을 하려면 필요한 데이터를 잘 마련하는 게 우선인데요. 양질의 데이터 작업을 위한 데이터 분류를 돕기 위해 개발한 모델이었어요. 입사해서 처음 투입된 프로젝트이기도 하고, 외부 고객을 위한 모델이 아니라 내부적으로 데이터를 유지하고 보수하기 위해 만든 모델이어서 가장 기억에 남아요.
K: 카카오뱅크 데이터 사이언티스트 영입 공고에 있는 '데이터 중심 문화를 확산시킨다'는 목표도 인상적이었는데요. 데이터 중심 문화를 만들기 위해 노력하시는 것이 있다면 소개해 주세요!
Maeve. 정기적으로 '데이터 분석 인사이트 세션'을 진행하고 있어요. 주제를 선정하고, 알맞은 데이터를 분석해 인사이트를 도출하여 현업에 꾸준히 전달하면서 내부 구성원들이 데이터의 중요성과 역할을 이해할 수 있도록 돕고 있습니다.
K: 지금까지 데이터 사이언티스트 직무와 카카오뱅크에서 데이터 사이언티스트가 일하는 방식에 대해 살펴보았으니, 이제부터는 데이터 사이언티스트를 꿈꾸는 사람으로서 궁금한 점들을 좀 더 직접적으로 여쭤볼게요.
Q. 전공 공부부터 여쭤보려고 해요. 두 분에게는 통계학과 전공이라는 공통점이 있는데요. 구체적으로 어떤 분야를 공부하셨는지, 또 데이터 사이언티스트를 꿈꾸는 분들이 어떻게 공부하면 좋을지 조언해 주세요!
Thomas. 직무와 관련된 수업으로는 '통계적 사고', '회귀분석', '데이터 시각화', '데이터 마이닝' 등이 있었어요. 언어와 툴의 경우, 학부 때는 SAS, R을 사용했었고, 회사에 와서 SQL과 Python을 추가로 배웠습니다.
사실 저는 통계학과 후배를 만나면 교수님께서 수업을 R로 하더라도 꼭 Python을 병행해 보라고 합니다. 언제 어떤 기회가 찾아올지 모르기 때문인데요. 제 경험을 말씀드리자면, 대학교 4학년 1학기 때 AI 연구개발 포지션으로 알고리즘 코딩테스트를 볼 기회가 있었는데 언어 선택지에 R이 없었어요. 그때 R 외에 다른 개발 언어는 익숙하지 못해 기회를 놓쳤던 뼈아픈 기억이 있습니다. 그래서 후배들에게는 Python과 SQL을 접해보라고 권하는 편이에요.
Maeve. 저도 직무 관련 수업으로는 '회귀분석', '시계열분석', '실험계획과분산분석', '데이터 마이닝', '기계학습' 등을 수강했어요. 학부 수업 때 SAS와 R을 배우고, 추가로 SQL과 Python을 학습해 도메인과 분석 목적에 따라 좀 더 편리한 툴을 사용하려고 했어요. 지금 트렌드는 또 다를 수 있지만, 제가 취준하던 시기에는 Python 알고리즘뿐만 아니라 SQL로 집계 데이터를 추출하는 문항도 섞어서 출제하는 곳도 많았습니다.
저는 머신러닝을 배울 때 모델링 공부뿐 아니라 실제로 어떻게 서비스되는지 아는 것이 더 중요하다고 생각해요. 공모전 등을 통해서 데이터 수집-정제-분석-모델링-모델 서빙까지, 일련의 과정을 경험해 보면 좋을 것 같습니다. 각 단계에서 적절한 툴이 무엇인지 고민하고 실제로 다뤄보는 것이 회사 업무나 프로세스를 이해하는 데에 큰 도움이 되었거든요.
Q. 공부뿐 아니라 다양한 프로젝트를 통해 경험을 쌓는 것이 중요하군요. 그렇다면 데이터 사이언티스트로서 커리어를 준비하는 사람에게 추천하는 대회나 공모전, 교육이 있을까요?
Maeve. 뭐든 좋죠. 아무래도 취준하며 공부하는 내용과 현업에서 마주하는 문제가 생각보다 많이 다르니, 캐글*이든 해커톤이든 그 간극을 줄이는 데에 도움이 될 것이라고 생각해요. 데이터를 정제하고, 모델을 발전시키고, 결과를 도출해 해석까지 직접 하는 일련의 과정을 학교 공부만으로는 경험하기 어렵다 보니, 캐글을 비롯한 여러 공모전을 통해 조금은 맛볼 수 있지 않나 싶습니다. 그 과정에서 다른 사람들의 생각과 코드를 공유하며 배울 수도 있고요.
*캐글: 기업이나 단체에서 데이터와 해결 과제 및 상금을 등록하면, 개인이나 팀 단위로 문제를 해결하기 위해 도전하는 예측 모델 분석 대회 플랫폼
Q. Google Data Analytics Certificate, SQLD, 빅데이터분석기사 등등… 데이터 분석 관련 자격증이 굉장히 많은 것으로 알고 있는데요, 자격증이 있으면 실무를 수행하는 데에 도움이 될까요?
Thomas. 모든 자격증을 알지는 못하지만, SQL 관련 자격증은 유용한 것 같아요. 업무에서 가장 많이 사용하는 언어인데, 제가 학교 다닐 때는 SQL을 배우거나 써볼 기회가 없었거든요.
Maeve. 필수는 아니라고 생각해요. 다만, 자격증을 하나 취득하더라도 포트폴리오에 한 줄 넣으려는 목적이 아닌, 학습의 동기 부여를 위해 취득한다면 의미가 있을 것 같아요.
Q. 데이터 사이언스를 다루는 대학원 과정이나 특수대학원도 많아지고 있는데, 대학원에서의 데이터 분석 연구와 현업에서의 분석은 어떤 점이 비슷하고 또 다른지 궁금합니다.
Thomas. 저는 학사 졸업 후 바로 취업했어요. 쉽지는 않았습니다. 다른 면접자들은 대학원 논문이나 연구 주제에 대해서 질의응답을 주고받았거든요. 그렇지만 대회나 공모전 등의 포트폴리오와 인턴 경험으로 어떻게든 저의 역량과 의지를 보여드리려고 했던 것 같아요.
개인적으로는 대학원에 대한 아쉬움이 있어서, 지금은 파트타임 석사 과정을 마치고 파트타임 박사 과정을 밟고 있는데요. 학교에서는 연구 문제를 정의하고 새로운 학술적 방법론을 연구한다면, 회사는 비즈니스 임팩트가 중요하다는 점에서 근본적 차이가 있다고 느낍니다. 대학원에 꼭 가야 하는지 물으신다면, 여건이 되면 가도 좋다고 생각해요. 하지만 다른 경험들을 통해 어느 정도 커버하는 것도 가능하다고 말씀드리고 싶습니다.
Q. 다양한 경험을 하는 것만큼 이를 정리하는 것도 중요한 일일 것 같아요. 개인 프로젝트나 공부한 내용을 어떤 방식으로 정리하셨나요?
Thomas. 저는 파워포인트로 포트폴리오를 정리했어요. 그리고 친구들과 진행했던 프로젝트를 웹 애플리케이션 데모로 만들어서 면접 때 보여드리기도 했습니다. 정리할 때는 단순히 '이걸 해서, 이러이러한 데이터를 다뤘고, 성능이 어떻게 나왔다'가 아니라, '이런 문제 때문에 했고, 그래서 우리는 이런 접근 방식을 썼고, 그렇게 했더니 이런 결과가 나왔다'라는 식으로 인과관계가 유기적으로 연결되게 작성하려고 노력했습니다.
Maeve. 저도 비슷한 방식으로 준비했어요. 포트폴리오를 바탕으로 한 면접 질문이 많았던 것 같아요. 특히 '이러한 과정을 통해 무엇을 배웠나'라는 질문이 많았어요.
Q. 데이터 사이언티스트 직무에 지원할 때, 정량적인 스펙 이외에도 어떤 부분을 강조하면 좋을까요?
Thomas. 앞서 말씀드린 것처럼 빠른 학습력과 커뮤니케이션 역량이 필요하고요. 더불어서 데이터 품질에 대한 집착도 중요하다고 생각해요. 사실 데이터를 탐색하고 전처리하는 작업이 업무의 상당 부분을 차지하거든요. 똑같은 작업을 계속 반복하게 될 때도 많고요. 그런 지난한 작업을 끈기 있게 해내면서, 끝내 뭔가를 만들었을 때 보람을 느끼는 사람이라면 데이터 사이언티스트 일을 잘 해낼 수 있을 것이라고 생각해요. 그래서 본인이 직접 풀고 싶은 문제에 맞춰 날것의 데이터를 수집하고 전처리한 경험이 있는 분들이 눈에 띄었습니다.
Maeve. 토마스의 말씀에 동의합니다! 추가적으로, 입사 지원 과정에서는 지원하려는 회사의 상품과 서비스를 살펴보며 그로부터 어떤 데이터가 쌓일지 생각해 보고, 그 데이터를 어떻게 활용하여 무엇을 분석하고 싶은지 고민해 보면 좋을 것 같아요.
Q. 지금까지 데이터 사이언티스트 직무에 대해 다양한 이야기를 나눠보았는데요!
데이터 사이언티스트를 꿈꾸며 공부하고 준비하시는 분들을 위한 마지막 한마디 부탁드립니다.
Maeve. 제 취업 준비 시절을 돌아보면, 저에게 제일 힘들었던 건 코딩 테스트였어요. 컴퓨터공학을 전공하지 않은 상태에서 알고리즘이나 컴퓨터 공학적인 내용을 따로 공부하는 게 쉽지만은 않았거든요. 또 진짜 개발을 잘하는 컴퓨터공학과 친구들이랑 비교도 많이 됐고요. 코딩 테스트나 알고리즘 공부를 하면서 '데이터 보는 사람이 이걸 쓸 일이 있을까?' 하면서도, '그래도 피가 되고 살이 되니 해보자' 다짐했던 기억이 떠오르네요.
어떤 직무든 치열하게 공부하며 준비하고 계신 분들이 있을 텐데요. 좌절하는 마음을 내려두시고, 많이 지치더라도 끈기 있게 도전하셨으면 좋겠습니다.
Thomas. 저도 취업 준비할 때를 돌이켜 보니 힘들었던 날들이 주마등처럼 지나가는데요. 빠르게 합격하는 사람들도 있지만, 오래 걸리는 케이스도 많은 것 같아요. 특히 데이터 사이언티스트 직무는 문이 좁아 경쟁이 더욱 치열한 것 같고요.
그런데 주변 사람들을 보니 조금 오래 걸리더라도 결국 원하는 회사와 포지션으로 취업을 하더라고요. 다만 그 기간을 버티려면, 정말 내가 원하는 직무인지 확인해 보는 과정이 필요한 것 같아요. 공모전이나 사이드 프로젝트 같은 경험을 통해 '이 길이 내 길이다!'라는 생각이 들었다면, 조금 시간이 걸리더라도 도전해 볼 만한 가치가 있지 않을까, 라고 생각합니다.
저희 이야기가 조금이라도 도움이 되셨다면 좋겠습니다. 화이팅!
TMI. 취준생 K는 누구인가?
카카오뱅크에서 체험형 인턴으로 일하고 있는 대학생으로, K는 Kakaobank에서 따왔다.