2024.10.06 기록
회사에 인턴분들이 있는데 다들 데이터분석가가 꿈이라고 하셔서 며칠 전 점심식사를 하며 이야기를 나누었다.
말을 많이 하다 보니 배를 못 채워 모임 후에 따로 샌드위치를 사서 먹어야 할 정도로 질문이 쇄도했다.
이야기하는 내내 그 열정 가득한 눈 하며, 경청하는 표정 하며, 다들 너무 반짝반짝거려서 부럽기도 하고 ㅎㅎ 짧았던 1시간이 나에게도 좋은 자극이 되었다.
기회가 된다면 멘토링도 해보면 좋겠다 싶다.
아무튼 그날의 기억을 되짚어보면서 모임에서 나왔던 QnA를 정리해 기록해 본다.
Q. 데이터사이언티스트가 될지 분석가가 될지 방향을 못 잡겠어요.
A. ‘난 어떤 성향이고 뭘 하고 싶은가?’에 초점을 맞추면 좋을 것 같아요.
직접 제품을 만들고 액션 하는 사람이 될 것 인가? vs 제품을 개선하고 성장시킬 전략을 짜는 사람이 될 것 인가? 전자 쪽이라면 데싸, 후자 쪽이라면 분석가로 한번 접근해서 생각해 보세요.
Q. 대학원을 갈까요? 취업을 할까요? 뭐가 더 도움 될까요?
A. 학문적으로 깊어지고 이론적으로 지식을 쌓는 것도 물론 중요하지만.. 그 지식을 실제로 벌어지는 비즈니스 문제를 해결하는 데에 접목하는 경험이 저는 훨씬 중요하다고 봐요. 논문을 쓰거나 연구의 목적으로 분석을 할 때엔 주로 잘 정제된 데이터를 가지고 분석에 좀 더 포커싱을 맞추지만 실제 서비스에서 기록되는 데이터를 보면 그렇게 예쁘게 정리되어 있지 않아요. 실제 분석 업무는 거기서부터 시작이거든요. INPUT 데이터를 만드는 것부터.. (물론 데이터를 예쁘게 정리해 주는 별도의 팀이 있을 수도 있지만..)
또 학교에서 분석하는 주제와 목적 vs 회사에서 하는 것과는 차이가 크다고 생각하고 마지막으로 이론 지식은 학교가 아니더라도 일을 하는 중간에도 다양한 루트를 통해 쌓을 수 있는데 반대로 실업무 경험은 회사 말고는 채울 수 있는 곳이 없어요. 저는 무조건 실무 경험을 중요하게 생각합니다.
Q. 이력서에 가장 도움이 되는 경험은 무엇일까요?
A. 학력, 공모전 참여, 교육 수료, 인턴쉽 이런 것들이 있다고 가정해 볼까요?
그렇다면 저는 무조건 인턴쉽 경험이라고 생각해요. 이유는 앞의 질문과 같아요.
데이터분석가는 업무 경험이 진짜 중요해요. 팀이나 제품이 겪고 있는 문제를 데이터를 통해 해결해 본 경험. 그게 실패의 경험이더라도요. 그 과정에서 했던 고민들과 시행착오를 통해서도 배우는 게 있으니까요. 실제로 일을 해보면 확 와닿으실 건데.. 연구, 공모전, 교육에서의 경험과 실무 경험의 결은 큰 차이가 있어요.
저는 주니어 CV에서 인턴쉽 경험이 있다면 그걸 제일 매력적으로 보고 관련해서 이야기를 나눠보고 싶을 거예요.
Q. BA가 되고 싶긴 한데 전망이 좋을까요?
A. 분석에도 업무가 여러 가지죠. 비즈니스(사업전략) 분석, 마케팅분석, 프로덕트분석, 어뷰징분석, 재무분석, 경영분석 등등이요. 대기업에서는 각 업무 주제에 따라 별도의 팀이 꾸려지는 경우도 있으니 BA냐 PA냐 고민할 수도 있을 것 같아요. 그런데 제가 두루두루 경험해 봤을 때 가장 난이도가 높았던 건 비즈니스분석이었어요. 아무래도 의사결정 한 건이 미치는 영향이 가장 커서 그런 것도 같아요. 전체의 방향성이 달라질 수도 있으니까.. 뭘 해서 어떻게 돈을 더 많이 벌 것이냐를 정하는 거니까 그만큼 고민할 것도 많고 쉽게 답을 내기 어렵기도 하고요. 그래서 더욱 데이터 기반의 의사결정이 이루어져야 하는 영역이라고 생각해요. 저는 분석 중의 끝판왕, 최종 보스가 비즈니스분석이라고 생각하기 때문에 전망은 걱정할 필요가 없을 것 같아요.
Q. 전공이 데이터사이언스 융합 전공인데 대학교 전공 수업에서 제일 중요한 과목이나.. 학교에서 배우는 것 중 실무에선 어떤 과목이 제일 중요할까요? 어디에 초점을 맞추고 공부해야 할까요?
A. 와우.. 요즘은 데이터 특화 전공도 있군요. 그만큼 데이터의 중요성과 필요성에 대한 인지가 쌓였다는 거라서 기쁘네요. (나는 처음 듣는 전공이라 우선 데사융 전공에서 어떤 걸 배우는지 물어 정보를 얻었음)
사실 뭐든 배워두면 언젠간 도움이 되긴 하더라고요. 그런데 프로그래밍 언어를 배울 때는 그 언어 자체만 파고든다기보다는 시각을 줌아웃해서 주요 개념, 특성(객체지향, 절차지향, 컴파일언어, 인터프리터언어..)과 언어의 메커니즘을 이해하는 게 좋을 것 같아요. 기술이 워낙 빨리 업데이트되기 때문에 회사에서 사용하는 언어나 기술도 계속 바뀌거든요. 그래서 지금 배우고 있는 언어도 언제 또 역사의 뒤안길로 사라질지 몰라요ㅎㅎ. 그런데 아무리 언어가 바뀌어도 주요 메커니즘이 바뀌는 건 아니거든요. 사용하는 함수 명이나 문법이 살짝 다를 뿐이죠. 그런 건 금방 적응할 수 있어요.
그리고 데이터직군으로 커리어패스를 쌓고 싶다면.. SQL은 기본이니까 다른 건 몰라도 그건 중급 이상의 수준으로 공부하고 오시면 도움이 될 것 같아요. 거기에 덧붙인다면 python! 그리고 기회가 있다면.. 시각화 툴도 경험해 보면 금상첨화가 될 것 같네요.
Q. 신입으로써 뭘 해야 시장에서 매력적인 사람으로 보일 수 있을까요?
A. 사실 데이터직군이 이렇게 각광을 받고 붐업이 된 지 얼마 되지 않았어요. 그런 만큼 인력 생태계에서 극단적인 피라미드현상이 제일 심한 직군이기도 할 거예요. 시니어는 얼마 없고 주니어는 엄청 몰려있거든요. 그 말은 주니어 사이의 경쟁이 심화될 수밖에 없다는 말이기도 하죠. 그래서 시장 경쟁력을 키워야 하는데 저는 개인적으로는 올라운더가 될 것을 추천드려요. 엔지니어링 역량과 분석 역량을 같이 키우는 거예요. 그렇게 하려면 회사 선택이 중요해요. 너무 분업화되어 있는 큰 회사의 경우엔 여러 업무 경험을 쌓는 기회는 결여될 수 있어요. 오히려 다 경험할 수 있는 스타트업이나 작은 회사부터 시작하는 게 득이 될 수 있어요. 다만, 무조건 시니어 선배나 팀장이 있는 곳을 가세요. 배울 수 있어야 하니까요.
Q. 분석할 때, 어느 수준으로 결과를 낼지.. 감이 잘 안 오더라고요. 뭐에 주안점을 둬야 할까요?
A. 분석 업무의 마지막엔 항상 공유와 설명, 설득의 과정이 있어요. 궁극적으로는 내가 분석한 내용을 타인에게 설명하면서 이해와 공감을 얻는 건데 그러려면 쉽고 간결해야 된다고 생각해요. 그리고 분석을 한 이유와 목적 즉, 풀려는 문제가 있기 때문에 그 문제를 해결하는 Action Item을 도출하는 인사이트여야 한다고 생각해요. 가끔 내용은 엄청 방대하고 복잡한 분석기법으로 화려한데 알맹이가 없는 분석리포트를 볼 때가 있어요. 그런데 분석리포트는 내가 이렇게 많은 데이터를 봤고, 이만큼의 지식이 있어요를 자랑하는 창구가 절대 아니에요. 그렇게 방대한 데이터를 봤고 복잡한 기법을 썼다 하더라도 핵심만 적고 최대한 비전문가가 이해하기 쉽게 풀어내야 해요.
그리고 분석이 처음이라 어떻게 접근해야 될지 모르겠다 하면 저는 지표의 관계를 따라 접근하는 방법으로 트레이닝하라고 권하고 있어요. 문제를 해결할 목적 지표가 있을 것이고 그 KPI에 영향을 주는 다른 지표를 여러 세그먼트 단위로 쪼개서 디깅 해보는 거예요. 그러면 보통은 해결의 실마리가 보여요. 그래서 평소에 대시보드, 지표 리포트를 계속 모니터링하는 게 중요한 것 같아요. 그냥 수치의 높낮이를 확인하라는 게 아니라 모니터링하면서 지표들 간에 역학관계를 파악하는 게 중요해요.
Q. 업무 하실 때 데이터 전처리에 있어 가장 신경 쓰는 부분은 어떤 거세요?
A. 데이터의 정합성인 것 같아요. 요즘 핫한 프로그램인 흑백요리사에서 유명 요리사분이 그런 말씀하시더라고요. “음식에서 제일 중요한 것은 요리사가 아니라 재료다.” 저는 Garbage In, Garbage Out.이란 말을 자주 쓰는데.. 같은 맥락이고 분석도 마찬가지인 것 같아요. 제일 중요한 건 input데이터죠. 정확한 데이터를 넣어야 결과 인사이트도 신뢰할 수 있잖아요.
그리고 정합성을 잃기 쉬운 케이스는 서로 다른 소스의 데이터를 하나의 flow로 잇는 부분인 것 같아요. 중요한 트랜젝션 데이터나 서비스에 필요한 데이터는 서비스 DB에 남고 있죠. 그런데 분석을 하려다 보면 서비스 DB에 로깅되는 데이터 중간중간에 어떤 페이지를 봤고 어떤 버튼을 클릭했고 어떤 상품이 노출되었고 하는 action기반의 저니데이터가 필요해요. 보통 그런 액션로그는 서비스 DB보다는 어트리뷰션 툴이라고 하는 별도의 솔루션에서 수집하는 경우가 많은데 해당 액션로그 데이터와 서비스 DB에 남고 있는 데이터를 한 세션의 flow로 결합하는 부분에서 정합성이 틀어지는 경우를 자주 보게 돼요. 데이터를 매칭할 수 있는 key값이 없다면 더더욱이요. 그래서 그때 데이터 검수 작업에 시간을 투자해서 정합성 확보에 신경을 쓰고 있어요.