Interview Assigment for Data Analyzer
이전 글 ‘면접과제의 기대와 현실 https://brunch.co.kr/@jejugrapher/258'은 엄밀히 말해서 데이터 과학자를 위한 면접과제를 설명한 거다. 데이터 분석과 데이터 과학이 다르다고 생각하지 않았는데, 최근 다른 일 때문에 찾아보니 데이터 분석은 그 자체로 완결된 태스크로써 데이터에서 인사이트를 찾아서 사람에게 전달하는 것인 반면 데이터 과학은 자동화를 위한 모델을 만드는 과정으로써 데이터 분석을 이용해서 결과물을 기계 (모델)에 전달하는 것으로 구분해서 사용하고 있었다. 그런 측면에서 ‘기대와 현실’ 글에선 EDA로 명시한 데이터 분석 과정이 매우 평면적이었고, 신입 데이터 과학자를 뽑을 땐 그 정도의 기초 역량만을 보면 됐다. 즉, 데이터를 불러와서 분포를 확인한다거나 결측치나 아웃라이어를 찾아서 제거 또는 치환하고 모델에 필요한 피쳐를 선택 (피쳐 셀렉션)하거나 기계가 읽을 수 있는 형태로 변환 (임베딩)하면 됐다. 물론 실제 업무에선 더 성능을 개선하기 위해서 더 깊게 그리고 다르게 조사할 필요는 있지만 (주니어) 면접에선 굳이 그럴 필요는 없다.
하지만 데이터 분석은 그 자체가 목적이고 최종 결과물이 사람에게 전달되기 때문에 데이터 분석가를 뽑는 면접에선 좀 더 입체적인 것을 요구한다. 잘 정의된 문제나 정제된 데이터에선 평면적 분석만으로 충분한 인사이트를 얻을 수 있다. 누누이 말하지만 상황에 따라서 가장 간단한 방식, 예를 들어, counting 하거나 평균을 구하는 것만으로 분석이 끝날 때도 있다. 이런 상황에서 괜히 고급 기술을 사용하면 오히려 부정적 인상을 주고, 공격을 받을 가능성이 더 커진다. 문제는 실생활에서 만나는 그리고 의도적인 면접 과제의 데이터는 그렇게 깔끔하지 않다는 점이다. 여느 사람들이 생각하는 것보다 한 두 단계를 더 들어가서 데이터를 살펴보고 그럼으로써 숨어있는 패턴, 인사이트를 찾아낼 수 있는가가 당락을 결정짓는다. 그런데 재차 강조하지만 남들이 못 찾는 것을 찾아내는 능력에 앞서 남들이 모두 찾아내는 것을 놓치지 않는 능력은 기본이다 (Don’t miss what others catch as well as catch what others miss).
데이터 분석이 입체적이려면 어떻게 해야 하는가? 3D 차트를 그리고 화려하게 자료를 만들라는 얘기는 당연히 아니다. 무엇보다도 의도를 잘 파악해야 한다. 의도는 크게 면접과 관련된 것과 문제와 관련된 걸로 나뉜다. 즉, 왜 이 문제/데이터를 면접과제로 제출했을까? 에 관한 면접관들의 의도를 유추해야 하고, 왜 저 문제/데이터를 분석해야 하는가? 에 관한 분석의 목적을 파악해야 한다. 이 두 가지 의도가 명확하지 않다면 면접에 실패할 가능성이 크다. 전자는 나의 어떤 능력을 보고 싶어 하는가? 에 대한 답을 제시해야 한다. 평면적 기본기와 입체적 창의력을 보여줘야 한다. 후자는 분석의 결과물을 결정하는 것으로 분석 방법, 필요하면 추가 데이터의 구성/연결, 그리고 최종 결과물의 형태를 한께 고민해야 한다. 가장 중요한 점은 과연 누구에게 결과물이 전달되는가를 알아야 한다는 거다. 면접관 앞에서 발표하는 거지만, 데이터 분석의 최종 목적지는 가상의 사장님이나 기획자, 또는 일반 대중/사용자일 거다. 그 대상에 따라서 분석의 방식과 내용이 달라지는 건 당연하다.
힘든 젊은 친구들에게 큰 짐을 얻고 싶은 마음은 없다. 목표한 곳이 명확하고 간절하다면 데이터 분석가로서의 본인의 실력을 잘 보여줘야 한다. 데이터 과학자라면 데이터 분석의 기본기에 더해서 알고리즘과 프랙티스 역량을 보여주면 되지만, 데이터 분석가라면 분석 기본기에 더해서 플러스알파를 보여줄 필요가 있다. 그래서 일단 의도 파악이 우선이라고 한 거다. 의도를 제대로 파악했다면 이젠 창의력과 끈기가 필요하다. 하나의 현상과 데이터를 얼마나 다양하게 볼 수 있는가? 얼마나 깊이 볼 수 있는가? 그리고 결과를 얼마나 효과적으로 정리하고 전달할 수 있는가? 등은 결국 창의력의 문제다. (경험/훈련에 따른 단련일 수도 있다.) 그냥 평면적으로 데이터에 접근해서 발견한 사실들만 단순 나열한다면 원하는 결과를 얻긴 힘들다.
구체적인 사례를 들지 못하는 점은 미안하게 생각한다. 첫째는 괜히 왜곡된 지원자들 때문에 이전 직장 동료들이 피해를 받을 수가 있기 때문이고, 둘째는 내가 적은 것이 마치 정답인양 그것만 그대로 따라 할 가능성이 있기 때문이다. 내 생각은 정답이 아니다. 그리고 데이터 분석의 스펙트럼이 그리 단순하지 않다. 왜곡의 위험이 있지만 이렇게 글을 적는 이유는 그렇게 연습하다 보면 자연스럽게 데이터 분석의 본질과 프랙티스를 익힐 수 있으리라 기대하기 때문이다. ** 지난 글을 공개한 후에 ‘부석 자체가 목적인 과제에선 좀 더 입체적일 필요 있음’이란 코멘트를 추가했는데, 혹시 놓쳐서 오해한 분들을 위해서 별도의 글을 남김.