지난 번에 공고한 게임 데이터 분석가 채용(https://brunch.co.kr/@gimmesilver/23)이 마무리되었습니다. 많은 분들이 채용 공고를 공유해 주신 덕분에 좋은 분들이 많이 지원해 주셨습니다.
인터넷이나 여러 언론 매체를 통해 회사의 채용 과정이 불투명하고 불합격 사유를 알려 주지 않는 것에 대해 지원자들의 불만이 많다는 기사를 접하면서 제가 채용을 진행할 때는 최대한 절차와 결과를 투명하게 공개해야 겠다고 생각했습니다. 안타깝게도 회사에서 공식적으로 지원자에게 피드백을 드릴 수 있는 절차나 체계가 아직은 마련되어 있지 못합니다. 그래서 개인 블로그를 통해서라도 이번 채용 과정 및 결과에 대해 정리해 보았습니다.
참고로 현재 1차 면접이 끝난 상태이며 채용이 확정되지는 않았습니다. 1차 면접을 통과한 분들을 대상으로 온라인 인성 검사 및 2차 상위 직책자 면접을 진행 중에 있습니다. 2차 면접까지 통과한 지원자에 대해서 최종적인 연봉 협상 등의 처우 협의가 끝나야 채용이 확정됩니다. 1차 면접 이후 과정은 제 소관 밖이기 때문에 1차 면접까지에 대해서만 내용을 정리합니다.
마지막으로 여러 차례 퇴고를 거듭하여 제 3자가 지원자를 유추할 수 있는 내용이 있을지 확인했고 인신 공격이 될 수 있는 표현이 없도록 노력했습니다. 혹시라도 문제가 될만한 내용이 있다면 알려 주시기 바랍니다.
총 지원자 및 진행 과정별 참여자 수는 아래와 같습니다.
총 지원자 수: 16명
과제 수행 대상자: 14명 (서류 탈락 2명)
1차 면접 대상자: 12명 (과제 포기 2명)
1차 면접 통과자: 2명
1차 면접 단계까지는 단계별 탈락자를 최소화했으며 1차 면접까지 모두 종료된 후 과제 평가와 면접 평가 점수를 가중치 평균으로 계산하여 가장 점수가 높은 2명을 최종 통과자로 결정했습니다.
가급적 서류 탈락은 하지 않으려 했지만 탈락자 두 분의 경우 학력이나 경력 사항 및 지원 동기 등의 내용이 지나치게 부실하다고 판단하여 이 단계에서 탈락시켰습니다. 이를 제외하면 서류 전형에서는 어떤 평가도 이뤄지지 않았습니다.
참고로 제가 생각하기에 이력서 기재 형식이나 내용 상의 충실도가 업무 역량과 어느 정도 상관성이 있습니다. 이력서가 그 사람의 기술적 역량이나 창의성을 드러내지는 않지만, 적어도 꼼꼼함이나 성실성과는 관련이 높은 것 같습니다. 이번 채용에서는 극히 일부 지원자를 제외하면 대부분 회사에서 지정한 이력서 뿐만 아니라 별도의 포트폴리오나 졸업 논문, 분석 보고서 등의 자료를 충실하게 제출하여 인상적이었습니다. 그리고 이후 과정에서도 느꼈지만 이번 채용에서의 지원자가 과거에 비해 상대적으로 수준이 높았습니다.
다만 여기서 한 가지 언급하고 싶은 점이 있는데, 일부 지원자의 경우 경력 사항을 다소 부풀리거나 허위 기재하는 경우가 있었습니다. 예를 들어, 석/박사 과정의 경우 (졸업이 아닌) 수료 상태에서 연구실에 있는 기간을 경력 사항으로 표기하는 경우가 있었습니다. 이것은 적절하지 않다고 생각합니다.
특히, 한 지원자의 경우 대학원 석사 휴학 상태였는데 연구실 운영 상 서류 처리를 위해 설립한 법인의 대표 명의를 갖고 있으면서 그 기간을 스타트업 경력으로 기재한 경우가 있었습니다. 이런 경우 경력 허위 기재로 인해 합격이 취소될 수도 있는 심각한 불법 행위입니다. 혹시 그 지원자 분이 이 글을 보신다면 앞으로 타 회사 지원 시 반드시 학력과 경력 사항을 석사 휴학 상태라고 바로 잡으시기 바랍니다.
서류 탈락자 두 분을 제외한 모든 지원자에게는 아래와 같은 데이터 분석 과제를 드렸습니다.
과제: R 혹은 파이썬을 이용하여 아래 링크에 있는 House price prediction challenge 풀어오기
https://www.kaggle.com/c/house-prices-advanced-regression-techniques
kaggle에 가입하여 위 문제를 풀어보고 실제 결과를 제출하여 최종적으로 가장 높은 성능이 나온 결과의 점수와 순위가 표시된 화면을 캡쳐하여 아래 자료와 함께 제출
제출 마감 일자: (과제 제시일로부터 2주 후)
제출 자료
최종 결과 (RMSLE score 및 순위)
탐사 분석 및 예측 모델링 과정을 설명한 문서
분석 및 예측에 사용한 소스 코드
위 과제는 전형적인 회귀 모델 문제이면서 다양한 결측치가 포함된 자료이기 때문에 예측 모델링과 feature engineering 그리고 이를 위한 탐사 분석 역량이 고르게 필요한 문제입니다.
14명의 지원자 중 12명이 과제를 수행했습니다. 참고로 제작년의 경우 이보다 좀 더 쉬운 문제를 드렸음에도 불구하고 약 절반 정도가 과제를 포기했던 것에 비하면 예상보다 높은 참여율이었습니다. 과제 제출자 중 캐글에 결과를 제출하지 않은 지원자가 2명 있었지만 설명 문서나 소스 코드를 제출했기에 과제를 수행한 것으로 인정했습니다.
지원자가 제출한 과제 문서와 코드를 검토하여 과제에 대한 평가를 진행했는데 과제 평가에는 6명의 팀원이 참여했으며 과제마다 1~5점의 점수를 부여했습니다. 과제 제출자 12명의 캐글 성적 및 평가 결과는 아래와 같습니다(익명성을 위해 캐글 점수는 소수점 3자리에서 절삭했고 순위도 대략적으로만 표시했습니다).
보다시피 캐글 제출 결과와 평가 순위 사이의 상관성은 낮습니다. 그 이유는 과제를 평가할 때 제출 문서와 코드가 얼마나 잘 정리되어 있는지와 얼마나 탐사 분석을 체계적으로 수행했는지 등도 고려했기 때문입니다.
물론 저희의 평가가 정확하고 공정하다고 생각하지는 않습니다. 예를 들어 K 지원자의 경우 팀원들 간에 평가가 크게 엇갈렸는데 나중에 이유를 들어 보니 높은 점수를 준 팀원들의 경우 문서 앞부분에 국내 부동산 사례에 대한 자료를 정리한 점을 높이 평가했기 때문입니다. 그러나 실제 데이터 분석 및 예측 모델링 내용은 다소 부실했으며 모델링 자체도 제대로 수행하지 못해 캐글에 결과를 제출하지 못한 상태였습니다. 따라서 제 생각에는 이 지원자에 대한 과제 평가의 경우 명백한 평가 오류였다고 생각합니다(참고로 이 지원자는 면접에서 최하위 점수를 받았습니다).
이후 과제 제출자 12명에 대해서 1차 실무 면접을 진행했는데 다음과 같은 질문을 하였습니다(지원자마다 질문 항목은 조금씩 다릅니다).
전공 및 업무 이해도 관련
통계학을 한마디로 정의하면? (혹은 다른 전공자의 경우 해당 분야)
가장 재미있게 들은 전공 수업 & 전공 외 수업과 그 이유
이력서 상에 기재된 경력 사항 관련 질문
석사 이상 학력 소지자의 경우 졸업 논문 관련 질문
과제 관련
종속 변수를 로그 변환한 이유는?
결측치 처리를 ~ 한 이유는?
사용한 학습 알고리즘에 대한 설명
기술 관련 질문
p-value 가 무엇인지 전공자가 아닌 사람을 상대로 설명하시오
p-value 사용 시 주의할 점 혹은 한계점은?
베이지안 확률과 빈도주의 확률의 차이는?
알고 있는 feature selection 기법을 모두 나열하고 설명하시오
지도학습과 비지도 학습의 차이는?
PCA가 무엇인지 설명하시오. PCA로 어떻게 차원 축소를 할 수 있는지 설명하시오.
bagging과 boosting의 차이점을 설명하시오.
모수적 방법과 비모수적 방법의 차이를 설명하시오.
기타
최근에 읽은 가장 인상 깊은 책은?
질문했으면 하는 질문이 있으면 자문자답하시오.
각 면접마다 팀원들이 돌아가며 3명씩 참여했으며 과제와 동일하게 1~5점으로 평가했습니다(참고로 D 지원자의 경우 면접 중간에 지원을 포기했기 때문에 평가에서 제외됐습니다).
과제 평가 결과와 면접 평가 결과를 이용해 최종 점수를 산정했습니다. 최종 점수를 산정할 때는 과제 점수의 평균값과 면접 점수의 평균값을 이용해 각각 0.3과 0.7의 가중치를 준 평균을 이용했습니다.
총점 = 0.3 * 과제평가평균 + 0.7 * 면접평가평균
면접평가에 가중치를 더 준 이유는, 1) 과제의 경우 인터넷에 공개된 자료를 활용해서 풀어 올 수 있어서 신뢰도가 면접에 비해 상대적으로 떨어진다는 점, 2) 면접에서 과제 관련 질문을 통해 어느 정도 과제 역량도 검증된다는 점 때문입니다.
지원자들의 최종 평가 결과는 아래와 같습니다(참고로 저는 전체 채용 과정을 진행하긴 했으나 평가에는 참여하지 않았습니다).
저희 채용 예정 인원은 2명이기 때문에 위 최종 순위 순으로 정하면 B와 F 지원자가 최종 선택됩니다. 그런데 F 지원자는 외국인이며 현재 학생 비자만 갖고 있는 상태였습니다. HR 확인 결과 경력직 채용 시에는 취업 비자를 갖고 있지 않으면 채용이 불가능하기 때문에 F 지원자는 제외하고 B 지원자와 G 지원자를 1차 면접 통과자로 선정하였습니다.
지원자별 세부 피드백은 아래와 같습니다. 참고로 익명성을 위해 당사자는 본인임을 알 수 있을 정도의 최소 정보 만을 담아 피드백 드립니다.
a) 지원자 A
소통 능력이나 인성적인 측면에서 좋은 평가를 받은 분이었습니다. 여중, 여고, 여대를 나와 남초 회사에 다니고 있는 어려움을 토로했던 것이 기억에 남았습니다(전 남중, 남고를 나왔지만 여초 회사를 다녀보고 싶습니다). 그러나 전공 분야에 대한 이해도나 전문성이 다소 부족하다는 의견이 있었습니다. 대부분의 기술 관련 질문에 답변을 하지 못했고, 대학원을 졸업한지 3년이 채 안됐음에도 불구하고 졸업 논문 내용이 기억나지 않는다고 답변한 점에서 부정적인 평가를 받았습니다.
특히, 얼마 전에 회사 스터디에서 했던 내용이데 까먹었다거나 어제 한번 보고 왔던 건데 기억이 안난다는 식의 답변은 오히려 잘 모르겠다는 답변보다도 안좋은 평가를 받았습니다. 아마도 업무에 대한 집중도나 이해도, 진지함 측면에서 부정적인 인상을 준다고 생각합니다. 또한 과제 문서에 결과를 캐글에 제출한 후 결과를 첨부하라고 적혀 있었음에도 불구하고 제출해야 하는지 몰랐다고 한 부분도 비슷한 이유로 인해 마이너스 요인이었습니다.
b) 지원자 B
전산 전공자이고 경력도 데이터 분석보다는 네트워크 보안 및 프로그래밍 업무 위주였기 때문에 데이터 분석이나 통계 관련 지식이 다른 지원자에 비해 다소 부족했습니다. 그러나 과제의 캐글 순위가 전체 지원자 중 가장 높았으며 제출한 문서와 코드 역시 충실하게 작성되어 팀원들로부터 가장 높은 점수를 받았습니다. 또한 비록 짧은 면접 시간이지만 입사에 대한 높은 열정과 의사 소통 능력 및 차분한 태도로 인해 면접에서도 높은 평가를 받았습니다.
한편, 이 지원자의 경우 데이터 모델링에 대한 지식이 다른 지원자에 비해 그리 좋지 않았음에도 불구하고 수백 번의 시도와 튜닝을 통해 가장 높은 캐글 순위를 기록했습니다. 어쩌면 이건 캐글 순위로 데이터 분석 역량을 평가하는 것에는 한계가 있다는 점을 보여주는 사례이지 않을까 싶습니다.
c) 지원자 C
통계학을 전공한 후 수학 교육에 대한 포부를 갖고 교육계에 뛰어 들었던 이력이 인상적이었던 분입니다. 전반적으로 다른 지원자에 비해 전공 이론에 대한 이해도나 기본기가 탄탄해 보였습니다. 다만 과제 수행 시 가장 어려웠던 점을 묻는 질문에 대해 얼마나 성능을 높여야할 지 감을 잡을 수 없었다는 답변은 듣기에 따라 최선을 다하기 보다는 합격할 정도까지만 하겠다는 타협으로 느껴져서 (특히 직전에 면접을 봤던 B 지원자와 비교가 되어) 다소 실망스러웠습니다.
마지막으로 실제 데이터를 이용한 분석 및 실무 경험이 거의 없다는 점도 단점이었습니다. 전반적으로 B 지원자와 장/단점이 서로 반대인 분이라고 느꼈습니다.
d) 지원자 D
이 분은 면접 도중 지원자 분이 생각하는 업무와 저희가 원하는 업무 간의 괴리가 크다고 판단하여 합의 하에 지원을 포기한 분입니다. 따라서 피드백을 생략합니다. 다만 면접이 끝난 후 생각해 보니 제가 다소 지나치게 압박을 드렸던 것 같습니다. 혹시 이 글을 볼 지 모르니 이 글을 통해서나마 무례를 사과 드립니다.
e) 지원자 E
저희 업무에 대한 관심도가 높았고 현재 본인 업무에도 적용해 보기 위해 회사 블로그에 소개된 고객 세그먼트 내용 중 이해가 안되는 부분에 대한 질문을 면접 중간에 하는 것이 무척 인상적이었습니다(여담이지만 한 팀원이 면접을 가장한 산업 스파이인줄 알았다고 하더군요).
그러나 통계학 석사 전공자임에도 불구하고 p-value나 모수적 방법의 의미 등과 같은 통계 관련 기본 지식에 대한 이해도가 떨어졌으며 질문에 대한 의도를 잘 파악하지 못하고 의도와 다른 답변을 하는 점이 안타까웠습니다.
과제에서는 다른 지원자들과 비교해 볼 때 다중 선형 회귀 모델만을 이용해 너무 단순한 시도만 한 점이 낮은 평가를 받은 가장 큰 원인이며, ANOVA로 모델을 검증했는데 이 기법이 무엇인지 그리고 왜 했는지를 모르고 그냥 했다는 답변도 감점 요인이었습니다.
f) 지원자 F
외국인이지만 한국에서 십 년 가까이 생활하여 언어 소통에는 큰 지장이 없는 지원자였습니다. 이 지원자와의 면접에서 가장 좋았던 점은 모르는 부분은 명확히 잘 모른다고 답변하고 아는 부분은 중언부언하지 않고 핵심적인 개념만 명확하게 설명하는 점이었습니다.
역량적인 측면에서 전체 지원자 중 가장 답변이 뛰어났고 전반적인 면접 자세 역시 좋았기 때문에 별다른 단점이 없었습니다. 굳이 단점을 꼽자면 외국인이기 때문에 팀 문화에 잘 융화될 수 있을까 하는 점과 협업 부서와 잘 소통할 수 있을까 하는 부분이었습니다.
팀원들과 논의한 결과 타 부서와 소통이 많이 필요한 분석 업무보다는 모델링 및 개발 쪽 업무로 집중시키면 괜찮을 것 같다는 판단하에 1차 면접 통과를 결정하였습니다만 앞서 언급했듯이 비자 문제로 인해 아쉽게도 이후 채용 과정을 진행하지 못했습니다.
g) 지원자 G
스타트업에 근무하면서 직접 사비를 들여가며 실리콘밸리로 진출하려고 몇 개월간 노력했던 경험이 인상적인 지원자였습니다. 통계학의 기본 개념에 대한 이해도가 좋고 어떤 개념을 설명할 때 예를 들어 설명하려고 노력하는 부분에서 좋은 평가를 받았습니다. 전반적으로 특별한 단점이 보이지 않았습니다(그렇다고 모든 면에서 특출났다는 뜻은 아닙니다).
단점을 꼽자면 경력이 수시 채용 기준인 2년에 미치지 못한다는 점이었습니다. 회사 정책 상 수시 채용은 2년 이상의 경력자만을 대상으로 합니다. 그래서 이 분은 채용이 결정 될 경우 부족한 경력 기간 만큼을 계약직으로 근무한 후 정직원 전환이 됩니다.
h) 지원자 H
계량 경제학을 공부하면서 데이터 분석에 관심을 갖게 되었다고 한 경제학도입니다. 가장 큰 단점은 업무 경력이 전무한 신입이라는 점이었습니다. 저희가 비록 신입의 지원을 제한하지는 않았지만 엄연히 경력자 채용이었기 때문에 적어도 경력이 없는 페널티를 어느 정도 보완할 만한 역량은 필요한데 그런 전문성 또한 잘 어필하지 못했다고 생각합니다. 하지만 전반적으로 의사 소통이나 다른 측면에서 좋은 평가를 받았기에 만약 신입 공채였다면 충분히 경쟁력을 갖춘 분이라 생각합니다.
i) 지원자 I
전체 지원자 중 가장 면접에서 긴장하여 저희까지 긴장하게 만든 분이었습니다. 전반적으로 기본기에 충실하려는 모습이 인상적이었습니다. 과제나 면접에서의 팀원들 평가가 고르게 좋았지만 안타깝게도 채용 인원이 제한적이라 부득이하게 불합격 처리를 할 수 밖에 없었습니다.
단점을 꼽자면, 과제나 포트폴리오에서의 데이터 분석 결과를 보면 통계 분석 기법을 다소 피상적으로만 이해하고 있는 점이었습니다. 예를 들어 다중 선형 회귀 모델을 만드는데 특정 하나의 독립변수와 종속변수 간의 상관성만을 고려해서 변수 변환이나 변수 선택을 고려하는 것은 잘못된 방법입니다.
j) 지원자 J
어문계 학사를 졸업하고 공대 석사를 마친 소위 문무를 겸비한 분이었습니다. 이력서나 과제 결과물, 포트폴리오 등에서 성실함이 느껴져서 인상적이었으나 데이터 분석 관련 전공자가 아니고 관련 경력도 전무한 점 때문인지 본인의 석사 논문 내용을 제외하고 기술 역량 관련 질문에 제대로 답변하지 못한 점이 안타까웠습니다.
또한 답변할 때 핵심만 간결하게 말하지 않고 다소 장황하고 수사적인 표현을 남발한다고 느꼈습니다.
k) 지원자 K
매우 유감스럽지만, 전반적으로 의사 소통 능력이나 전공 관련 기술에 대한 이해도가 많이 떨어졌습니다. 특히, 면접에서 불명확한 대명사나 부사어를 남용하여 설명을 이해하기 매우 힘들었습니다. 자세한 피드백은 자칫 인신 공격이 될 것 같아 이만 줄입니다.
l) 지원자 L
현재 게임 업계에서 운영 업무를 담당하면서 데이터 관련 업무도 일부 담당하고 계신 분이라 기대감을 가졌습니다만 기대에 못 미쳐 아쉬웠습니다. 이 분의 경우 이미 면접 과정에서 충분한 피드백을 드렸기에 내용은 생략합니다.
그 동안 여러 차례 채용을 진행하면서 항상 느끼지만 짧은 시간에 누군가의 실력이나 인성을 파악한다는 것은 대단히 어렵습니다. 게다가 몇가지 심리학 연구에 의하면 면접관의 그날 심리 상태나 신체 상태가 결과에 크게 영향을 끼치기도 합니다. 심지어 앞서 언급했듯이 잘못 평가하는 경우도 있습니다.
따라서 위 결과가 지원자분들의 실력을 정확하게 드러낸다고 생각하지 않습니다. 또한, 면접에서도 말씀 드렸듯이 저희 채용 목표는 가장 잘하는 사람을 뽑는 것이 아니라 우리 팀에서 같이 일했을 때 가장 시너지를 낼 수 있겠다고 생각하는 사람을 뽑는 것입니다. 혹시 떨어지신 분들도 이 결과에 크게 연연하지 않으셨으면 좋겠습니다.
마지막으로 저희 팀에 지원해 주신 분들께 감사드리며 위 피드백 내용이 지원자 분들에게 도움이 되길 바랍니다.