brunch

You can make anything
by writing

C.S.Lewis

by hwangbobo Jul 30. 2020

문과생의 데이터 분석 인턴십 후기

첫발을 내딛음과 동시에, 갈 길이 참 멀다는 것을 느끼다

*이 포스트는 학부생이 지극히 개인적인 경험/견해를 담은 얘기입니다.


치열한 3학년 1학기를 끝내고, 설레는 마음으로 뉴욕에서 3학년 2학기를 보낼 거라고 기대했지만... 코로나가 터지고, 두 달 반 만에 부랴부랴 짐을 싸서 한국으로 돌아와야 했다. 아쉬움도 잠시, 갑작스럽게 끝나버린 뉴욕에서의 학기를 뒤로 하고 summer job 찾기에 발등에 불이 붙었다. 주위에서 하루가 다르게 취소되는 인턴십 및 풀타임 job offer들을 보면서, 나 또한 4학년을 앞둔 여름이라 더 조바심이 나고, 좀 더 내 커리어를 발전시킬 수 있는 일을 찾았으면 하는 바람이 컸다.


이번 여름에 job search를 하면서 고려한 몇 가지 부분이 있는데, 그중 가장 중요하게 생각했던 것은 '데이터를 많이 다루고, 프로그래밍 스킬을 적용할 수 있는 일'이었다. 내가 처음 '데이터 분석'이란 일에 관심을 갖게 된 것은, 2학년에 Data Analysis 수업을 들었을 때였는데 R이라는 통계 분석 언어를 이용해서 공공기관 데이터를 가공하고, 개선점을 도출하는 과정을 보여주실 때 신선한 충격을 받았다. 이전까지 나에게 통계학은 그저 p-value를 달달 외워서 문제를 적당히 풀어내는 과목이었는데, 이게 어떻게 실생활에 쓰이는지를 깨닫고 나니 미뤄두었던 코딩과 통계를 자발적으로 공부하고 싶은 마음이 생겼다. 


사회통계로 데이터 분석을 처음 접하고, 후에 경제학과 수학을 복전하면서 기반을 다졌지만 내 마음 한구석엔 항상 이 길에 대한 불확실함이 있었다. 1학년 때 컴싸 수업을 하나 들은 이후로 거의 코딩 수업을 듣지 못했고, Computer Science나 Statistics쪽 학생들에 비해서 전문성이 부족하다는 생각이 들었다. 특히 인턴 공고를 둘러보면 대부분 많은 프로그래밍 경험을 요구하는데, 이에 비해 내 실력에 대한 자신감이 없었다. 그래도 내 배경과 관심사에 맞는 강점을 생각하면서 열심히 이력서를 돌린 끝에 사회학 연구 프로젝트의 데이터 분석 Research Assistant 포지션에 합격하게 되었다. 


원래는 아부다비 캠퍼스 내의 연구소에서 리서치를 하기로 되어있었는데, 코로나가 터지면서 리서치는커녕 아부다비로 가는 게 불가능해졌다. 결국 모든 연구 포지션을 재택근무로 돌린다는 공고가 나왔고, 나는 아부다비와 보스턴에 계신 교수님들과 함께 remote로 일을 시작하게 되었다.

이 짤에 무한 공감을 누르고 싶다


집에서 나름 홈오피스로 모니터를 설치하고, 나름대로 재택근무 안에서 나의 루틴을 만들어가면서 8주간의 인턴십을 마쳤다. 일을 시작하기 전엔 내가 과연 어떤 일을 해낼 수 있는지 걱정이 많았는데, 부족한 점도 있었지만 나름 일을 잘 마무리한 것 같다. 무엇보다도 배운 점이 참 많은데 몇 가지 끄적여 보고 싶다.

 

1) 코딩을 하고 데이터를 직접 분석하는 일만큼, 내용을 잘 정리해서 명확히 팀원들에게 전달하는 것도 너무(!!) 중요하다.

재택근무라서 매주 교수님과 Zoom으로 미팅을 하면서 한 주간의 일을 보고하고 weekly goal-setting을 하는 시간을 가졌는데, 인턴십의 첫 주가 끝나고 했던 미팅에서 커뮤니케이션의 중요성을 뼈저리게 느꼈다. 내 나름대로 발표 준비를 하고 조리 있게 화상통화에서 설명할 수 있다고 자만했는데, 막상 교수님이 이것저것 질문을 하시니까 구멍이 보였고, 또 일주일 동안 데이터를 계속 다룬 나와 처음 보고를 전달받은 교수님 사이에 이해도의 간극이 있었다. 즉 말로만 전달하는 것, 그것도 스크린을 사이에 두고 대화를 하는 부분에 한계가 있었다. 우리는 프로젝트 협업 툴로 Notion을 사용했는데, 여기에 Meeting Agenda 페이지를 따로 만들어서 매주마다 내가 완료한 작업과 앞으로 해야 할 일을 정리해서 공유하는 게 커뮤니케이션에 큰 도움이 됐다.

또한 데이터에 대해서 설명할 때, 굳이 xyz를 하라고 지시하지 않아도 대략적인 descriptive statistics를 파악하고 이를 공유하는 센스가 필요하다는 것을 미팅에서의 실수를 통해 깨달았다. 아무래도 학교 프로젝트 이외에 제대로 데이터에 대해 보고하고 내용을 공유하는 책임을 맡은 적이 없어서 부족함이 있었는데, 정말 중요한 교훈이 되었다.


2) 1번에 이어, 코드를 쓰는 것만큼 데이터에 대한 설명과 코드의 목적을 명확히 기록하는 문서 작업에 신경을 써야 한다.

사실 이번 인턴십 전에는 나는 '업무를 위한' 코드를 써본 적이 없었다. 학교 그룹 프로젝트에서도 코딩 작업을 여러 사람과 했던 적이 별로 없었기에, 일을 하면서 앞으로는 다른 사람들과 협업할 수 있는 코드를 짜는 것을 염두에 둬야 한다는 부분을 몸소 배웠다. 특히 비전공자인 나에게는 일을 통해서만 얻을 수 있는 중요한 깨달음이었다. 그리고 다른 팀원들에게 내가 어떤 방향으로 데이터를 정리했는지 과정을 명확히 문서화하는 일도 정말 중요하다. 비록 테크니컬한 데이터 분석은 내가 했지만, 결국에는 다른 팀원들이 데이터를 잘 이해해야지 다 같이 일을 할 수 있다. 각 변수의 이름과 특성, 데이터의 출처와 의미를 정리한 codebook이나 데이터 분석 프로세스를 글로 남겨놓는다면 업무에서 큰 도움이 될 것이라고 강조하고 싶다. 


3) 코딩은 기본이다. 도메인 지식 (데이터가 쓰이는 분야에 대한 지식)과 커뮤니케이션이 중요한 만큼, 방대한 데이터를 원하는 형태로 가공하고 인사이트를 뽑아낼 수 있는 프로그래밍 능력은 충분히 갖춰야 한다. 

아마 Stack Overflow 커뮤니티가 없었다면 나는 훨씬 더 힘든 여름을 보냈을 것이다. 그리고 이번 프로젝트에서 새로 배운 R 패키지가 많았는데(ggmap, sf, tmap, stringdist 등), 아무래도 이 패키지를 쓰는 방법과 내가 가진 데이터에 어떻게 쓸 수 있는지 배우는 learning curve가 상당히 컸다. 처음에는 내가 생각한 만큼 일의 진도가 빠르게 나가지 못해서 스스로 답답함이 많았는데, 초반에 패키지에 관련된 글과 다른 사람들이 구현한 예시를 꼼꼼히 보는 게 오히려 나중에 코드를 짤 때 버벅거림이 덜했다.


4) 화려한 통계 모델, 머신러닝, 자동화 등등 뭔가 멋있는 걸 하기 전에 데이터를 가공하는 데에 생각보다 매우 긴 시간과 많은 노력이 필요하다.

Reddit의 r/datascience 커뮤니티에 들어가 보면, 현직 데이터 분석가들이 주로 하는 일이나 자신의 하루 일과를 댓글로 공유하는 포스트가 있다. 이를 쭉 읽어보면, 많은 사람들이 자신의 업무의 많은 시간이 데이터를 '쓸만한' 상태로 가공하는 data cleaning 작업에 할애된다고 한다. 실제로 규칙성 없이 제멋대로 묶여있는 데이터를 보면, 아무리 효율적인 function을 써도 제대로 된 결과물이 나오지 않는다. 

내 경우에도, 정말 사소한 듯 보이지만 string 데이터가 엉망이어서 이를 통일시켜야 했던 일이나, 두 개의 데이터셋에서 같은 정보가 다른 규칙으로 정리되어 있어서 (ex. 지역코드를 다른 방식으로 저장해놓은 상태) 이를 합치기 위해 고군분투했던 일이 떠올랐다. 이처럼 내가 생각지도 못했던 부분에서 은근히 시간이 많이 걸리는 것이 데이터 분석이라는 점을 다시 한번 깨달았다.

캘리포니아 주의 근로 차별 소송건을 정리한 지도


아직 제대로 업계에 발을 들이지 않은, 이제 막 걸음을 뗀 주니어지만 이번 여름 리서치 인턴을 통해 많은 것을 배웠다. 조금씩 내가 그리는 데이터 분석 업무에 가까워지는 기분? 아쉬운 점을 꼽자면, 장기간의 리서치의 시작 단계에서 데이터 구축 작업을 했던지라 제대로 된 인사이트를 끌어내는 단계까지는 도달하지 못했다. 또한 팀으로 일하는 것이 중요한데 재택근무로 변하면서 협업에 어려움이 있었다. 무엇보다 집에서 혼자서만 일하는 데에 오는 외로움도 컸다. 


사실 일을 마무리하고 나니 "xx를 달성했다"라는 성취감보다는, 풀어야 할 숙제가 오히려 더 잔뜩 쌓인 느낌이다. 통계 분석 업무의 특성상 끊임없이 공부를 해야 하는 직종이고, 특히 신입으로 들어가기 까다로운 포지션인 것도 익히 들어서 더욱 그런 것 같다. 사실 이 글을 쓰는 지금도, 계속해서 이 일에 대해 공부하고 배우고 싶지만 어떤 방향으로 더 노력해야 좋을지 고민이 많다. 

그래도 지치지 않고, 내가 왜 이 분야를 하고 싶은지 되새기면서 나아갈 수 있기를!

작가의 이전글 아부다비 대학일기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari