연구를 위한 데이터를 모으는 것..참 어렵습니다.
열심히 준비해서 들어간 미국 경영대 박사과정.
첫날부터 교수진, 선배, 동기들이 저에게 물었습니다.
"너는 어떤 연구를 하고 싶니?"
대중적인 인기를 고려해서 듣는 사람들이 고개를 끄덕일 수 있도록 '디지털 마케팅'을 연구하고 있다고 포괄적으로 이야기하고 다녔습니다. 사실은 마케팅도 마케팅이지만 검색엔진 최적화를 연구하고자 했는데요. 데이터로 시작해서 데이터로 끝나는 분야입니다. 정성적인 데이터보다 정량적인 데이터의 퀄리티가 연구의 완성도를 좌지우지하고 있어요.
워낙에 방대한 분야라서 한 문장으로 설명하기 어려운 디지털 마케팅. 연구를 예쁘고 풍성하게 만들어 줄 설문지, 인터뷰 등 약간의 데이터를 뽑아낼 수 있는 정성적 데이터를 수집하는 것이 차라리 쉬운 분야이다 보니 이 업계에서 퍼블리쉬되고 있는 많은 논문들이 사용자/서비스 제공자/콘텐츠 크리에이터의 만족도 및 행동에 집중하고 있습니다. 하지만 저의 희망 연구분야는 기업에서 제공하는 정량적 데이터를 대부분 사용할 수밖에 없었습니다.
박사를 시작하기 전까지만 해도 솔직히 연구를 위한 데이터를 모으는 것이 어떤 과정인지 정확히 알지 못했습니다. 학교가 본격적으로 시작할 때까지 그냥 마음을 비우고 있자~라는 마음가짐이였어요. 연구보다는 당장 매일 홍수처럼 쏟아져 나오는 인더스트리 뉴스를 요약하는데도 많은 시간이 소요되었습니다. 자고 나면 하루아침에 policy 가 바뀌거나 업데이트되는 업계에 관심이 많으면 매일매일 새로고침을 하느라 업무적 피로도가 쌓였습니다.
그리고 석사 때 논문을 굳이 쓰지 않아도 되는 트랙이라서 논문 경험은 전혀 없었습니다. 심지어 더 웃픈 건 학부 때도 졸업시험을 보는 트랙이라 학부 논문 경험도 전무했고요. 논문을 써 본 적이 없는데 어떻게 경영대 박사과정에 합격을 했냐고 묻는다면... 저도 잘 모르겠습니다. 다만 제가 하고자 하는 연구 분야에 깊은 관심이 있다는 것은 프로젝트 등을 통해서 입증을 했습니다.
이렇게 여차저차 교수님 및 커미티 멤버들이 오케이를 해서 들어온 학교인데 1년 만에 자퇴서를 제출하고 학교를 나왔습니다. 학교에 있는 사람들, 박사과정을 끝마치고 교수직을 얻어 안정적인 삶을 사는 분들, 심지어 저의 부모님까지도 제가 박사과정을 그만두는 것을 말렸습니다. 지금 생각해도 인도계 분이셨던 담당 교수님이 화난 듯한 목소리로 저를 회유했던 게 기억이 남네요. 그분은 평소 말투도 좀 직설적이었지만 유독 그날따라 더 그렇게 느껴졌던 건 괜한 착각이 아니었겠죠.
아직 박사 1년 차였기 때문에 진정한 연구를 해보지 않아서 이런 생각이 드는 거다, 조금만 버티면 수월해질 것이다 라는 위안이 되는 말로 저를 붙잡았습니다. 제가 속했던 박사과정 코스는 무조건 4년 안에 졸업을 시키는 곳이라 무기한 박사가 될 염려도 없었죠. 스스로 마저 끝낼 수 있다고 믿고 싶었는데 이성적으로 생각해보아도 남은 3년을 버티지 못할 것이라는 생각이 들었습니다.
박사과정을 하면서 오는 외로움도 분명 일조를 했지만 가장 명백한 사유는 연구를 위한 데이터를 모으는 과정이 매우 어려워서 연구 시작을 할 엄두가 나지 않아서였어요. 1학년이야 말로 연구의 맛봬기만을 간신히 조금 느낄 수 있는 아기 걸음마 단계인데, 벌써부터 연구에 부담을 느끼고 스트레스를 받는다면 평생 연구를 하는 것이 쉽지 않겠다는 직감이 왔어요. 미국 경영대 박사 학생의 티오는 대부분의 학교가 굉장히 적어서 졸업을 하면 웬만해서는 경영대 조교수로 취직이 된다고 합니다(선배들, 교수님의 의견에 따르면). 조교수가 된다 하더라도 tenure를 받으려면 학생 때보다 더욱 열심히 연구를 해야 하는데, 그 길이 저에게 너무도 막막하게 다가왔습니다. 끝나지 않는 지하 터널에 갇힌 느낌이랄까요? 지상도 아닌 지하 터널.
이를 가장 처음 느낀 순간은 과제의 일환으로 논문 프로포절을 작성해야 했는데, 가장 중요한 부분인 양질의 데이터를 구할 수가 없어서 차선책으로 kaggle에서 구한 어렴풋이 제 연구 주제와 들어맞는 데이터 셋을 겨우 가져다가 사용했습니다. 정성적인 데이터를 사용하는 다른 친구들의 프로포절은 variable이 딱딱 명확하게 나눠져 있고 인과 관계가 분명한데, 저는 남이 긁어다가 온 본 출처도 불명확한 데이터를 가져다가 끼워 맞추듯이 발표를 하는 것이 서글펐습니다.
저의 연구분야는 소셜미디어/검색엔진 회사들의 손아귀에 양질의 데이터가 있기 때문에 저의 연구는 회사의 협력 없이는 진행하기 정말 어렵도록 설계되어 있습니다. 연구를 위해서 을이 되는 삶. 을이 된다고 해도 연구에 사용할 수 있는 데이터를 받을 수 있을지 없을지는 확실하지 않았어요.
최근 나왔던 따끈따끈한 뉴스로 제가 처할 뻔했던 상황을 잘 설명할 수 있습니다.
(출처 뉴욕 타임스)
페이스북은 University of Urbino 소속 연구원들에게 연구목적으로 제공할 데이터 중, 사용자가 플랫폼에서 게시물 및 링크와 상호 작용하는 방식과 관련하여 불완전한 데이터를 제공했다고 합니다. 회사가 연구원들에게 말한 것과는 반대로 Facebook이 제공한 데이터에는 미국 사용자의 약 절반에 대한 정보만 포함되어 있었습니다. 물론 인도적인 차원에서 Facebook이 해당 오류에 대해 사과를 했다고 하는데요. 하지만 일부 연구원은 실수가 연구를 방해하려는 의도인지 아니면 단순 과실의 경우인지 의문을 제기했습니다.
이 뿐만 아니라 지난 8월에 Facebook은 자사의 Ad Observer 브라우저 플러그인 문제를 다시금 짚고 넘어간 NYU Ad Observatory 프로젝트를 진행하는 연구원들의 계정을 금지 조치했습니다. 이유는 이 연구원들이 페이스북은 자사 플랫폼에서 진행한 일부 정치 광고 비용을 어느 쪽에서 지불했는지 미공개한 것을 들춰내었기 때문으로 보입니다. 회사 측에서는 실수라고 하는데 과연 실수였을까요?! 회사에서 주장하는 대로 내부에서 처리하는 과정에서 데이터 오류가 있을 수도 있습니다.
물론 이들은 사기업들의 비리를 들춰낼 목적으로 연구하고자 했던 것은 굳이 아니었을 것입니다. 단순히 그들의 연구에 필요한 출처가 분명하고 믿을 수 있는 데이터를 원했던 것뿐인데, 회사 입장에서 오해를 살만한 행동을 할 가능성도 충분히 있죠. 학계에 있는 연구원들은 언제까지나 내부자가 아닌 외부 제3자의 입장에서 회사의 예민한 부분을 다루는 것이니까 이해는 됩니다. 테크 회사들의 입장에서는 그들이 제공하는 서비스의 장점을 부각할 수 있도록, 입맛대로 가공된 학계 논문들이 든든한 뒷받침을 해주길 원할 것입니다. 실제로 규모가 어느정도 있는 테크 회사들 내부에 학계와 그런 컨택하고 협력 하는 팀이 따로 있습니다.
박사 1년 차에 10년, 20년 후 학계에서의 저의 모습이 어떻게 될지 너무 상상이 가서 결국 학교를 그만두었습니다. Resignation letter를 전달할 때 괜히 떨리더군요, 학교를 불량스럽게 다니는 학생이 된 것 만 같고.
이렇게 저의 처음이자 마지막 자퇴서를 제출하고, 현재는 이름이 많이 거론되는 소셜 미디어 회사에서 검색엔진 알고리즘 최적화를 담당하고 있습니다. 철저한 외부자였다가 이제는 회사 내부 사람들도 저희 부서 일을 잘 모를 만큼 내부자가 되어버렸습니다. 학생 신분일 때는 그렇게 알고 싶어서 안달이었던 정보들을 지금은 대부분 볼 수 있으니 감회가 남다릅니다.
회사에서 제가 항상 관심 있었던 분야 업무를 하는 요즘은 정말 더할 나위 없이 행복합니다! 덕업 일치를 어느 정도 실현한 것 같은 뿌듯함도 들고요. 하지만 언제까지나 본사가 아닌 해외 지사에서 근무하는 입장이다 보니 연차가 쌓이면 유리천장에 맞닥뜨릴 것 같기도 해서 나름 머리를 열심히 굴리며 고민하는 중입니다.
나중에 한국 '검색 엔진' 기업들이 사용하는 알고리즘에 대해서도 기회가 된다면 글로 풀어보고 싶어요. 매번 느끼지만 N사 검색 결과는 왜 그 모양일지 정말 진심으로 알고 싶습니다.....ㅎㅎ