철학 심화 전공 문과 출신 에디터의 데이터 사이언스 입문기
DS 스쿨 데이터 사이언스 입문반 마지막 수업. 새로운 걸 많이 배웠다기보다는 실습이 메인이었다. 역시나 아직도 아이디어를 파이썬으로 구현해 내는 능력이 부족하다. 아이디어가 안 떠오르는 것보다는 이게 나으려나.
마지막 수업 중 가장 흥미로웠던 이야기. 데이터 사이언스의 대전제는 데이터를 모으면 모을수록 가치를 발휘한다는 거다. 그런데 여기에 ‘트렌드’가 들어가는 순간 전제가 깨져 버린다. 데이터가 엄청나게 많아서 사람들이 뭐를 좋아할지 아무리 예측을 잘해도, 그게 옛날 거면 안 보는 거다. 가령 유튜브에 싸이를 검색했다고 치자. 데이터를 기반으로 추천 알고리즘을 돌린다면 당연 ‘강남스타일’이 나와야 한다. 근데, 이걸 또 봐? 아니지. 그러면 무슨 수로 추천을 하나. 유튜브 팀에서 이걸 10년 동안 연구했다고 한다. 그렇게 발견한 새 Feature가 동영상 나이다. 동영상이 업로드된 후 얼마 지났는지를 Feature로 넣은 거다. 그 숫자가 크면 클수록 머신러닝이 트렌드를 인식하고 추천 수선 순위에서 해당 동영상을 배제한다. 이런 식으로 내부적으로 학습하는 건데, 이게 바로 탐험적 데이터 분석의 묘미다.
입문반 과정을 모두 마쳤다. 자 그럼 이다음에는 무얼 하면 좋을까? 우선 이쪽으로 취업이나 이직, 전직을 원하는 것보다는 좀 가벼운 목적으로 온 사람들이 있다. 비개발쪽 사람인데 회사가 데이터 관련해서 뭔가를 만들려 한다. 데이터가 뭔지만 아는 정도면 좋겠다면 딱 입문반에서 멈추면 된다. 추가로, 캐글 컴페티션 카테고리에서 경진 대회 요약 부분만 보면 된다. 여기서 풀려고 하는 문제는 모두 현실 세계에서 해결하려는 문제다. 이걸 보면 데이터로 이런 일도 할 수 있다는 걸 알 수 있다. 쭉 보면 내가 집중하는 분야랑 일치하는 경진 대회가 3~5개 정도 나온다. 거기서 데이터를 봐야 한다. 비슷한 분야의 일인데 우리 회사는 저 데이터를 트래킹 안 하고 있었네? 다른 회사들은 어떤 데이터를 수집하고 있나 알 수 있다.
데이터의 시대가 오는 건 알겠다. 근데 직접 코드 짜는 건 싫은 부류가 있다. 아이디어 내는 건 좋지만, 이 아이디어를 코드로 짜는 건 동료가 했으면 좋겠다. 이런 사람들한테는 유망한 게 Growth Hacker의 길이다. 우리는 서비스라는 어장을 만들고 거기에 물고기를 넣는다. 그리고 그 물고기가 어장을 못 빠져나가게 한다. 무슨 목적으로? 물건 구매나 광고를 보게 하는 거다. 그 어장에 사람들을 데려 오는 건 마케터가 하는 일이다. 그러면 웹 기획자가 그 어장을 튼튼하게 만드는 거고. 그로스해커는 그 모든 과정을 싹 다 튜닝한다. 어장에 사람들을 유입하는 것부터 시작해서 파이럴이 퍼지게 하는 것까지. 그런데 이걸 한꺼번에 다 배우는 게 아니라 한 분야에서 스타트해서 다른 분야를 섞어 가며 그로스해커가 되는 거다. 이들이 전반적인 방식을 어떤 식으로 튜닝하느냐에 따라서 퍼포먼스 차이가 엄청나게 난다. 굉장히 핫한 분야다. 어느 회사나 기획 포인트에서 입김 강한 사람 아이디어를 따르게 되는데, 그로스 해킹 세상은 다 데이터 근거 기반이다. 무엇보다 지금까지 했던 분야를 활용해서 할 수 있다.
그다음은 정말 데이터 분석가와 데이터 사이언티스트가 되는 과정이다. 많이들 데이터 분석가로 먼저 시작하는데 여기에 머신러닝만 더 공부하면 데이터 사이언티스트로 전향이 가능하다고 한다. 그래서 어디로 가야 할까. 나도 아직 모른다. 진중한 고민이 필요한 시점이고. 분명한 건 4주간의 입문반 수업으로 지금껏 관심을 가져 본 적 없는 세상을 조금이나마 아니, 꽤 많이 알게 됐다. 이렇게 어느 분야를 공부해 보고 싶단 욕구가 샘솟는 게 도대체 얼마 만인지 모르겠다. 어느 길을 택하던 이제 데이터는 늘 함께일 것. May the data be with you.