철학 심화 전공 문과 출신 에디터의 데이터 사이언스 입문기.
DS School 데이터 사이언스 입문반 첫 수업(주 1회 5시간 4주 과정)에 다녀왔다. 갑자기 무슨 놈의 데이터 사이언스냐. 두 달 전, 북저널리즘 LAB에 연사로 DBR 고승연 기자님께서 오셨다. 강연 주제는 ‘문과생을 위한 데이터 사이언스’. 디지털 전환의 시대에 문과생의 생존법을 모색하는 자리였다. 데이터 사이언스를 공부해야 하는 이유는 간단하다. 인공지능에 의해 화이트칼라가 소멸되고 있으니까.
살길을 찾아야지. 그 살 길이 데이터 사이언스에 있고. 고승연 기자님은 문과생이 데이터 과학자가 되는 건 가능하지도, 필요하지도 않으니 ‘시민 데이터 과학자’가 되는 것으로 충분하다고 하셨다. 근데 그러기 위해서는 시민 데이터 과학자가 되려면 기본적인 통계 지식을 갖추고, 코드를 읽고, 직접 간단한 데이터 분석을 할 줄 알아야 한다. 당장에 뭐부터 시작해야 할지 막막한 채로 두 달을 흘려보냈다. 물론 그사이에 기자님이 추천해주신 몇 권의 책을 읽기도 했지만, 뭔 소리인지 하나도 이해하지 못했다. 역시 이 분야는 문과생에게 무리인가 싶다가도 시작이 반이라고, 일단 부딪히기로 했다.
그럼 첫날 가서 무얼 배웠느냐. 나도 뭔가를 배우고 시작할 줄 알았다. 그런데 1시간가량의 자기소개 시간 이후 바로 Kaggle에 참가했다. Kaggle은 전 세계 현업 데이터 과학자들이 참여하는 데이터 사이이언스 경진 대회로, 막강한 글로벌 공신력을 갖춘 대회다. 구글, 마이크로소프트, 배틀그라운드 등의 회사가 스폰서로 세 가지를 제공한다. 문제, 데이터, 상금. 전 세계에 있는 데이터 과학자들이게 ‘우리 문제들 대신 해결해줘, 그럼 상금 줄게.’라고 하는 거다. 데이터 사이언스에 대한 기초 지식이 1도 없는 수강생들을 놓고 이 무슨 무모한 도전을 시키는 건가 싶었다. 다행히 우리가 풀 문제는 쉽다면 쉬운(?), 기초 실력을 갖추기 위한 문제였다. Titanic: Machine Learning from Disaster. 타이타닉 해상 사고 승객 정보를 바탕으로 유사한 사고시 누가 생존할지 예측하는 예측 모델을 만드는 거다.
두 종류의 데이터가 있다. train 데이터와 test 데이터. 이름, 성별, 나이부터 시작해 티켓 등급, 함께 탄 가족 수, 탑승 선착장 정보까지 갖춘 train 데이터를 보고 어떤 조건에 사람들이 생존하나 패턴, 룰을 찾아 이걸 test 데이터에 적용한다. 굳이 단계를 나누자면 가설을 세우고, 그 가설을 검증한 후 검증 결과로 생존 여부를 예측해 그 결과를 Kaggle에 제출하면 점수가 나온다. 이 과정에서 어떠한 수학, 통계학 지식도 필요치 않다. 몇 가지 가설을 함께 세우고 예측 모델을 만든 후에는 2인 1조로 실습 시간이 주어지는데 50분, 정말 짧은 시간이다. 허접한 예측으로 7637등(같은 점수면 먼저 올린 사람이 더 높은 등수를 받음) 했다.
최고 수업 중 최고 점수를 받으신 분은 건설회사 기획팀에 계신 분이었다. 자기소개를 하며 느낀 건데, 정말 다양한 분야의 사람들이 모였다. 그만큼 거의 모든 분야가 데이터 사이언스를 필요로 하고 있다. 마지막 1시간을 남기고 선생님께서 ‘여러분이 다음 수업을 모두 소화하시면 어떤 걸 할 수 있는지 미리 보여드릴게요.’라며 파이썬을 켰다. 내가 4시간 동안 낑낑거리며 한 일을 인공지능이 1초에 끝냈다. 점수도 사람과 비등하다. 《특이점의 예술》이 떠올랐다. 인공지능은 이미, 인간을 앞서 있다. 공포와 허탈함으로 수업을 마치긴 했지만, 그리고 다섯 시간 동안 컴퓨터를 뚫어져라 보고 있자니 눈알이 빠질 것 같았지만, 데이터 사이언스는 재미있다. 무작정 겁먹고 아무것도 시도하지 못한 시간이 너무나 아까울 정도로 재미있다. 재미있다고 마냥 쉬운 건 아니지만, 이 정도로 재미있다면 좀 더 적극적으로 시민 데이터 과학자가 되고 싶다.
자기소개 항목 중 ‘최근에 내가 배운 것’이 있었는데, 떠오르는 게 없었다. 경험에서 배운 건 많더라도 요근래 노골적으로 나한테 투자를 해 배운 게 있었나. 그렇게 향상심 노래를 부르면서 정작 실행에 옮긴 게 별로 없더라. 지금이라도 새로운 배움을 시작해 기쁘다. 무엇보다 뭔가를 배우면서 이렇게 재미있던 게 정말 오랜만이다.