아직도 데이터랑 친해지는 중입니다
데이터와 싸운 지 어연 3개월째다.
처음 데이터를 하나씩 모을 때는 마냥 진도가 쑥쑥 나가는 줄 알았다. 엑셀 데이터 파일의 행과 열에 수십 줄씩 쌓이는 데이터를 볼 때마다 내 안에 뿌듯함도 금세 차올랐다. 속도감은 도파민을 마구 배출했다. 1970년대부터 지금까지 이어지는, 약 50년에 가까운 데이터를 한 파일에 가진 든든함은 이루 말하기가 어려웠다. 밥을 안 먹고, 잠을 안 자도 데이터 파일의 용량이 50년만큼 무거워진 걸 보면 멈출 수가 없었다.
진정한 도파민은 행과 열의 데이터가 만들어내는 이야기였다. 데이터로 간단한 피벗 테이블만 돌려도 재밌는 팩트가 쏟아졌다. 시기별로 어떤 전공이 인기 있었는지, 경쟁률은 얼마나 높고 낮아지는지, 과거부터 지금까지 여성의 비율이 어떻게 변해왔는지 등 지표를 한눈에 본다는 건 그야말로 스릴 있었다. 기술통계만 해도 이렇게 재밌는데, 모델링을 돌리면 또 얼마나 흥미로울까!
그땐 몰랐다. 그것이 그저 독립변수 중 하나였다는 걸! 내가 모은 데이터로 새로운 지표를 만들어 보기도 하고, 데이터와 지표들이 어떤 형태를 갖는지 그려보기도 하고, 그 데이터들이 어떤 결과로 이어질지 연결해보기도 했다. 그 과정은 사실 여전히 진행 중이다. 데이터 구축에 한 달 정도 걸렸다면, 데이터를 쪼개보고 합쳐보고 그려보고, 이렇게 친해지는 데만 약 2개월을 쓰고 있다. 고백하자면 이 과정은 재미 20%에 고민 30%, 고난 50% 정도다. 아아, 과거의 재미는 80-90%가 넘었는데, 그 시절은 어디 갔는지.
시간은 노력을 배신하지 않는다. 이 말을 굳게 믿는 수밖에 없다.
지금은 1개월간 데이터를 구축한 시간이 구축만 한 게 아니라 자연스럽게 내 원 데이터와 친해지는 시간이었다고 생각한다. 내 데이터는 어떻게 생겼는지, 어떤 점에서 시차 적용이 필요한지, 어떻게 쏠림이나 분포가 되어있는지를 굳이 통계 프로그램을 돌리지 않아도 이해할 정도로 친숙해졌다.
한편, 새로운 데이터는 그만한 노련함이 쌓이지 않았다. 아무래도 데이터를 내가 쌓아올리지 않은 탓에 이 데이터는 어디서 어떻게 나온 건지 알기가 어려웠다. 그래서 데이터 처리를 시작하는 것부터 막막하다. 그 탓에 선배와 chatGPT를 계속 괴롭히게 된다. 선배를 매번 귀찮게 할 수 없으니, 후자에 주로 매달린다. 하지만 그 친구는 내가 아는 만큼만 알려줘서 참 답답하다. 내가 잘 모르고, 질문을 잘 못 하면, 확실히 진도가 안 나간다. 이 친구랑 싸우다가, 기존 문헌도 찾아보고, 데이터 분석 유튜브도 보고, 급기야 수학 공부까지 들어가기도 했다.
고군분투하고 선배에게 고민을 털어놓으면 그는 쉽게 답을 주었다. 박사를 졸업하고 나면 데이터만 봐도 어떻게 분석을 해야할지 감이 척척 오는 경지에 이르는 걸까. 경이롭게 우러러 보는 내게 선배는 생성형AI가 없던 시절 책을 하나하나 살펴볼 수밖에 없었다는 이야기를 들려주었다. 아무래도 시간이 오래 걸리긴 했지만, 한 번에 답을 얻기보다 문제에 파생된 가능성까지도 깊고 넓게 배울 수 있었다고 한다. 지금은 책도 책이지만, 생성형AI에게 "지금 내가 범한 오류가 있을까?"를 매번 확인하고 넘어가면 파생 이슈들을 커버할 수 있을 거라며 다독여주었다.
데이터를 하나씩 모으고 처리하면서 깨닫는다. 작은 데이터 한 조각도 내 마음대로 되지 않는다는 것을. 그렇게 머리를 싸매고, 컴퓨터도 노려보고, 책도 박박 뒤져가면서 바라본다. 부디 이 시간과 노력이 켜켜이 쌓여서 언젠가는 '학도'(학문을 닦는 사람)을 넘어서 '학자'(학문에 통달하거나 학문을 연구하는 사람)가 되기를.