데이터사이언티스트가 될 줄 알았는데 못 되고 있는 사람의 이야기
데이터 전문가, 데이터 사이언티스트가 되기 위해서 해야 할 공부가 정말 무궁무진하다. 요즘 난립(!) 하고 있는 각종 데이터 교육 기관이나 업체들의 교육 커리큘럼을 보면 알 수 있다. 정말이지 아찔하다. 내가 왜 겁 없이 덤볐지? 왜냐고? 16주 만에 완성시켜 준다길래 덤볐지. 기초통계 2주, 선형대수/벡터/미적분 해서 4주, 파이썬 프로그래밍 4주, 머신러닝과 딥러닝 약 5-6주. 뭐 이런 식. 이렇게 계산해도 16주가 꽉꽉인데 그 사이에 프로젝트도 해야 하고 캐글도 참가해 보고 테스트도 보고. 아! 프로그래밍 기초와 자료구조도 배웠지. SQL 언어도 잠깐 봤었다. 헤헷
하고 나면 뚝딱 현업으로 점핑할 수 있을 거라고 생각하진 않았다. 뭐 하나 머릿속에 '내 것'이라고 느껴질 만한 무언가가 잡히지 않았었기 때문이다. 잡힐 듯 말 듯 이 아니라, 형체만 식별이 될 뿐 잡을 엄두가 나지 않는 수준이었다. 그나마 수확이라면 '이제 어떻게 잡는지 알려줬으니 앞으로 네가 이 망망대해를 잘 헤쳐나가서 꼭 언젠가는 잡아내길 바라'와 같은 메시지를 전달받았다는 느낌 정도랄까.
그래서 개인적으로 추천 알고리즘으로 SQL 전문가, 데이터 사이언티스트 초단기 완성반과 같은 광고가 자주 눈에 띄는데 솔직히 몹시 거슬린다. 피해자라서? 아니, '말은 바로 했으면' 싶어서. 아무것도 모르고 취업에 대한 막연한 불안감으로 벌벌 떨면서 지푸라기 잡듯 이 바닥을 기웃거리는 많은 취업 준비생들을 호도할 수 있기 때문이다. 말 그대로 과대/과장 광고들이 많은데, 조금만 점잖아졌으면 한다. '이 커리큘럼을 소화하고 나면 당신도 언젠간 될 수 있습니다'는 맞지만 '이 커리큘럼을 12주만 소화하면 당신도 될 수 있습니다'는 틀리다.
나는 수학, 과학이 낯선 인문계(문과) 학생들에게 데이터 사이언티스트가 그렇게 쉽게 닿을 수 있는 목표가 절대 아니라고 생각한다.
나는 기초통계학이 데이터 분석가의 기본 소양이라고 생각한다.
(아무리 머신러닝이 재주를 부리고 딥러닝이 널을 뛰어도 말이다.)
그나마 비벼볼 만했던 게 통계학이었다. 통계학이라고 해봐야 원론 수준의 기초통계학이라, 통계학 전공자분들께 '통계학을 비벼볼 만하다'라고 표현하는 게 결례라고 느껴질 정도로 얕은 통계학이다. 그래도 데이터를 보고 인사이트를 제공해야 하는 데이터 분석가로서 기초통계학 수준의 통계 지식은 그야말로 기본 소양이라고 생각을 해서, 다른 과목들은 몰라도 통계 이론만큼은 제대로 알고 일하자고 생각해 왔고 지금도 그렇게 생각한다.
섹시한 그 이름 '머신러닝'도 결국은 통계와 수학에서 발전한 개념이고, 수많은 숫자들을 가지고 결론을 낼 수 있는 대푯값(평균 등)에 대한 개념 또한 통계학의 범주에 속한다. 사실 우리 삶에 통계는 공기와 같이 자리하고 있어서 되려 통계라고 퉁치는 게 새삼스럽게 느껴질 정도다. 매달 지출액과 월급의 연평균과 전년대비 변화량 트렌드도 통계고, 대통령 지지율을 지역별로, 세대별로 쪼개서 그 차이와 원인을 알아보는 것도 통계다. 너무 당연한 이야기를 하고 있는데, 그만큼 통계는 데이터 양의 크고 작음을 떠나 데이터를 공부하고 만지는 사람에게는 너무도 당연한 학문이라는 말이다.
문제는 이놈의 머리가 나빠서인지 월급통장 못지않게 로그인과 로그아웃이 순식간이다. 아무리 머리에 집어넣어도 자꾸만 빠져나가서 고민이다. 내가 통계를 공부한 시간은 꽤 길다. 준전문가는 돼야 하는 거 아닌가 싶은데, 돌아서면 잊어버리고 써먹으려면 생각이 나지 않고, 다시 공부하면 나름 되살아나긴 하는데 실무에 쓰려고 하면 또 기억에서 멀어져 있다. 생각보다 많이 고통스러운 부분이고 과도기라고 생각하는 부분이다. 예로 들자면 영어회화와 같달까. 기가 막힌 표현과 문장들을 달달 외워도 외국인 앞에 서면 작아지는 그 느낌말이다!!
통계학 과목이 포함되어 있는 자격증을 3개나 취득했었고(사회조사분석사, 데이터 분석 준전문가(ADSP), 경영 빅데이터 분석사) 학부 때도 경영통계학을 세 번이나 들었다.(대충 삼수강했다는 이야기) 사설 교육도 받았고 사내 스터디도 했다. 할 때마다 '기억이 되살아나는' 기분이다. '아는 걸 리마인드 하는' 기분이 아니고 왜 매번 자동 로그인을 시켜놨는데 다시 수동 로그인을 해야 하고 "네가 진짜 통계 아는 거 맞아?"라고 2단계 인증까지 해야 하는지!!!
기술통계는 물론이고 각종 검정 방법, 추정, 가설, 나아가 교차분석, 상관분석, 분산분석, 그리고 회귀분석까지. 좀 더 깊은 내용도 잠깐 봤었고. 여기까지 그래도 제대로 알아야 데이터 분석을 제대로 할 수 있다고 믿고, 머신러닝까지 기본기 달고 소화할 수 있다고 보기 때문에 매번 나는 진심인데 또그아웃이다 또그아웃. 지독한 짝사랑.
그래서 이번에 또 도전한다. 다이어트 같네. 살 빼고 요요 오고 무한 반복..
이번엔 '빅데이터를 지배하는 통계의 힘'이라는 책을 가지고 미워도 다시 한번 머릿속에 집어넣어 보려고 한다. 세상에서 가장 무서운 게 '어렴풋이 알면서 잘 아는 척하는 것'과 '애매한 재능'이라고 배웠다. 지금 딱 나인데, 다른 건 차치하더라도 데이터 분석가로서 통계학 기초만큼은 제대로 기본기를 다지고 뭘 하더라도 하려고 한다.
맞다. 요즘 가설 세우고 분석 아이템을 만들어서 업무를 진행해도 모래 위에 성을 쌓는 느낌이 들어 고민이 많았다. '사상누각'이 딱 지금 내 상황이 아닐까 싶어서, 단순히 통계학이 아니라 내 커리어 자체가 조금씩 벽돌을 올려 성을 쌓으려고는 하는데 이게 모래 위에 쌓이고 있는 게 아닌가 되돌아볼 필요가 있어서, 그런 생각이 문득 들어서 글을 써봤다.
(원글 : 2021년 4월 작성. 고로 시간이 지남에 따라 현재 상황 및 견해와 일부 다를 수 있습니다. 그렇지만 그놈이 그 놈이라 별일 없을 겝니다.)