모든 점은 연결된다

문과생이 데이터사이언티스트가 되기까지

Jun 22. 2022

일주일 전, 드디어 기다리고 또 기다리던 소식에 한껏 들뜬 감정을 주체할 수 없었다. 바로 취업 합격소식. 그렇게 기다렸건만 합격소식은 너무나도 갑작스럽고 믿기지 않으면서도 반갑게 찾아왔다.

얼떨떨한 마음에 이메일로 받은 오퍼레터를 읽고 또 읽었다. 연봉과 출근일 그리고 직급이 적혀있는 오퍼레터는 신기하게도 한국어로 쓰여있었다. 그렇다. 나는 4년이 넘도록 회사생활을 하면서 한국어로 된 오퍼레터를 받아본 적이 없었다.

한국에서 직장생활을 해본 적이 없었던 나에게는 어느새 4~5년 차에게 주어진다는 '선임'이라는 낯선 직급이 주어졌다. 그리고 해외에서 다니던 직장을 그만둔 지 약 2년 만에 나에게는 '데이터사이언티스트'라는 새로운 임무가 주어졌다.

데이터사이언티스트가 뭐야?

'데이터사이언티스트'는 도대체 무슨 일을 하는 사람들일까? 국내 모 사이트 지식백과에 따르면 정보(데이터) 바다에서 가치 있는 데이터를 추출해 분석하는 과학자라고 한다. 너무 대략적이고 모호한 문장이다. 도대체 데이터가 얼마나 커야 '정보의 바다'라고 할 수 있는 것인가? 무슨 데이터를 도대체 왜, 어떻게 추출하고 무슨 방법으로 분석한다는 말인가? 그리고 과학자라는 말은 좀 거창하지 않은가?

미천한 지식으로 감히 '데이터사이언티스트'를 정의해 보자면, 데이터에서 남들이 보지 못하는 패턴을 찾아내고 미래를 그나마 사실에 '가깝게' 예측하려는 시도를 하는 사람들이 아닐까? 모든 머신러닝/딥러닝 모델들은 정도의 차이만 있을 뿐 틀렸다. 분산이 중요하고 오 차 항이 존재하며 손실 함수가 존재한다. 100% 정확도라는 것은 없다. 마치 플라톤이 '동굴의 비유'에서 이야기하듯 모든 머신러닝/딥러닝 모델은 현실이라는 '이데아'의 투사에 지나지 않는다. 즉 누가 덜 틀리느냐의 싸움이다.

물론 머신러닝과 딥러닝에는 수많은 방법론들이 존재하고 그것들로 할 수 있는 것도 무궁무진하다. 기계를 직접 학습시키느냐(supervised learning), 기계가 스스로 학습하게 하느냐(unsupervised learning)에 따라서 나눌 수도 있다. 분류, 회귀와 같은 머신러닝 모델들 뿐만 아니라 ANN, CNN, RNN, LSTM 같은 딥러닝 모델은 예측뿐 아니라 이미지와 음성인식, 텍스트 감성 분석, 이상치 탐지같이 신박한 것들을 가능하게 해주기도 한다. 그러나 대부분의 경우 데이터 모델과 분석의 최종적인 목적은 결국 주어진 데이터 속에서 '미래'를 예측하는 것이다.

Connecting the dots

2년 만의 시작이다. 발리를 시작으로 에스토니아를 거쳐 미국과 캐나다까지. 바람처럼 세계를 유랑했던 지난 1년 6개월, 그리고 '인공지능'이라는 새로운 분야를 향해 돌진했던 지난 6개월이 주마등처럼 스쳐간다.

방황이었다고 하면 방황이었겠지만, 그리고 결과론적인 이야기일지 모르겠지만 여행과 공부를 하지 않았다면 지금 새로운 스타트라인에 서지 못했을 것이다. 여행하는 내내 진짜 디지털 노매드를 꿈꿨고, 허무한 환상처럼 보였던 그 꿈은 IT업계로 나를 이끌었다.

마찬가지로 회사생활에서 거쳐온 일들이 없었다면 나는 새로운 도전을 하지 못했을 것이다. 첫 직장에서 상사를 원망하며 엑셀 막일로 수십만 줄의 고객사 데이터를 가공하면서 느꼈던 막막함과 답답함이 없었다면, 나는 인공지능과 만나지 못했을 것이다.

데이터라는 석박사 출신과 엄청난 인공지능 덕후들 사이에서 문과 학부 출신인 내가 과연 잘 해낼 수 있을까? 대형사고를 쳐버리면 어쩌지? 한 가지 확실한 것은 인공지능, 머신러닝, 딥러닝. 이런 것들이 너무 재미있다는 것이다. 그리고 이 새로운 여정은 나를 또 다른 어떤 곳으로 이끌어줄 하나의 점일 것이다.

keyword

매거진의 이전글AI 부트캠프에서 얻은것들인공지능은 사람이 될 수 없다매거진의 다음글