그러나 발전은 시너지에서 시작한다
2016년에 쓴 일기를 수정해서 올린 글입니다.
쓰레기통에 버려진 데이터
내 중국어 과외선생님 사무엘은 자신이 다니는 패션 대학교의 재활용 쓰레기통에서 20세기 중반부터 옷이나 잡화를 만드는 비용이 상세히 적힌 수필 문서를 발견했다고 한다. 패션대학교에선 쓸모가 없다고 생각해서 버렸겠지만 나는 데이터 과학자로서 그 문서가 어느 누구에게는 정말 중요한 문서로 쓰였을지도 모른다는 생각이 들어서 안타까웠다.
데이터 과학의 관건은 데이터 분석이 아닌 확보
데이터 과학자로 일하면서 가장 힘든 부분은 데이터 분석이 아니라 데이터를 확보하는 과정이다. 최근 데이터 과학이 발전하게 된 이유는 분석하는 방법이 새롭게 발견되어서가 아니라 방대한 양의 데이터를 자동으로 저장할 수 있는 기술과 하드웨어가 개발되어서이다. 데이터 분석은 이미 오래전에 수학자들이 개발되했는데 그 기술을 적용할 수 있는 방대한 양의 데이터가 존재하지 않았었다.
인력과 발전이 특정 분야에만 모이는 현상
요즘 인터넷 회사, 금융회사, 정부기관 등 데이터를 가지고 분석하는 기관들은 크게 발전하고 있다. 기술의 발전을 주도하는 회사들은 크기도 하지만 무엇보다 자본과 기술력이 있고 데이터를 자체적으로 이용하기도 하지만 데이터를 저장할 기술이 없는 타 기관에 비싸게 팔아서 돈을 벌기도 한다. 커머스, 광고, 금융, 투자에서 시작해서 돈 되는 분야 순서로 (예를 들어 의료나 패션 같은) 퍼져 나가고 있다. 돈이 되지 않는 분야들은 거의 기술 발전의 혜택을 보지 못하고 있다. 이러한 현상으로 데이터로 인해 부익부 빈익빈이 더욱 악화되고 있다. 머지않아 의사 대진 알고리즘이 병을 진단하고, 드론이 분리수거를 하는 세상이 올 것이다. 이미 이런 기술들은 합쳐지지만 않았을 뿐 존재하며, 누군가에 의해 도입되기만을 기다리고 있다.
내가 아는 데이터 과학자들도 대부분 큰 기관들에서 여러 명의 데이터 과학자들이 팀을 이루어서 일한다. 작은 기관들은 요즘 수요가 높은 데이터 과학자들에게 높은 임금과 고용혜택을 주지도 못하고 무엇보다 데이터를 모을 수 있는 체계를 갖추지 못했다. 그러면 분석할 데이터를 확보하기 힘들고, 분석할 데이터가 없으면 데이터 과학자들은 무용지물일 수밖에 없다. 그래서 데이터 인력은 모두 큰 인터넷 회사로 흘러들어 가서 그들은 종종 중요한 프로젝트를 맡기도 하지만 대부분은 광고와 광고의 간격을 0.2센티로 해야 더 클릭이 많이 들어오는지, 아니면 0.23센티로 하면 더 클릭이 많이 들어오는지 같은 작은 것들을 연구하는 경우가 더 많을 것이다. 그러는 동안 회사에서, 공공기관에서, 대학에서, 교회에서 얼마나 많은 역사적 문서가 버려지고, 돈이 되지 않거나 현재까지는 상업적 가치가 없는 수많은 데이터가 재활용 쓰레기통으로 가고 있을까. 작은 기관들에는 데이터를 쓸 수 있게 해주는 체계가 절실하게 필요하다.
다음 레볼루션도 아마 시너지에서 나올 것이다 그리고 시너지에는 희생이 따른다
스티브 잡스가 전혀 동떨어져 있는 것 같던 두 분야 테크놀로지와 디자인을 결합했을 때 세상은 폭발적인 시너지 효과를 보았다. 빌 게이츠도 자신이 가진 수학적 분석력과 막대한 재산을 자선사업과 결합시켜서 환경, 의료, 기아 문제들에 전무후무했던 획기적인 발전들을 가져오고 있다. 이런 시너지를 만들어 내기 위해서는 우리가 ‘원래 그런 줄 아는’ 생각들, 예를 들어 ‘개발자는 자고로 구글에서 일해야지’ 같은 생각들에서 탈피할 필요가 있는 것 같다. 세상을 전체적으로 보면 의심할 여지없이 발전하고 있지만 발전의 불균형은 너무나 크다. 그래서 지금 큰 회사에서 여러 데이터 분석가들 틈에서 일을 하고 있거나 여러 프로그래머들 틈에서 일하고 있는 인재들에게 다음에 직장을 옮길 때는 (물론 이미 체계가 구축되지 않은 분야에서 일하는건 힘든 일이고 희생이 따르겠지만) 재활용 쓰레기통을 가고 있는 문서를 후대에게 남길 수 있는 그런 직장을 한 번이라도 고려해 주길 부탁하고 싶다.