데이터에는 철학이 필요하다
철학 없는 데이터는 쓰레기이다
데이터는 중요한데, 그래서 데이터가 뭔데?
우리가 말하는 데이터라는 것은 무엇일까? 많은 사람들이 데이터는 차갑고 정확한, 그 무언가로 생각 하지만 나는 전혀 다르게 생각한다. 나는 데이터란, 세상을 우리의 머리로 이해하기 위해 만든 추상화 도구라고 생각한다. 그리고 모든 추상적인 생각들이 그렇듯, 그것은 언제나, 항상, 진심으로 현실을 완벽하게 반영하지 못한다
한 사람의 모든 것을 수로 나타낼 수 있을까? 많은 것을 수로 나타낼 수 있지만, 모든 것을 나타낼 수는 없다. 왜냐하면 "수"라는 것 자체가 우리가 이미 세상을 한번 필터링한, 다른 사람과 공유하기 위해 쓰는, 혹은 현실을 추상화하기 위해 쓰는 도구이기 때문이다. 사진이 아무리 정확하더라도, 실제로 보는 것과 다른 이유와 같다. 본다는 것은, 단지 시각적으로 보는 것뿐만이 아니라 볼 때 느껴지는 햇빛, 은근히 스쳐 지나가는 냄새, 수군 거리듯 들리는 소리, 사각거리는 옷 등의 많은 자극들이 통합되어 "본다"는 느낌으로 이루어지지만, 내가 본 것을 사진이라는 도구를 통해 다른 사람과 공유할 때, 시각적인 부분 이외의 많은 정보들은 삭제되고 떨어진다
우리가 다루는 데이터는 그렇기에 우리가 세상의 무엇을 어떻게 보고 싶은지에 따라서 달라지는 우리의 이상 이자, 추상적인 개념이라고 생각한다. 물론, 수학적인 기법을 통해서 데이터를 사용해 우리가 직접적으로 볼 수 없는 세상의 진실을 찾을 수 있지만, 이 기법들의 근간이 되는 데이터는 이미 우리의 세계관과, 이상, 그리고 해석이라는 필터를 통과하여 만들어진 "수"라는 것은 부정할 수 없다.
IT기업의 지표 또한 마찬 가지이다. 회사의 서비스에 대해서 알고 싶을 때 우리는 지표를 만든다. 그런데 그 지표는 세상을 정확히 반영하는가? 왜 그 지표를 보고자 하고, 그 지표는 무엇을 통해 만들어져야 하고, 그 지표를 만들 때 근간이 되는 받아들여진 사실을 무엇이고, 데이터는 어떻게 만들어지고 등등등.... 수많은 것들을 고려하고, 또 취사선택을 하면서 우리는 우리가 '믿기로 결정한' 수치를 만들어 낸다. 물론 그 수치는 정확할 수도, 정확하지 않을 수도 있다
그렇기에 데이터 분석가라면, 그리고 사이언티스트 라면, 정보와 데이터라는 것에 대해서 한 번쯤은 자신만의 기준이 있어야 한다고 생각한다. 우리는 늦으나 빠르나, 커리어의 어느 시점에서 현실을 적절히 이해하기 위한 (보통 앱 서비스 라던가) 데이터 구조를 설계하고 변경하게 된다. 그리고 이렇게 만들어진 데이터는 수많은 사람들에 의해 쓰이고 변형되면서, 회사 곳곳에 많은 영향을 끼치게 된다. 그렇기 때문에 우리는 데이터에 대한 자신만의 철학이 있어야 하고, 이러한 철학은 그 사람의 업무 스타일과 우선순위, 그리고 프로젝트의 방향을 알게 모르게 영향을 끼친다
데이터를 해석하는 사람의 철학 또한 중요하다
위에서 말했던 것처럼, 현실을 데이터로 맵핑하기 위해서는, 데이터를 만드는 사람이 데이터 자체에 대한 확고한 시각이 있어야 한다. 하지만, 이것은 데이터에 대한 것을 50%만 커버한다. 이러한 데이터를 해석하는 사람의 철학이 확고히 잡혀 있지 않다면, 데이터는 지혜와 실행이 되지 못하고 단지 데이터로 남겨져 버린다. 결국, 정확하고 올바른 데이터가 존재하는 것도 중요하지만, 데이터를 해석하는 사람, 그 사람이 속한 데이터 드리븐 문화, 그리고 그 문화가 이루어지기까지 겪은 수많은 삽질이 더해질 때 비로써 우리는 "데이터"를 가지고 있다고 말할 수 있다.
그렇다면 우리는 데이터를 해석할 때, 어떠한 철학을 가지고 있어야 할까? 나는 아래와 같은 생각을 항상 염두에 두고 데이터를 분석한다면, 굳이 거창한 철학이 있지 않아도 된다고 생각한다
1. 내가 보고 있는 데이터는 수많은 의사결정과 누락, 그리고 변경을 통해 만들어진 데이터이다
2. 하나의 데이터는 맥락에 따라 다양하게, 혹은 정반대 되는 의미를 가질 수 있다
3. 하지만 그럼에도 불구하고 데이터를 기반으로 우리는 실행해야 한다
1번에 대해서 조금 더 상세히 설명해보도록 하자. 데이터만 있다고 어떤 것이든 할 수 있을 듯이 느껴지는 것은 착각이다(빅 데이터라는 말이 떠오르지 않는가?). 데이터가 수 테라바이트가 있다고 하더라도 그 데이터가 어떤 협의를 통해서 만들어졌고, 또 어떤 정보를 누락하고 포함하며, 어떤 방식으로 쓰여 왔고, 관련자들은 누구이고, 변화했을 때 서비스에 어떤 영향을 주는지 수많은 시도와 고민을 통해서 알지 못한다고 한다면, 그 데이터가 얼마나 소중 하든, 그것은 실 서비스에 영향을 미칠 수 없다. 그 데이터의 한계가 무엇이고 어디까지 상요 할 수 있는지 알 수 없기 때문이다. 아니면 맹목적으로 신뢰하던가.
2번을 명심하는 것 또한 중요하다. 내게 주어진 데이터는 결국에 내가 손에 쥐고 있는 데이터라는 한계를 벗어나지 못한다. 올해 기준금리가 1% 라는 데이터를 우리는 어떻게 해석해야 할까? 우리의 현 상황에 따라 이 금리는 매우 높은 금리일 수도 있고, 매우 낮은 금리일 수도 있다. 이렇게, 우리의 상상력에 따라 데이터는 다양하게 해석될 수 있다
이렇게 1번과 2번의 제한에도 불구하고, 우리는 데이터를 기반으로 의사 결정을 내려야 한다. 아무리 데이터가 부정확하더라도, 그것이 주는 정보는 모호하고 부정확한 우리의 현실에서 어렴풋이 올바른 길을 가르쳐 줄 수 있는 이정표 이기 때문이다. 적어도 상식과 감각보다는 괜찮은 지표이다.
이렇게 데이터는 세상을 보는 많은 도구들 중 굉장히 훌륭 하지만, 동시에 까다로운 도구이다. 왜냐하면, 이전 글에서도 말했다시피, 데이터는 추상적이고, 그렇기 때문에 철학적인 부분을 띄며, 동시에 사람마다 다르게 인식하기 때문이다. 이렇듯, 뜨거운 생각과 고민이 들어가지 않은 데이터는, 어디에도 쓸 수 없는 쓰레기. 그 이상도 이하도 아니게 된다
그래서 당신은 데이터에 대해서 어떤 철학을 가지고 있는가?