고차원의 저주와 일상 속 선택의 어려움
우리는 중요한 '결정'을 해야 할 때일수록 더 많은 항목과 정보를 따져본다. "오늘 점심 뭐 먹지?"와 같은 비교적 가벼운 결정에는 맛과 거리 등 두어 가지 항목만 따져보는 것만으로도 충분하다. 하지만 평생 함께할 결혼 상대를 고르는 중요한 결정이라면? 성격과 나이뿐 아니라 직업, 건강, 스타일, 가족 심지어는 말투까지 고려하는 항목이 수십 가지로 늘어나게 된다.
삶에서 뿐 아니라 업무에서도 결정적이고 중요한 일일수록 세세한 항목까지 나열해 정보를 수집하고 최선의 결정을 위해 노력한다. 혹시 고려할 또 다른 항목이 있는지 찾아내고 그에 대한 정보를 수집하는 것은 우리가 일터에서 하는 중요한 업무 중 하나다.
이렇게 항목이 고려하는 디테일해지고 정보가 많아지면 우리는 더 나은 결정을 할 수 있을까? 우리는 안다. 항목이 많아질수록 우리의 결정은 더 어려워진다. 예전에 나는 이런 현상을 단지 정보의 양이 너무 많아 뇌가 과부하가 걸리는 것이라 생각했다. 하지만 이것은 이미 수학적으로도 증명된 문제다.
이렇게 항목이 고려하는 디테일해지고 정보가 많아지면 우리는 더 나은 결정을 할 수 있을까?
하나의 항목이 늘어난다는 것은 하나의 '차원'이 늘어난다는 것과 동일하다. 식당을 고를 때 거리와 맛을 두면 2차원의 평면이 만들어지고, 우리는 근처 식당들을 이 평면 위에 배치시킬 수 있다. 하지만 여기에 가격이라는 항목이 붙으면 또 하나의 축이 만들어지며 3차원 그래프가 된다. 여기에 인테리어, 위생, 메뉴의 다양성과 같은 항목들이 늘어나면 그래프는 4, 5, 6차원으로 계속해서 늘어난다.
수학에는 '고차원의 저주'라는 개념이 있다. 차원이 증가함에 따라 공간의 부피가 기하급수적으로 커져, 평균적인 점들 간의 거리가 멀어지는 현상을 의미한다. 그리고 여기서 중요한 것은 차원이 늘어날수록 각 점들의 거리의 비율, 즉 가깝고 먼 것의 차이가 1로 수렴한다는 데 있다. 이것은 빅데이터에서 매우 중요한 개념이다.
왜냐하면 2차원에서는 명확히 차이 났던 데이터들 사이의 거리가, 차원이 높아짐에 따라 데이터들 간격의 차이가 사라진다. 아무리 많은 데이터도 지수로 늘어나는 항목(차원) 앞에서는 희박한 데이터가 되고, 각 데이터의 차이를 유의미하게 분석하기 어려워진다.
이를 다시 결혼상대를 고르는 것에 빗대어보면, 2~3가지 항목으로 검토했을 때는 명확히 느껴졌던 선택지 상의 차이가, 항목이 6개, 10개로 늘어나다 보면 '그놈이 그놈' 같아 보이게 된다는 것이다. 각 항목 간의 거리비가 비슷해져 역설적으로 선택지 간의 차이가 줄어드는 고차원의 저주에 빠지게 되는 것이다.
빅데이터 전문가가 아니더라도 차원의 저주는 이 시대에 우리가 늘 겪는 중요한 문제가 된다. 왜냐하면 그 어떤 때보다 정보가 넘쳐나는 시대이기 때문이다. 제주도 여행에 갈 카페를 정하는 것도, 아이를 보낼 유치원을 고르는 것도, 내가 오늘 살 주식을 결정하는 것도, 우리는 자리에 앉아 스마트폰을 들면 수십수백 가지의 항목들과 정보들을 마주할 수 있다. 중요한 문제라서 정보를 찾아볼수록, 더 잘 분석하고 대비하려 할수록 우리는 고차원의 저주에 빠지게 된다.
중요한 문제라서 정보를 찾아볼수록, 더 잘 분석하고 대비하려 할수록 우리는 고차원의 저주에 빠지게 된다.
데이터에서 차원의 저주를 해결하기 위해 하는 방법이 있다. 바로 차원을 축소하는 방법이다. 항목의 우선순위를 정해 중요한 항목을 위주로 재정리하는 방식이다. 아니면 항목을 통합할 수 있는 방법을 찾는 것도 좋다. 정보의 홍수에서 무조건 많은 정보를 수집하며 표류하는 것보다, 자신만의 우선순위와 항목을 정하고 정보를 효율적으로 사용하는 자세가 필요한 시대다.