미국 공영라디오 NPR이 홈페이지에 소 한 마리 사진을 올려두고 무게를 맞춰보라고 하자, 17205명의 청취자들이 각자 짐작하는 소의 무게를 적었다 (2015). 사람들은 턱없이 가벼운 450g부터 아주 무겁게는 1500Kg 넘도록 다양한 무게를 적었고, 그 평균이 약 584Kg이었다. 실제 소의 무게는 615Kg로 사람들이 추측한 소 무게의 평균 584Kg과 꽤 달라 보이지만, 그림 1의 전체 분포 그래프에서 보면, 신기하게도 두 값이 아주 비슷한 걸 알 수 있다.
이제 한 사람씩 늘려가면서 평균을 구해보자. 두 사람이 짐작한 소 무게의 평균, 세 사람이 짐작한 소 무게의 평균, 네 사람이 짐작한 소 무게의 평균,......, 이렇게 늘려가다가, 5천 명이 짐작한 소 무게의 평균에 이르면, 별 변동 없이 일정한 값에 가까워지면서, 1만 명의 평균이나 1만 7천 명의 평균이 비슷해진다. 그림 2에서 보면, 처음에는 평균이 아래위로 찌글찌글 움직이다가, 그래프가 오른쪽으로 갈수록, 즉 청취자의 수가 늘어날수록, 평균이 한 값에 수렴하는 걸 볼 수 있다. 바로 이 값이 진짜 소의 무게이다. 이처럼 자료가 커질수록 추정값이 참값에 가까워지는 현상을 수학에서는 큰 수의 법칙(Law of Large Numbers)라고 부른다.
요즘처럼 다양한 분야(Variety)에서 사람과 사람, 사물과 사물, 사람과 사물이 연결되어 실시간으로 빠르게(Velocity), 엄청난 크기(Volume)의 빅데이터가 수집되면, 포털 싸이트에서의 단순 검색 빈도만으로도 어마어마하게 가치있는 정보를 얻고, 중요한 변화를 예측할 수 있다. 가장 유명한 예로, 2016년 미국 대선을 들 수 있다. 대부분의 언론들과 여론조사결과가 힐러리 클린턴이 이길 것이라고 예측했지만, 실제로는 클린턴이 더 많은 표를 얻었음에도 불구하고, 트럼프가 더 많은 선거인단을 확보하면서 대통령이 되었다. 이때, 빅데이터 분석가들은 온 세계의 수많은 사람들이 접속하는 구글이 마치 신처럼 선거 전에 이미 대선 결과를 다 알고 있었을 거라고 말했다. 실제로 이후 공개된 구글 트렌드 (Google Trends)에서 클린턴(Clinton)과 트럼프 (Trump)를 검색해 보면, 대선 전후로 트럼프에 대한 검색횟수가 훨씬 높은 걸 볼 수 있다. 이런 중요한 정보를 미리 예측할 수 있다면, 불확실한 미래 위험을 피하고, 정책과 투자 효율을 극대화시키며, 절대적으로 유리한 고지를 선점할 수 있을 것이다. (정하웅, KBS 생각의집, 2015) 우리나라 네이버에서도 네이버 트렌드를 이용해서, 단어의 빈도를 그래프로 볼 수 있다.
빅데이터의 중요성이 알려지면서, 일부 사람들이 이를 역이용하고 싶은 유혹 때문에 매크로를 돌리거나 조직적으로 검색횟수를 늘려서 여론을 선동하고 데이터를 훼손하는 사례가 생겨났다. 또한 적성 국가들이 적대적 목적으로 상대국가의 여론에 개입한다는 소문도 무성했다. 미국에서는 러시아가 개입한다는 소문이 돌았고, 우리나라에서도 중국과 북한이 네이버나 다음 검색 조회수에 개입한다는 소문이 돌아서, 여전히 데이터 분석가들은 포털의 여론 데이터에 의심의 눈초리를 거두지 않고 있다.
빅데이터는 크다는 사실만으로도 편향되지 않은 참인 정보를 줄 수 있어서 돈으로 따질 수 없는가치(Value)가 있기 때문에, 빅데이터가 정확하고(Validity) 진실(Veracity)되게 수집되고, 오래 잘 관리될 수 있도록 (Volatility) 지키는 건 온 국민의 몫이다.