몇 년 전부터, '빅데이터'라는 단어는 양적 연구자들의 호기심을 일으켰다.
학술 세미나에 다녀보면, 주제와 무관하게 빅데이터가 들어간 연구발표는 항상 인기만점이었다.
마치 빅데이터를 사용하지 않으면, 혹은 사용할 줄 모르는 연구자는 시대에 뒤처진 것처럼 보였고, 많은 양의 데이터를 분석는 것 자체가 기존에 보이지 않던 새로운 무언가를 볼 수 있다는 기대감을 갖게 만들었다.
요즘은 어떠한가?
'빅데이터' 안에 내재된 한계를 지적하고, 환상을 걷어내려는 시도들이 갈수록 늘어나고 있다.
빅데이터가 갖는 환상을 걷어내야 한다. 빅데이터 그 자체가 가치있는 데이터를 보장하지 않는다. 많은 빅데이터들은 신뢰성이 없고, 부정확한 데이터일 수밖에 없다. 말그대로 방대한 데이터 안에서 가치있는 정보를 선별하는 가공작업은 오랜 시간과 노력을 투자해야 한다. 그러나 요즘의 연구자, 기업인, 언론인들이 빅데이터 안에서 가치 있는 작은 정보를 찾기 위해 기회비용을 감수하는가에 대해서는 회의적이다.
나아가, 인공지능에 가능한 한 많은 데이터를 입력함으로써 자동적으로 인간이 해결할 수 없는 문제들이 극복된다는 착각으로부터 벗어나야 한다. 인간이 역사적으로 축적한 데이터가 이미 편향적이기 때문이다. 역사적, 문화적으로 성별, 인종, 연령, 소수집단 등에 대해 차별과 편견이 녹아있는 데이터가 누적되었기 때문이다. 이러한 데이터를 활용해 중대한 의사결정을 진행한다면 큰 혼란이 도래할 것이다. 공정하고 신뢰할 만한 데이터를 사용해야 한다. 데이터의 품질을 인간이 조정함으로써, 설명 가능하고 책임감있는 안전한 데이터 활용단계로 나아갈 수 있을 것이다.
언론인, 기업인, 연구자들은 데이터를 일단 수집한 다음에 그 데이터가 유용하게 사용할 수 있는지 여부를 결정하고자 했다. 이미 방대한 양의 데이터를 수집하는데 많은 비용을 지출한 이후에 말이다.
데이터를 수집하기 전부터 충분한 논의와 검증 과정을 통해 그 데이터가 유용한지 여부를 결정하는 절차를 밟는다면, 보다 합리적인 데이터 활용 결정을 내릴 수 있지 않을까.