- 1부 어마무시한 양 (Volume) 에 쫄지 않기-
데이터를 수단으로 돈을 버는 입장에서 데이터에 대한 요즘의 새삼스런 강조는 반길 만한 일이다. 직업인으로서 내가 하루에 대할 수 있는 데이터의 양은 180억 줄에 30여 칸에 이른다. 엑셀로 옮기면 약 5400억 셀이다. 실로 엄청난 빅데이터이다.
이 5400억 셀을 다 다루느냐? 유의미한 자료를 만들어내기 위해서 가공하고자 하는 데이터의 모수로 본다면 맞는 부분이지만 엄밀하게 이 데이터를 다 다루지는 않는다. 자르고 잘라 유의미한 부분에서부터 시작한다. 미디어다음과 같은 하나의 사이트에 대한 데이터, 혹은 20대 남성과 같은 특정 집단에 대한 데이터 등등 최대한으로 쪼개서 분석한다. 그 결과 5400억이라는 짐작하기 어려운 데이터는 때로는 10만 칸 정도로 줄어든다. 10만도 무시할 수 없는 수준의 데이터이지만 말을 조금만 바꾸면 5400억의 빅데이터를 분석했다고 거짓말하기 쉬워진다.
첫 번째로 빅데이터 전문 사기꾼에 대해서 말하고 싶은 것이 바로이 지점이다. SNS를 기반으로 한 빅데이터로 특정 인물에 대한 사람들의 여론을 조사해봤다는 얘기가 심심치 않게 방송에 나온다. 비슷한 분석을 여러 번 한 사람의 입장에서 말하자면 이는 ‘특정 SNS’에서 ‘특정인'에 대해 언급한 ‘일부’에 대한 조사이다. 그럼에도 사기꾼들은 수백만에 이르는 SNS를 전체를 꿰뚫어보고 더 나아가 국민 여론까지 알았다는 양 자극적으로 주제를 뽑아내고 있다. 사회 전반에 대한 확신으로 이러한 분석을 근거로 삼기에는 양적으로나 질적으로나 많은 검증이 뒤 따라야 한다. 이런 분석에 가장 많이 활용되는 SNS인 트위터의 모바일앱 사용자가 주간 120만 명, 모바일 웹이 100만 명 (코리안클릭 0420~0426일 주간 기준)에 이르는데 이는 전체 인터넷 사용자의 앱은 4.1%, 웹은 3.5% 정도이다. 질적인 측면에서 트위터의 이념적 대립 현상이나 일부의 정치적 조작(혹은 소음, 혹은 국정?)도 무시할 수 없는 수준이다.
과학적으로 잘 추출하면 작은 표본으로도 전체를 대표할 수 있다는 건 통계적으로 이미 상식이다. 빅데이터 사기꾼의 문제는 자기가 추출한 표본이 상당 부분 특정 서비스에 의존적일 수 있다는 것, 그리고 서비스의 특성에 따라 얼마든지 결과가 변할 수 있다는 것, 직접적으로 분석의 대상이 된 사람이 몇 명인지 정확히 밝히지 않는 것에 있다. 질적으로 뒷받침할 수 없으니 양적으로 밀어 부치는 게 아닐까 생각한다.
이미 우리는 충분히 데이터 양에 압도되고 있다. 분명한 건 숫자로 세상에 대한 얘기를 어떻게 전개되던지 간에 이것이 세상의 해석과 성찰 그리고 윤리에 부합하지 않으면 우리는 이를 통찰이라 부르지 않을 것이다. 그것은 계산이고 알맹이 없는 껍데기이다. 데이터에 대해서 사고하고 있다면 양에 압도당하지 말라 감히 조언한다. 양도 우리의 성찰을 위한 단순 보조 수단일 뿐이다.