중국 북부의 산악지대에 66세의 노인이 있다. 공사장이나 농사짓는 일을 도와주며, 월 20만원 정도를 벌고 있다. 이 노인이 최신형 스마트폰을 살 수 있을까? 이 노인에게서 추출할 수 있는 데이터를 분석해 본다면 어떤 결론이 나올까? 빅데이터 측면에서 다양한 소비와 생활상의 데이터를 수집하고, 분석해 본다면 이 노인은 결코 최신형 스마트폰을 살 수 없을 것이다. 어떠한 데이터를 분석하더라도 그 결과는 마찬가지일 것이다. 만약 누군가 이 노인이 최신형 스마트폰을 살 수 있을 것이라면 헛소리나 사이코패스로서 판단할 것이다.
그런데, 이 노인은 6개월뒤에 100만원씩이나 하는 스마트폰을 구매하였다. 어떠한 데이터를 분석해보더라도 그러한 징조는 없었다. 이 상황을 어떻게 해석할 수 있을까? 그 노인에게 직접 물어봤지만, 그냥 샀다고만 하고 화를 냈다. 원인을 알 수 없었다. 이번에는 그노인을 조용히 쫓아다녀봤다. 그가 일하는 곳에 위장 취업도 하고, 그림자처럼 따라다녀도 봤다. 한 십여일이 지나자 그가 왜 스마트폰을 샀는지 이해할 수 있었다.
노인은 하루 이천원도 안되는 돈으로 식사를 해결하고, 8만원짜리 월세방에서 살고 있었다. 하지만, 그에게는 13세의 손자가 하나 있었는데 하루에 5번 이상은 그 사진만을 보고 있었다. 그 때 노인의 눈빛은 하루중에 유일하게 환하게 웃고 있었다. 그는 손자가 좋와할 것 같아서 6개월동안 돈을 모와서 100만원짜리 스마트폰을 샀던 것이다.
이 이야기는 애플의 아이폰이 최초로 출시됐을 때의 데이터 분석 상황을 가상의 시나리오로 만들어 본 것이다. 피처폰의 절대 강자였던, 노키아는 아이폰이 출시되는 상황에서 전세계의 1억개 이상의 빅데이터를 분석하였다고 한다. 결론적으로 어디에서도 스마트폰이 대세가 될 것이라는 결과가 나오지 않았다. 하지만, 유일하게 중국의 노동자 100명을 관찰조사한 결과에서만 스마트폰이 대세가 될 것이라는 결과가 나왔지만, 겨우 100명 데이터 분석값이라고 무시됐다.
이 이야기는 수 많은 데이터를 해석하는 방식에 있어서 빅데이터가 만능이 아닐 수 있다라는 것을 의미한다. 빅데이터는 다양한 정형, 비정형데이터를 수집하고 분석한다. 가공된 데이터에서 반복되는 것과 의미를 부여한 값을 가지고 결과를 도출한다. 위의 사례에서 중요한 의미로 선정된 값들은 소득수준, 주거, 구매패턴과 같은 반복되는 값들이었을 것이다.
데이터사이언스적 관점에서 자주 발생하지도 않고, 데이터화 되지 않았던 노인과 손자와의 관계에 관한 데이터는 수집되거나 분석될 것이 없었다. 결론적으로 노인의 스마트폰 구매 관점에 있어서는 빅데이터 값들은 garbage(쓰레기) 데이터 였었다. 노키아에게 필요했고, 의미있는 데이터는 억만금을 쓰더라도 아깝지 않은 손자가 있다는 값이었지만, 빅데이터 분석에서는 추출되지 않았다. 이러한 데이터 자체가 생성되지 않았기에 찾을 수가 없었다.
일반적으로 빅데이터는 자주 일어나거나 반복되는 사건(event)의 데이터를 패턴화한다. 하지만, 여기에는 의미있는 정보량이 적을 수 있다. 예를 들어서 내일 해가 뜬다는 사건의 데이터가 있다. 지속적으로 반복되지만, 너무나도 당연한 사건이기에 모든 뉴스에서 '내일 해뜨는 시간은 6시38분'이라는 방식으로 짧은 정보만을 제공할 것이다. 만약 내일 태풍이 온다면 어떨 것인가? 태풍의 진행방향, 과거의 피해사례, 수습과정의 영웅담과 미담, 관련된 사회기반시설의 문제 등 다양하고 의미있는 정보들이 대량 생산될 것이다. 자주 일어나지 않는 사건(unlikely event)은 자주 발생하는 사건보다 정보량(informative)이 많을 수 있다. 이것이 응용수학에서 정보이론(information theory)이라고 말하고 있다. 즉, 노인의 반복된 담배와 생필품 구매정보보다 횟수는 현저히 적지만, 손자와의 관계에 관한 데이터에서 의미있는 정보를 더 많이 추출할 수 있다는 것이다.
이렇게 스마트폰 구매 경우처럼 사람과 사람 또는 사람과 사물간의 상호작용이 강한 상태에서 발생하는 데이터는 bigdata에서 수집하기 힘들고, 분석하기도 어렵다. 직접 관찰하고 지켜보는 방식에서 발생하는 thickdata 관점에서만 데이터를 수집하고 의미를 해석하는 것이 정확할 수 있다. 앞에서 설명한 노인을 쫓아다니고, 관찰하는 방식을 민속지학 (ethnography)라고 한다. 실제 노키아에서는 tracia wang이라는 technology ethnographer에게 의례를 했었고, tracia는 100명의 중국 노동자를 thickdata 관점에서 관찰조사하여 이들도 스마트폰을 쓸 수 있다고 보고했지만, 무시당했다고 한다.
결론적으로 bigdata에서 noise가 발생할 수 있다. 그것은 의미없는 데이터가 반복되는데도 패턴화시키거나, 의미있는 데이터인데도 반복 횟수가 부족해서 버려지는 경우이다. 구체적으로 '사람'대 '사람' 또는 '사람'대 '사물'간의 관계(relationship)와 상호작용(interaction)이 강한 상태에서 발생하는 데이터로서 bigdata처럼 분석을 위한 패턴화가 어려운 소규모의 한정적 데이터인 경우에 많다.
Big data vs thick data
* 위의 표는 'Why Big Data Needs Thick Data(Medium)'의 내용을 기준으로 저자가 보강하였음.