앞의 글들 '어떤 경우에 thick data적으로 분석할 것인가?', '빅데이터에서 노이즈가 발생하는 경우'의 글에서 제시했던 Big data 적용의 대표적 사례들을 분석해 본 결과 성공적으로 적용된 경우와 그렇지 못한 경우를 알 수 있었다. 이들의 실패 원인은 데이터의 수집범주에 데이터의 발생시점에서 사람과 사람 또는 사람과 사물간의 관계와 상호작용이 강한 경우에서 발생하는 데이터가 모집단에 포함이 안되어 있는 경우에 있었다. 반면, 성공사례들의 특징은 데이터 모집단안에 사람과 사람, 사람과 사물간의 관계와 상호작용이 강하지 않은 경우에 현재의 데이터 수집방식으로 만들어진 표본집단으로 분석하더라도 유의미한 결과를 도출할 수 있었다.
아래의 도표를 참고해 보면, 현재의 센서기술과 디지털화된 데이터들의 수집 가공 방식에서는 빨간선 부분은 수집이 어렵거나 배제되어 있음을 확인할 수 있다.
빅데이터 수집범주를 기준에서 비교
빅데이터의 모집단 산정방식에서 오류가 발생하는 것으로 이러한 경우에는 기존의 디지털 기반의 데이터수집 방식에서 배제되어 있는 오프라인 기반의 관찰조사 방식으로 소규모의 데이터를 한정적으로 수집하는 것이 의미가 있다. 하지만, 현재의 대부분 빅데이터 방법론에서는 이와 같은 고려가 배제된 부분을 모집단으로 산정하고 있다.
이러한 모집단 산정의 오류는 다음과 같은 두가지 관점에서 해석할 수 있다.
첫째, Big data의 기본 처리방식은 자주 일어나거나 반복적으로 발생하는 사건(event)의 data를 패턴화 시킨다. 그러나, 여기에 의미있는 information은 적을 수 있다. 하지만, 자주 일어나지 않는 사건(unlikely event)의 관계와 상호작용이 강한 데이터에는 자주 발생하는 사건보다 유의미한 정보량(informative)을 많이 가지고 있을 수 있다. 이것을 응용 수학에서는 ‘정보이론’(Information Theory)의 개념으로 풀고 있다. 데이터가 커지더라도 그 안에 유의미한 정보량은 적어질 수 있다.
둘째, Big data 해석에 있어서는 또한 Apophenia 관점의 문제점이 있을 수 있다. 1976년 7월 25일 나사의 화성 탐사선 바이킹 1호가 찍은 화성의 같은 지역의 '화성 얼굴 사진'을 일부 언론과 대중여론에서 이것이 화성에 외계인이 살고 있는 증거라고 하였다. 나사는 앞치마 모양의 초기 암설과 사태에 의해 생긴 단층지괴의 조각이라고 밝혔다. 이와 같은 해석의 오류를 일으키는 현상을 apophenia라고 한다.
큰 모집단에서 무작위로 뽑은 표본의 평균이 전체 모집단의 평균과 가까울 가능성이 높다는 대수의 법칙(law of large numbers)을 적용할 때 이러한 apophenia적 해석으로 Big data적 noise가 발생할 가능성이 높다.
결론적으로 기존 빅데이터 모집단에 들어오지 못했던 데이터의 범주가 있었고, 그 데이터의 성격은 발생시에 '사람'대 '사람' 또는 '사람'대 '사물'간의 관계(relationship)와 상호작용(interaction)이 강한 상태에서 발생하는 데이터들로서 일반적 방식으로 수집하여 패턴화가 어려운 소규모의 한정적 데이터인 경우가 많았다.
빅데이터 수집시 모집단 산정 오류의 가능성 비교
모집단에서 제외될 수 있는 성격의 것들을 Thick data적 관점에서 데이터를 수집하고 해석하는 것이 효과적이다. 관계성과 상호작용성이 강한 상태의 Thick data를 빅데이터의 모집단에 포함시킬 수 있는 가장 최적의 수집방식이 사용자경험과 에스노그라피라는 것이다. 결국 이 두 가지를 데이터사이어스적 관점에서 비정형, 질적연구를 위한 중요한 방법론으로 인식하는 것이 중요하다.
* 이 글은 에스노그라피와 사용자경험의 오프라인 측정방식의 데이터 수집 방식의 중요성을 입증해 나가는 저와 이정선교수님 논문의 일부입니다.