brunch

You can make anything
by writing

C.S.Lewis

by JB 진범 Readen Jun 01. 2015

<빅데이터 전문 사기꾼에 속지 않는 방법>_2부

큰(variety) 데이터 해석에 대한 맹신 

 빅데이터라는 직관적인 단어에 억눌려서 그러하지빅데이터 시대의  다른 매력으로는 다양한 데이터(variety)의 분석이 가능해졌다는  들  있다빅데이터 시대가 도래하기 이전부터 데이터 마이닝 기술은 고도로 발전했다숫자 혹은 숫자화해야만 분석이 가능했던 통계학의 데이터 범주가 텍스트, 사운드이미지 등으로 확장되었다공장 기계 소리의 패턴을 통해서 기기의 결함을 발견하는 분석이 이루어져 현장에서 쓰이고 있는가 하며여러 단어들이 쓰인 문장을 일종의 연결로 판단하고 글의 핵심 주제나 의도를 파악해내는 텍스트 연결망 분석도 이제는 심심치 않게 미디어에 노출된다


최근에는 심심치 않게 여러 단어들을 둥둥 띄워놓고 사람들이 이렇게 생각하고 있다라는 결론을 유도하는 분석을 자주 접하게 된다. SNS 글을 텍스트화하고 이를 분석한 결과였으리라 추정한다. 현상을  눈에 집약해 보여주는 실로 간편하고 직관적인 분석이라  수 있다.


문제는 단어의 조합을 어떻게 분리했는지어떤 기준으로 나누었는지, 어떤 근거를 활용했는 지를 알려주지 않는다는 것에 있다어떤 언어든지 체언과 용언의 활용에 따라  뜻의 쓰임이 바뀌는데 특히 우리나라 말은 그 묘미마저 풍부하다는  분석하는 사람으로서는 엄청난 과제이다. 예를 들면 옛날부터 지식인이라는 의미를 담고 있는 선비’는 요즘에 들어서는  막힌 사람이라는 의미로도 적지 않게 쓰인다흥선대원군을 구국의 선비라고 부르는 맥락에서의 선비와 흥선대원군 나라 망친 *선비라고 부르는 맥락에서의 선비는 완전히 다른 의미이다


이런 구분에 있어서는 분석가는 역사적 맥락이나 단어 조합을 어떻게 바라볼 지를 정해야 한다데이터 분석만으로 다양한 데이터를 온전히 추려내는 건 애초부터 불가능한 영역이라는 의미다단순히 데이터가 크다고 그리고 분석 기술을 고도화했다는 이유로 전체적 맥락을 집었다고 분석가가 자신할 때마다  한계에 대한 자인이 없음이 안타까울 뿐이다진짜 전문가는 자신의 한계를 자인하고  한계를 뛰어넘기 위해 어떠한 협력도 구하기를 서슴지 않는다사기꾼만이 데이터가 유일한 해결책이라고 마냥 떠들어 댈 뿐이다한계가 없는 빅데이터는 소음이고, 한계를 인정하는 빅데이터는 소금이다라는 생각을 해본다.

매거진의 이전글 데이터를 대하는 노답 직장인 _ 1편
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari