brunch

You can make anything
by writing

C.S.Lewis

by Juhn Mun Jul 01. 2019

<빅데이터 인문학> 에레즈 에이든, 장바티스트 미셸

인문학과 빅데이터

인문학을 검증하는 새로운 시도; 빅데이터


이 책의 저자인 에레즈 에이든, 장바티스트 미셸 그리고 구글은 800만 권의 책을 데이터화 했다. 방식은 간단했다. 800만 권의 책에 기록된 단어의 수를 연도별로 정리한 것이다. 데이터를 통해 1980년의 사람들이 기록한 ‘apple’과 2000년대 사람들이 기록한 ‘apple’을 한눈에 비교할 수 있게 됐다. 데이터화에 성공한 시스템의 이름은 ‘엔그램’이다. 지금은 누구나 구글 사이트를 통해 이용해 볼 수 있다.  

(https://books.google.com/ngrams)


두 저자는 이런 데이터 분석을 통해 인간을 바라보는 새로운 패러다임을 제시했다. 그들은 엔그램을 통해 여러 분석을 시도했는데 한 가지 흥미로운 사례는 영어의 불규칙 동사이다.


학교에서 영어를 배우던 시절을 기억해보면 불규칙 동사 때문에 불편했던 기억이 있다. 왜 전부 ‘ed’를 붙이지 않고 know knew known이라고 말하고 drive drove driven이라고 말하는 건지 이해되지 않았다. 간혹 선생님에게 질문하더라도 명쾌한 답을 얻은 적은 거의 없었다. 그나마 가장 합리적인 대답은 ‘언어는 문화이기 때문에 설명되지 못하는 것들도 있다’였다. 지금 생각해 보면 그 선생님의 답은 어느 정도 정답에 가까웠던 것 같다. 적어도 이 책에서 말하는 정답에 따르면 그렇다.


책의 내용에 설명을 간단하게 요약하면 다음과 같다. 영어의 불규칙 동사는 ‘고어’의 흔적이다. 과거의 영어를 사용했던 사람들이 사용한 단어들인 것이다. 편리하고 이해하기 신조어인 규칙 동사의 등장으로 고어인 불규칙 동사는 점차 자리를 빼앗겨갔다. 대부분의 불규칙 동사는 규칙화되어갔다. 하지만 일부 불규칙 동사들은 여전히 자리를 지키고 있는데 이런 단어들에는 공통점이 있다. 대다수의 불규칙 동사들은 빈도수가 높다는 점이다(엔그렘을 통한 검색 결과 빈도수가 높은 단어들이었다). 다시 말해 사람들이 많이 사용하는 단어일수록 규칙화되지 않았다는 것이다.


이는 많은 사람들이 습관적으로 쓰는 단어일수록 불규칙성의 불편함을 사람들이 감내하고 있음을 반증한다. 즉 언어는 사용하는 사람의 문화에 따라 끊임없이 변해가지만 자주 사용하는 단어일수록 그 변화 속도가 느린 것이다. 하지만 언젠간 이들 단어도 변화해 갈지도 모른다.


이들은 나아가 한 가지 흥미로운 분석 결과를 제시했다. 단어가 없어지는 속도를 계산한 것이다. 불규칙 동사가 규칙 동사화 되는 속도는 멱법칙(Power Law)의 관계를 따른다고 한다. 멱법칙은 한 수와 다른 수가 거듭제곱으로 표현되는 두 수의 함수적 관계를 의미하는데, 이번 불규칙 동사의 규칙 동사화에 적용하면 사람들의 사용빈도가 100분의 1인 어떤 단어는 10배 빠르게 규칙화된다는 것이다. 이런 법칙은 탄소물질의 반감기, 지진의 진도, 다양한 종의 사냥 패턴 등에 나타나는 현상과 같다. 매우 흥미로운 분석이다. (이 개념이 복잡하다면 파레토 법칙 2:8을 기억하면 더 쉽다)


하지만 ‘엔그램’에 한글은 없다


사실이다. 엔그램은 기본적으로 영어를 기반으로 만들어진 데이터이다. 한글은 엔그램이 대상으로 했던 800만 권의 책에 기록되어 있지 않았다. 철저히 한글을 사용했던 사람들의 문화는 배제되어 있는 데이터이다.


그렇다면 우리는 왜 이런 데이터를 구축하지 못할까? 책의 마지막 장에 실린 특별좌담 내용에 따르면 사람들이 필요로 하지 않는 곳에 투자되지 않는 환경을 하나의 원인으로 뽑고 있다. 쉽게 말하면 인문학은 먹고사는데 큰 도움이 되지 않기 때문이다. 인문학이 처한 작금의 상황을 대변하고 있는 듯하다.


아쉬운 대로 엔그램에 Korea를 검색해 보면 점차 증가하는 모습이 보이는데, Japan과 China에 비해서는 여전히 많이 낮은 수준이다. 그래도 Russia의 하락에 비하면 긍정적인 것도 같으니(?) 실망할 필요는 없을 것 같다.



빅데이터는 데이터일 뿐이다. 해석이 중요하다.


빅데이터라는 말은 이제 낯선 단어가 아니다. 그리고 데이터를 분석하는 일이 중요하다는 것쯤은 이미 많은 사람들이 알고 있다. 하지만 데이터를 분석하는 툴 못지않게 여전히 해석이 중요한듯하다. 같은 데이터를 보더라고 인문학자가 인문학 데이터를 보는 것과, 경제학자가 인문학 데이터를 보는 관점은 같을 수 없다. 가설과 신념이 데이터를 의미 있게 만들 수 있다고 본다.


회사원으로써 일부 실무를 들어 이야기해보면, 과거 10년 전만 해도 통계를 믿지 않는 경향이 많았었다. 데이터에 기반한 경영이라든지 데이터에 대한 신뢰가 지극히 떨어지던 시대가 있었다. 지금은 그런 과거보다는 많이 나아졌고 데이터가 모든 것을 설명할 수 있다고 믿는 이들도 많이 생겼다.


그렇다 보니 가끔 너무 데이터에만 의존하는 경우가 있는 듯하다. 데이터 만능주의의 폐해가 분명히 존재한다. 특히 실무경험이나 업에 대한 이해가 떨어지는 데이터 분석가들이 흔히들 저지르는 실순데, 상관관계를 인과관계로 착각하는 사례는 수도 없이 많다. 데이터를 볼 때 직관과 경험은 여전히 중요하다.


Data Scientist는 훌륭한 기술자이지만 완벽할 수는 없다고 생각한다. 그들이 데이터를 다루는 기술과 통계적 지식만큼이나 데이터가 속한 업종의 배경지식과 경험 또한 중요하다. 빅데이터가 더욱 유의미한 결과를 위해선 Citizen Data Scientist가 많아져야 할 것 같다. 결국 데이터로 유의미한 결과를 만들어 낼 수 있는 사람이 경쟁력을 가질 것이다.

매거진의 이전글 <일취월장> 고영성, 신영준
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari