역사와 데이터 과학

역사 데이터베이스의 개인화?

Nov 17. 2019

언어와 컴퓨터 과학의 만남, 의료와 인공지능의 만남은 구글 번역기나 스마트 의료기기 등의 발전을 통해 우리에게 익숙해진 분야가 되었다. 그 외에도 컴퓨터 과학이 닿아 있는 분야는 무궁무진하지만, 가끔씩 역사와 인공지능이 만날 수는 없을까 생각해본다. 2000년 이후, 인류의 역사는 누군가 고의적으로 삭제하지 않는 이상, 한 순간도 빠짐없이 컴퓨터 언어나, 문자 혹은 영상의 형태로 저장되어 있을 것이라고 생각한다. 2000년 이전의 세상을 떠올려 보면, 고대인의 생활을 보여주는 문서나 중세의 예술 작품 등은 시간의 흐름에 따라 훼손된 경우가 많고, 남아 있는 기록도 여러 가지 방식으로 해석하고 추정한다. 시간의 흐름에 따른 기록 훼손이 덜할 것 같은 1900년대 이후의 기록은 의외로 남아 있지 않는 경우가 많은데, 고의적으로 어떤 특정한 기록을 삭제한 경우가 있을 것이다. 정보를 대용량으로 저장하는 데이터베이스가 발달하기 전에 대부분의 문서는 글로 작성되고 기록되었을 것이고, 실제 기록물이 사라진다면 어떤 사건의 증거가 될 수 있는 기록도 사라졌다고 봐야 하는 것이다. 일제강점기 때 무고한 피해자들에 대한 기록과 친일행적을 가진 가해자들에 대한 기록이 데이터베이스에 저장될 수 있었다면, 피해자들의 마음에 또 한 번의 상처를 입히는 통탄할 일이 일어나지 않았을 테니까.

이러한 관점에서 역사의 모든 순간은 영구적으로 보존할 수 있는 확실한 보안 시스템의 데이터베이스에 저장될 수 있어야 한다고 생각한다. 그뿐만이 아니라, 역사를 기록하고, 보전하고, 분석하는 역사학자들도, 기록에 대한 중요성을 인지해서 기본적인 데이터 과학이나 데이터베이스에 대한 지식을 쌓는 것도 필요한 것 같다.

우선 데이터 과학이라는 것은 역사학자들에게 점차 유용한 방식이자 도구로 쓰이는 추세이다. 역사 기록물들은 양이 방대하고, 시간별로 정리하고, 정리된 내용을 요약하고 분석하는 작업이 필요하다. 프로그래밍을 쓰지 않고도, 기존의 소프트웨어들을 이용해서 데이터의 내용을 저장하고 요약하는 것은 가능하지만, 역사 기록물들은 시간에 비례하여 늘어난다는 것을 간과하면 안 된다. 시간별로 정리된 방대한 양의 데이터에서 필요한 부분만 골라서 뽑아내는 것도 중요하기 때문에, 데이터 마이닝 기법을 이용해서 가지고 있는 데이터를 시간, 장소, 인물별로 분류하고 추출할 수 있다. 시간, 장소, 인물별로 특정한 자료를 뽑아내는 것은 상대적으로 간단하지만, 시간에 따른 인구수의 증가나, 장소에 따른 생산량의 차이나, 역사 속 인물의 행적 정리 등은 통계학적으로 유용한 정보를 제공하고, 시각적으로 이해가 쉽게 제작될 수 있다. 공공 도서관이나 정부기관을 방문해야 열람할 수 있었던 역사 기록물의 통계학적 분석과 시각화가 개인이 프로그래밍을 배우면서 제작하고 열람할 수 있는 작업이 된 것이다. 역사 데이터가 개인에게 접근 가능하다는 것을 전제하지만, 개인의 데이터베이스화가 역사 분야에서도 시작되는 것처럼 보인다.

대학원 시절에 내가 시도했던 역사 데이터 분석 프로젝트를 떠올려 보면, 연도별로 바뀌는 미국의 주별 행정 데이터를 분석하는 것이었다. 이 프로젝트의 목적은 시간이 지나면서 주마다 인구수와 인종의 구성이 어떻게 바뀌는지에 대한 분석을 하는 것이었다. 나의 관점에서 특이하다고 여겼던 점은 1900년대 초에는 미국 내 아시아인 인종의 비율이 극도로 낮았다는 것이다. 지금은 미국 어느 도시에 가도 아시아인이 없는 도시를 찾는 것은 어렵겠지만, 1900년 초에는 아시아인이 존재하지 않는 도시도 있었던 것으로 기억한다. 또 다른 특이한 점은 흑인이나 히스패닉 인구들이 1900년 초보다 중반으로 갈수록 미국의 남부에서 북부로 이동하는 경향이었다. 인구의 이동을 시각화한 후 느낀 점은 현재의 미국 내 고른 인종의 분포는 그리 오래된 것이 아니었다는 것이다. 인종 분포와 별개로 직업의 분포도 데이터 안에 존재했는데, 현재는 만연한 IT 업종을 1900년대 중순까지도 찾기가 쉽지 않았다.

이러한 시간별 행정 데이터의 변화는 한국의 실정에도 적용되고 있고, 더욱 다양한 방식으로 분석되고 있다. 단지, 한국에서 데이터를 공유할 수 있는 자유도가 어느 정도인지 파악하는 것도 중요한 시점이다. 개인정보 보호법이 엄격한 편인 한국에서, 개인과 직접적인 관련이 없는 정보도 엄격한 보안 속에 갇혀 있는 경우가 많다. 활발한 기록과 연구는 방법과 데이터의 자유로운 공유에서 시작하는데, 데이터 공유가 어려운 상황이 있다면, 공동 연구를 최적화할 수 있는 방 안에서 자유도를 더하는 것이 중요한 것 같다. 인공지능과 빅데이터의 발전과 함께, 개인이 데이터베이스의 역할을 할 수 있는 시대도 다가오고 있고, 특히 역사 데이터의 경우에는 누구라도 기억할 수 있다면 의미가 있는 것이 아닌가 싶다. 한국의 역사의 세세한 부분들이 더 많은 사람에게 기록되고 공유될 수 있다면, 미래의 한국의 역사를 위한 든든한 기반이 될 것이고, 과거로 거슬러 올라가 해결해야 할 어떤 일이 발생했을 때, 확실한 증거의 역할도 할 것이라고 생각한다. 인공지능과 역사의 조합은 거대한 도서관의 형태로 방대한 양의 역사 데이터를 양적으로 그리고 질적으로 기록하고 분석할 수 있기를 기대한다.

keyword

Brunch Book

이전 14화컴퓨터과학과 저널리즘 유사품과 인공지능다음 16화