서울기록원 제4회 소장자료 정리와 기술 사례 발표회
기록, 왜 눈으로 봐야 더 잘 보일까?
기록 데이터 시각화의 가능성과 정확성의 딜레마
기록 관리와 디지털 아카이빙 분야에서 데이터 시각화 기술은 미래 아카이브 서비스의 핵심 동력으로 떠올랐다. 방대한 기록 데이터를 단순히 보존하는 것을 넘어, 시각적으로 구현하여 이용자들이 기록에 더 쉽게 접근하고 새로운 통찰을 얻도록 돕는 것이 중요해졌다. 하지만 이러한 시각화 기술의 발전은 동시에 '데이터의 정확성'에 대한 새로운 딜레마를 낳았다. 과연 무엇을 '정확하다'고 정의하고 어떻게 그 신뢰성을 확보할 것인가에 대한 근본적인 질문을 던졌다.
기록은 방향을 제시하는 중요한 역할을 하지만 방대한 기록을 일일이 살펴보는 것은 쉽지 않다. 때문에 데이터 시각화 기술이 필요하다. 시각화는 복잡한 정보를 한눈에 이해하도록 돕고, 숨겨진 의미를 발견하게 해준다. 최근 서울기록원, 국립중앙도서관, 국사편찬위원회, 서울시립미술아카이브는 이러한 시각화 기술의 개발 및 활용 사례를 발표했다.
1. 서울기록원
서울기록원은 기록 데이터 시각화를 통해 기록물의 접근성을 높이고 있다. **'전거 레코드'**를 기반으로 기록물을 둘러싼 여러 맥락 정보를 시각적으로 연결하는 데 중점을 둔다. 복잡한 조직 변천 과정을 그래픽으로 표현해 한눈에 흐름을 파악하게 하거나, 서울시의 업무 기능을 토픽 맵 형태로 시각화하여 원하는 기록을 쉽게 찾도록 돕는 것이 그 예이다. 또한, 역대 시장이나 주요 정책, 사건 등을 연표로 시각화하여 기록의 맥락을 쉽게 파악하도록 했다. 하지만 이러한 시도들은 아직 프로토타입 단계에 머물러 있으며, 복잡한 절차와 예산 문제로 인해 실제 시스템 개발은 지연되고 있다. 행정동과 법정동의 명칭 차이 같은 데이터 정확성 문제 해결에도 어려움을 겪고 있다고 한다.
2. 국립중앙도서관
국립중앙도서관은 '대한민국 신문 아카이브'를 통해 옛 신문 기록을 활용한 다양한 시각화 서비스를 제공한다. 특정 키워드(예: '건강')의 검색 결과를 타임라인 형태로 보여주어 이슈의 흐름을 파악하게 하거나, 검색어의 기사 노출 빈도를 그래프로 시각화해 특정 인물이나 사건이 언제 주목받았는지 보여준다. 또한, 키워드와 관련된 인물, 사건, 장소, 단체 등을 네트워크 형태로 시각화하여 기록 간의 연결 고리를 파악하도록 돕는다. 그러나 AI OCR(광학 문자 인식) 기술을 활용함에도 불구하고 세로쓰기나 한자 혼용이 많은 옛 신문의 특성상 인식률에 한계가 있다. 이를 해결하기 위해 수작업 교열을 병행하는 등 막대한 예산과 인력을 투입하고 있지만, 아직 많은 이용자가 키워드 검색에 익숙해 시각화 기능의 활용도가 낮은 편이다.
3. 국사편찬위원회
국사편찬위원회는 '역사지리정보 데이터베이스'를 통해 한국의 역사적 행정구역 변화를 시각적으로 구현하는 데 중점을 둔다. 특정 시점의 행정구역 정보를 지도 위에 구현하여 시계열적인 변화를 보여주거나, 인구 통계나 성씨 분포 같은 자료를 지도에 얹어 특정 지역의 특징을 한눈에 이해하도록 돕는다. 또한, 3.1운동 시위 장소를 지도에 표시하고 일자별 변화를 보여줘 시위의 확산 양상을 파악하게 했다. 이러한 시각화 작업은 방대한 사료를 기반으로 지리정보시스템 데이터를 수작업으로 구축하는 과정이 여러 번 언급되어ㅆ다. 오탈자나 누락이 발생할 수 있어, 데이터의 정확성과 신뢰도를 확보하는 데 많은 노력이 필요하다.
4. 서울시립미술아카이브
서울시립미술아카이브는 'RIC(Records in Contexts)'라는 국제 표준을 활용해 컬렉션을 시각화하려는 시도를 했다. 이는 기록, 생산자, 활동 등 복잡하게 얽힌 네트워크 관계를 시각적으로 재현하는 동적 기술 개념을 도입한 것이다. RIC의 개념 모델 개체와 데이터를 매핑하고 온톨로지로 전환하여 그래프 데이터베이스 같은 도구를 사용해 복잡한 관계를 시각적으로 표현한다. 하지만 RIC 표준은 기술적 난이도가 높고, 온톨로지 시각화 도구가 부족해 자체 개발이 필요한 경우도 있다. 또한, 데이터 모델링에 가깝기 때문에 별도의 내용 표준이 필요하며, 데이터 정비와 클리닝 작업이 선행되어야 한다.
데이터 시각화의 과제와 한계
위 발표 기관들은 데이터 시각화가 아카이브 서비스에 새로운 통찰과 직관적인 접근성을 제공한다는 점에 동의했다. 특히 미술관 이용자처럼 시각적 언어에 익숙한 대중에게는 효과적인 도구가 될 수 있다고 평가했다. 하지만 이들은 시각화 기술 구축에 있어 데이터 품질 관리가 가장 큰 문제임을 공통적으로 지적했다. 표준화되지 않은 메타데이터, 수작업으로 인한 오류, 그리고 AI 기술의 한계 때문에 견고한 데이터 기반을 다지는 것이 선행되어야 한다는 점을 강조했다. 또한, 시각화 서비스가 전문 연구자를 위한 것인지, 일반 대중을 위한 것인지 명확한 목표 설정과 장기적인 정책, 안정적인 예산 확보가 필수적이라는 점도 논의됐다.
결국, 데이터 시각화 기술이 아무리 발전해도 그 기반이 되는 데이터의 기초적인 정제 및 표준화 작업이 필수적이며 가장 큰 난관 중 하나로 남아 있다. 흔히 말하는 '노가다'와 같은 수작업이 필요한 영역이기 때문이다. 이러한 기초 작업이 선행되지 않으면 시각화 기술은 제 기능을 발휘하기 어렵다. 시각화는 결국 데이터를 표현하는 도구이며, 그 데이터의 품질이 낮으면 결과물의 가치 또한 떨어진다. 즉, 데이터 시각화의 혁신은 화려한 기술 이전에 견고한 데이터 기반을 다지는 것에서부터 시작된다. 이는 기계가 흉내 낼 수 없는 '사람의 손길'이 필요한 영역이다. 단순히 시간과 비용만 따질 수 밖에 없는 안타까운 현실이 마음 아플 뿐이다.
더불어 여러 생각이 들어ㅆ다. 시각화 이야기를 할 때 보통은 “기술적 문제(데이터 품질, 정제, 도구 개발)”가 먼저 나오지만, 기술만 해결된다고 해서 곧바로 끝나는 건 아니다. 오히려 그다음 단계에서 “객관성 vs 해석성” 문제가 따라온다. 시각화는 복잡한 기록 데이터를 직관적으로 보여주는 장점이 있지만 동시에 데이터 선택, 범위 설정, 알고리즘의 기준과 같은 해석이 개입된다. 그럼에도 불구하고 시각화 결과물은 이용자에게 객관적 사실처럼 받아들여질 위험이 크다. 따라서 연구자에게는 시각화의 전제 조건과 데이터 처리 과정을 투명하게 드러낼 책임이 있다. 대중 또한 시각화를 단순한 ‘사실의 그림’으로 보지 않고, 하나의 해석적 표현이라는 점을 이해하는 비판적 태도가 필요하다. 결국 시각화는 기록을 더 잘 보이게 하는 동시에, 기록을 특정한 방식으로 구성하는 행위이기도 하다.
미래 아카이브, 어떤 모습으로 우리를 찾아올까?
시각화 기술 발전과 데이터 신뢰성 확보 노력이 결합된 미래 아카이브 서비스는 우리에게 더욱 풍요로운 경험을 선사할 것이다. 아카이브는 단순한 과거의 저장고를 넘어, 현재와 미래를 연결하는 창조적인 영감의 원천이 될 것이다. 복잡한 기록 데이터는 직관적인 시각 자료로 재탄생하여, 역사를 쉽고 재미있게 탐험할 수 있도록 도와줄 것이 분명하다.
미래의 아카이브는 인터랙티브 지도 서비스를 통해 특정 공간의 역사적 변화를 시각적으로 보여주거나, 다차원 네트워크 그래프로 인물, 사건, 장소 간의 복잡한 관계를 한눈에 파악하게 해줄 것이다. 일반 시민들도 아카이브를 게임처럼 즐기고, 자신만의 방식으로 기록을 재해석하며 새로운 창작 활동에 영감을 받을 수 있을 것이다. 정확하고 신뢰할 수 있는 데이터가 시각화 기술과 만나, 미래 아카이브는 우리 삶의 중요한 부분이 될 것이다.