오늘만 무료

2026년에도 작동하는 15년 전 데이터 설계도

프랑스 국립도서관에서 AI를 만나다

by 아키비스트J

2011년 11월 15일, data.bnf.fr의 최초 프로젝트 프레젠테이션이 있었습니다. 벌써 15년이나 된 이 문서에 이미 주요 설계가 적혀 있었습니다. <5개 소스 데이터베이스에서 데이터를 추출하고, FRBR 표준으로 정렬한 뒤, 두 개의 채널로 출력한다.> 하나는 사람이 읽는 HTML 페이지, 하나는 기계가 읽는 RDF 데이터입니다.

image.png data.bnf.fr 프로젝트 프레젠테이션(2011.11.15), p.5 아키텍처 다이어그램


2026년 3월, 제가 보고 있는 시스템은 정확히 이 설계대로 작동하고 있었습니다. 버전 4.6.1, 마지막 업데이트 2026년 1월 14일. 기반 구조는 같고, 데이터만 계속 흘러들어오고 있었습니다.


그런데 지금 프랑스에서는 이 파이프 안에 흐르는 물을 바꾸는 작업이 한창입니다. transition bibliographique, 직역하면 '서지 전환(Bibliographic Transition)'입니다. 프랑스 국가 차원에서 10년에 걸쳐 추진하는 목록화 체계의 전면 교체 프로젝트입니다. 전통적인 MARC 기반 카탈로그에서 IFLA LRM(Library Reference Model) 기반 엔티티-관계 모델로 전환합니다.


기존에는 '책'이 기본 단위였습니다. 한 권의 책에 대한 정보를 한 줄의 레코드로 기술했습니다. 새 모델에서는 '개념'이 기본 단위가 됩니다. 저자는 저자대로, 저작은 저작대로, 그 저작의 특정 번역은 또 따로, 그 번역의 특정 출판은 또 따로. 각각이 독립된 엔티티이고, 서로 관계로 연결됩니다.


BnF는 2025년 말까지 NOEMI라는 새 목록화 도구를 배포하고, 2026년에 새로운 엔티티 기반 데이터를 RDF로 공개하기로 했습니다. 대학 도서관 네트워크 Abes는 2028년에 합류합니다.


이 전환에서 가장 인상적인 것은 규모보다 전략입니다. '같은 파이프, 다른 물.' 기존 인프라(api.bnf.fr, SPARQL 엔드포인트, 벌크 데이터 덤프)는 그대로 유지하고, 파이프 안에 흐르는 온톨로지(Ontology)만 업그레이드합니다. 전면적 시스템 교체가 아니라 점진적 데이터 모델 전환이죠.


이 과정에는 다음과 같은 배경이 있었을 것 같습니다. 2025년 GLAM-E Lab의 조사에 따르면, 세계 43개 문화유산 기관 중 39개가 최근 AI 봇의 대규모 스크래핑을 경험했습니다. 서버 CPU가 수 분 내에 100%에 도달하는, 사실상 DDoS 수준의 공격이었습니다. Wikimedia는 가장 비용이 높은 트래픽의 65%가 봇에서 발생한다고 보고했습니다.


수십 년간 공들여 디지털화한 컬렉션이 상업적 AI 기업의 훈련 데이터로 무단 수집되고 있는 현실입니다. '개방(Open)'이라는 가치가 착취로 전환되는 순간이 온 것이죠.


Mozilla Data Collective(MDC)라는 프로젝트가 이 문제에 구조적 대안을 제시하고 있습니다. 기관이 데이터 소유권을 완전히 유지하면서, 누구에게, 어떤 조건으로 데이터를 제공할지 직접 결정하는 모델입니다. 감시나 프로파일링 목적 사용을 금지하거나, 연매출 100만 달러 이상 기업의 접근을 차단하는 식입니다.


그런데 BnF의 3계층 모델은 이 문제에 대한, 이미 작동하고 있는 해법이기도 합니다. AI 봇이 접근할 수 있는 대상은 세 번째 층의 레퍼런스 데이터뿐입니다. 이 데이터는 처음부터 개방하기로 설계된 것이므로, 스크래핑되더라도 기관의 핵심 자산이 유출되지 않습니다. 원문은 건물 안에서 보호되고, 상세 메타데이터는 API의 속도 제한으로 통제됩니다.


프랑스 국립기록보존소(Archives nationales) 전 국장 Bruno Ricard는 '아키비스트의 전문성은 AI로 대체되지 않을 것이다'라고 말했습니다. BnF와 INA, Archives nationales, 이 세 기관 모두에서 일관되게 관찰된 원칙이 있습니다. AI가 먼저 처리하고, 사람이 검수한다는 것, AI는 도구이지 의사결정자가 아니라는 것입니다.


한국의 기록관리 기관이 이 사례에서 가져갈 수 있는 것은 기술보다 설계 원칙에 가깝습니다. 전부 열거나 전부 잠그는 이분법을 넘어서, 콘텐츠와 메타데이터와 레퍼런스 데이터에 각각 다른 수준의 개방성을 부여하는 것. 기존 인프라를 유지하면서 데이터 모델만 점진적으로 전환하는 것. AI가 할 일과 사람이 할 일의 경계를 제도적으로 설계하는 것. 이 세 가지 원칙은 KOLIS든 국가기록원이든 적용 가능한 아키텍처 패턴입니다.


프랑스가 15년에 걸쳐 구축한 이 체계가 한국에 시사하는 바는 결국 하나입니다. 좋은 아키텍처는 기술이 바뀌어도 살아남습니다. 2011년에 그린 설계도 위에서 2026년의 AI가 작동하고 있다는 사실이 그 증거입니다.

이 작가의 멤버십 구독자 전용 콘텐츠입니다.
작가의 명시적 동의 없이 저작물을 공유, 게재 시 법적 제재를 받을 수 있습니다.

brunch membership
아키비스트J작가님의 멤버십을 시작해 보세요!

솔로프러너이자 기록물관리전문요원이며, AI 네이티브로 아카이브 스타트업을 운영하고 있습니다. AI 시대 모두가 잠재력을 극대화하고 인지적 평등이 실현되는 세상을 꿈꿉니다.

139 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 3개의 멤버십 콘텐츠 발행
  • 총 43개의 혜택 콘텐츠
최신 발행글 더보기
작가의 이전글BnF는 벽돌을 주고, INA는 건물을 준다