정부가 AI를 제대로 쓰기 위한 필수 조건: 데이터
2013년 5월 9일, 버락 오바마 당시 미국 대통령은 한 장의 문서에 서명했다. "Making Open and Machine Readable the New Default for Government Information." [1]
정부 정보의 기본값을 바꾸겠다는 선언이었다. 무려 12 년전의 일이다.
두 가지가 핵심이었다. 첫째, 공개를 기본으로 하겠다. 둘째, 'Machine Readable'. 사람이 아니라 기계가 읽을 수 있어야 한다는 것이었다.
GPS와 날씨가 증명한 것
오바마는 기본값을 '공개'로 바꾸는 이유를 다음과 같이 설명했다.
GPS 데이터를 무료로 풀었더니 네비게이션이 생기고, 구글 맵이 나왔고, 우버가 태어났고, 테슬라가 자율주행을 시작했다. 기상 데이터를 공개했더니 Weather.com이 생겼고, 농부들은 정밀 농업을 시작했고, 재해 예측 시스템이 돌아가기 시작했다.
데이터 공개가 '수많은 방식으로 미국인들의 삶을 개선하고, 경제성장과 일자리 창출로 이어졌다'는 것이다.한국은 어떤가? 판결문은 아직도 금고 안에 있다. 미국 애리조나주립대 김정희원 교수의 증언이다[2]. " ‘인공지능(AI) 3대 강국’을 목표로 한다는 이 시대에, 판결문을 읽기 위해 나는 미국에서 한국까지 비행기를 타고 날아와야 한다. 최근 10여년간의 판례를 넘어서 통시적 연구를 하려면 경기도 일산에 있는 법원도서관에 직접 방문해야 하기 때문이다. 물론 서울에 숙소를 잡아두고 일산까지 오가는 시간도 아깝기는 매한가지다. 그렇게 도착한 법원도서관 특별열람실에서는 주어진 80분 동안 사건번호만 겨우 적어 나올 수 있다. 필요한 내용을 메모라도 했다가는 출입금지를 당하기 때문이다. 확보한 사건번호를 바탕으로 각 법원에 ‘판결서 사본 신청’을 하고 한건당 천원씩 수수료를 입금하면 그제야 판결서를 꼼꼼히 읽어볼 수 있다."
의료 데이터는 병원 서버에 갇혀 있다. 분석은 반드시 병원 내부에서만 이뤄져야 한다. 교통 데이터는 부처별로 쪼개져 있다. 교통사고정보와 사망사고 위치정보는 경찰청과 도로교통공단이 관리한다. 고속도로 구간별 교통량, 구간속도, 정체 길이는 한국도로공사 소관이다. 대중교통 이용 현황은 한국교통안전공단이 갖고 있다.
AI 법률 서비스? 헬스케어 AI? AI시티? 다 남의 나라 이야기다.
공개했다고 다가 아니다
2014년, 네덜란드 라이덴의 작은 회의실에서 과학자들이 모였다. 그들이 만든 네 글자가 이제 세계 표준이 됐다. FAIR [3].
Findable - 찾을 수 있어야 한다. AI는 하루에도 수백만 개의 웹페이지를 크롤링한다. 메타데이터 없는 데이터는 바다에 던진 반지와 같다.
Accessible - 접근할 수 있어야 한다. HTTP, API, 표준 프로토콜. AI는 사람이 아니다. 로그인 창에 아이디 비밀번호를 입력할 수 없다.
Interoperable - 연결될 수 있어야 한다. 교통 데이터와 날씨 데이터가 만나면 배송 시간 예측이 정확해진다. 의료 데이터와 유전자 데이터가 만나면 맞춤 치료가 가능해진다.
Reusable - 재사용할 수 있어야 한다. 명확한 라이선스, 사용 조건. 법적 분쟁 없이 AI가 학습하고 활용할 수 있어야 한다.
한국 정부는 아래아한글 파일로, PDF로 공개한다. AI가 읽지 못한다. 고위공직자 재산공개는 아직도 pdf로만 한다 [4]. OCR 돌리고, 표 추출하고, 오류 수정하고... 이런 쓸모없는 일을 하게 만든다. 2014년에 발표한 FAIR 원칙을 아직도 지키지 못하고 있다.
표준과 표준화는 다르다
미국의 DAIMS[5](Data Act Information Model Schema, 지금은 GSDM, Governmentwide Spending Data Model로 이름이 바뀌었다)를 보자[6]. 2016년부터 지금까지 계속 진화하고 있는 연방정부의 예산과 관련한 데이터 표준이다.
반드시 하나의 통일된 데이터 형식, 즉 “스키마”를 유지관리하여 모든 연방 지출 보고서를 구조화할 것을 법령으로 의무화하고 있다. 이 스키마는 당연히 정부 예산 보고서를 ‘기계가 읽을 수 있도록’ 하는 표준 포맷이다.
우리가 주목해야할 건 이 표준 문서가 아니다. 그들의 일하는 방식이다. 이전에 정리해둔 것을 다시 인용한다.
DAIMS의 개요는 다음과 같다.
정부 재정 데이터의 투명성을 제고하기 위해 추진했다. 당연히 기계 판독이 가능한 데이터(XML, RDF 등) 표준 규격으로 제공한다.
민관 협업의 생태계를 확립하는 것으로 시작했다. 개발 단계부터 민간과 협업하여 법제도 제정–표준–개방까지 전체 ’표준화‘ 프로세스의 생태계를 구축했다.
민관이 협력해100개이상의 ‘유효성검증규칙’과 400개의 데이터요소를 구현했다.
국제 표준을 준수했다. DAIMS는 ISO 표준개발 지침서인 ISO 디렉티브를 따랐고, DAIMS 메타데이터는 ISO/IEC 11179 표준을 준용했다. 즉, 국제 표준 지침에 맞춰 연방지출 데이터요소의 명칭, 유형, 크기, 허용 가능 범위를 정했다.
무엇보다도! 애자일하게 진행했다. 진행한 모든 자료와 소스코드가 드롭박스(dropbox)와 깃허브(github)에 공개되어 있다. Fed spending transparency라는 제목의 깃허브 페이지에 소스코드가 다 올라가 있다.
https://github.com/fedspendingtransparency
이 코드들은 모두 오픈소스다.
저작권은 CCzero다. CC0 라이선스는 원저작물에 대하여 저작권자가 그 권리를 포기하거나 기부한 저작물을 의미한다. 누구나 자유롭게 이용할 수 있다. 저작물에 대한 변형이 가능하고, 사용자 출처 표시 의무가 없고, 저작권자와 상의 없이 재배포할 수 있으며, 상업적 용도로도 쓸 수 있다.
DAIMS에서 우리가 배워야할 것은 무엇일까? 하나만 가져올 수 있다면 그것은 ‘표준’과 ‘표준화’는 다르다는 것이다. 표준은 스펙(specification)을 만드는 작업이고, 표준화는 표준이라는 생태계를 만들어 내는 일련의 과정을 모두 포함하는 것이다. 이 ‘표준화’에 속하는 것들을 DAIMS에서는 했다.
백악관 관리예산처는 처음부터 모든 이해관계자들을 끌어들였다. 민간과 협업했고, 데이터들을 공개하고 공유했다. 작성한 코드는 모두 오픈소스로 풀었다.
엄청난 기술을 쓰지도 않았다. AI도 빅데이터도 없다. DAIMS의 XBRL은 단지 XML이다. 대신 이들은 이 프로젝트를 생태계의 관점에서 접근했다. 핵심은 실제 이해관계자들과 협업해서 함께 스키마 정보를 만들어냈고, 이들과 함께 지속적으로 업데이트를 해나가고 있다는 것이다. DAIMS 홈페이지에 가보면 2016년부터 지금까지의 업데이트 이력을 한눈에 볼 수 있다. 기술문서도 촘촘하게 정리돼 있고, 소스코드는 모두 깃허브에 저장돼 있다.
표준은 문서 한 장이다. 표준화는 생태계를 만드는 일이다. 한국은 표준 문서만 만들고 있고, 그나마 그것을 지키지 않는다. 표준화 문서는 다음번 용역때까지 결코 현행화되지도 않는다. 그러니 금새 못쓰게 된다.
각 부처의 데이터는 어디에?
"그 자료 어디 있어?"[7]
"김 과장이 갖고 있습니다."
"가져와 봐"
"김 과장 어디 갔어요?" "서울 올라갔는데요?" "아 큰 일이네, 국장님이 지금 자료 찾으시는데" "잠깐만요, 전화해 볼게요." "김 과장님 국장님이 그 자료 찾으시는데 컴퓨터 비번 좀 불러주세요." "D 드라이브 어느 폴더에 있어요? 아, 찾았다. 감사합니다."
이게 2025년 대한민국 정부의 현실이다. 대한민국 정부의 데이터는 D 드라이브에 있다. 그래서 어떻게 되나? 수명을 다해 포맷될 때 함께 사라진다. 숱한 맥락이, 암묵지가, 과정이 포맷과 함께 사라진다. 한국의 공무원들이 장차 써야 할 인공지능의 미래도 아무도 알지 못한 채 함께 포맷된다.
클라우드를 쓰면 어떻게 달라지나? 언제 어디서나 접근할 수 있다. 여러 부처가 실시간으로 협업할 수 있다. AI가 밤새 분석해서 아침에 인사이트를 준다. '이 프로젝트는 옆 부처에서 진행중인 이 프로젝트와 겹친다, 함께 진행하면 시너지가 나고 예산도 대폭 줄일 수 있을 것 같다'는 제안을 AI가 해줄 수 있다는 것이다.
더 중요한 건 일을 하면 자동으로 데이터가 쌓인다는 것이다. 회의록, 검토 문서, 참고 자료, 의사결정 과정... 모든 게 클라우드에 남는다. 이게 AI의 양식이 된다.
지금이 골든타임이다
늘 그렇듯이 늦었다고 생각할 때가 가장 빠른 때다. 세계 최고의 AI native 정부를 목표로 하는 지금이 적기다. 공개를 기본으로, FAIR를 자격으로, 민간과 관이 함께 손잡고 '표준화'의 생태계를 만들어갈 때다. AI가 학습하기 가장 좋은 데이터가 차곡차곡 저절로 쌓이는 정부를 만들자!
[2] https://www.hani.co.kr/arti/opinion/column/1203563.html
[3] https://www.go-fair.org/fair-principles/
[5] https://tfx.treasury.gov/data-transparency/gsdm
[6] https://brunch.co.kr/@brunchgpjz/32
[7] https://m.korea.kr/news/cultureColumnView.do?newsId=148946411&pWise=mMain&pWiseMain=A7#cultureColumn