brunch

You can make anything
by writing

- C.S.Lewis -

by 박태웅 Oct 20. 2021

미국 정부가 데이터를 공개하는 방법

‘표준’과 ‘표준화’는 다르다!

미국 연방정부가 정부의 예산 관련한 데이터를 어떻게 공개하는 지에 관해 글을 쓴 적이 있다.  

https://brunch.co.kr/@brunchgpjz/19


“미국은 어떻게 하고 있을까? 미국은 데이터법에 아예 포맷을 못박고 있다. 예를 들어 백악관의 관리예산처(Office of Management and Budget, OMB)는 반드시 하나의 통일된 데이터 형식, 즉 “스키마”를 유지관리하여 모든 연방 지출 보고서를 구조화할 것을 법령으로 의무화하고 있다. 

데이터법정보모델 스키마(DATA Act Information Model Schema: DAIMS)라고 불리는 이 스키마는 쉽게 말해 정부 예산 보고서를 ‘기계가 읽을 수 있도록’ 하는 표준 포맷이다. 

https://fiscal.treasury.gov/data-transparency/DAIMS-current.html 

미 연방정부는 이 포맷을 공개해 다른 정부기관들도 쉽게 쓸 수 있도록 제공한다. 정부가 공개하는 데이터는 ‘기계가 읽을 수 있어야 한다’(Machine readable)는 원칙을 법으로 구현한 것이다.” 


 이 얘기를 조금 더 들어가 보려고 한다. 그전에 ‘기계가 읽을 수 있도록(Machine readable)’이 무슨 뜻인지 알아보자. 

 공개하는 데이터의 양이 적을 때는 어떤 형태로 공개를 해도 무방하다. 사람이 읽을 수 있으면 되기 때문이다. 그러나 문서의 양이 수천, 수만, 수십만 장이 되면 어떨까? 그런 데이터를 인쇄해서 뿌린다면 그것을 ‘데이터를 공개했다’고 말할 수 있을까? 

이런 경우는 흔히 ‘정보 공개’라는 개념에는 맞는다. 누구나 볼 수 있기 때문이다. 그러나 ‘데이터 공개’라고 하긴 어렵다. ‘데이터’로서 활용하기가 몹시 어렵기 때문이다. 이런 식으로 공개를 하면 한 장 한 장을 OCR(광학문자인식)로 읽어서 기계가 읽을 수 있는 문자로 바꾸고, 문서에 표가 있으면 알고리듬을 짜서 표를 인식하게 하고, 오탈자를 대조해서 고치고… 하는 복잡한 과정을 거쳐야 비로소 데이터로 활용이 가능하게 된다. 이렇게 해야 컴퓨터로 통계처리를 할 수 있는 것이다.


 수십만, 수백만 건의 데이터를 처리해 지난 몇년간 추세가 어땠는지, 주로 어떤 부문에 돈을 얼마나 넣어왔는지, 소홀히 한 부분은 어딘지, 그래서 어떤 결과가 나왔는지… 등을 알자면 컴퓨터로 계산할 수 밖에 없다. 데이터를 ‘기계가 읽을 수 있도록(Machine readable)’ 공개하는 것은 그런 의미다. 미국 정부는 이를 위해 아예 의회에서 데이터법을 만들어 포맷을 못박은 것이다. 한국 정부가 아래아한글과 pdf로 정보를 공개하는게 지극히 한심한 이유가 여기 있다.  


DAIMS의 개요는 다음과 같다. 

정부 재정 데이터의 투명성을 제고하기 위해 추진했다. 당연히 기계 판독이 가능한 데이터(XML, RDF 등) 표준 규격으로 제공한다.    

    민관 협업의 생태계를 확립하는 것으로 시작했다. 개발 단계부터 민간과 협업하여 법제도 제정–표준–개방까지 전체 ’표준화‘ 프로세스의 생태계를 구축했다. 민관이 협력해100개이상의 ‘유효성검증규칙’과 400개의 데이터요소를 구현했다.    

    국제 표준을 준수했다. DAIMS는 ISO 표준개발 지침서인 ISO 디렉티브를 따랐고, DAIMS 메타데이터는 ISO/IEC 11179 표준을 준용했다. 즉, 국제 표준 지침에 맞춰 연방지출 데이터요소의 명칭, 유형, 크기, 허용 가능 범위를 정했다.   

  무엇보다도! 애자일하게 진행했다. 진행한 모든 자료와 소스코드가 드롭박스(dropbox)와 깃허브(github)에 공개되어 있다. Fed spending transparency라는 제목의 깃허브 페이지에 소스코드가 다 올라가 있다. 

https://github.com/fedspendingtransparency


이 코드들은 모두 오픈소스다. 

저작권은 CCzero다. CC0 라이선스는 원저작물에 대하여 저작권자가 그 권리를 포기하거나 기부한 저작물을 의미한다. 누구나 자유롭게 이용할 수 있다. 저작물에 대한 변형이 가능하고, 사용자 출처 표시 의무가 없고, 저작권자와 상의 없이 재배포할 수 있으며, 상업적 용도로도 쓸 수 있다. 


  DAIMS에서 우리가 배워야할 것은 무엇일까? 하나만 가져올 수 있다면 그것은 ‘표준’과 ‘표준화’는 다르다는 것이다. 표준은 스펙(specification)을 만드는 작업이고, 표준화는 표준이라는 생태계를 만들어 내는 일련의 과정을 모두 포함하는 것이다. 이 ‘표준화’에 속하는 것들을 DAIMS에서는 했다. 

 백악관 관리예산처는 처음부터 모든 이해관계자들을 끌어들였다. 민간과 협업했고, 데이터들을 공개하고 공유했다. 작성한 코드는 모두 오픈소스로 풀었다.

 엄청난 기술을 쓰지도 않았다. AI도 빅데이터도 없다. DAIMS의 XBRL은 단지 XML이다. 대신 이들은 이 프로젝트를 생태계의 관점에서 접근했다. 핵심은 실제 이해관계자들과 협업해서 함께 스키마 정보를 만들어냈고, 이들과 함께 지속적으로 업데이트를 해나가고 있다는 것이다. DAIMS 홈페이지에 가보면 2016년부터 지금까지의 업데이트 이력을 한눈에 볼 수 있다. 기술문서도 촘촘하게 정리돼 있고, 소스코드는 모두 깃허브에 저장돼 있다. 이를테면 이런 문서들이다. 


On this page

DAIMS Technical Architecture

DAIMS Documents for Federal Agency Staff

DAIMS Documents for Data Analysts

DAIMS Documents for users of USAspending.gov

History of DAIMS Releases since 2016


깃허브를 쓰고 있다는건 정말로 놀라운 일이고, 우리가 제대로 배워할 점이다. 깃허브는 ‘분산형 버전관리시스템’이다. 아주 간략하게 설명하면 이렇다. 누구나 코드를 가져다가 고칠 수 있고, 고친 내용을 원래 코드에 적용해달라고 요청할 수 있다. 정부의 소스코드를 누구나 들여다볼 수 있고, 가져가서 고칠 수 있다, 즉 누구나 그것을 발전시키는데 기여할 수 있다는 뜻이다. 깃허브는 이런 일이 쉽도록 만들어진 코드저장소다. 그 덕분에 DAIMS는 2016년 이후로도 끝없이 개선돼 왔다. 

 이런 일은 정부 사이트를 구축한다고 제안서를 요청하고, 조달청에서 낙찰을 받은 개발사를 고용해 용역을 주는 방식으로는 어렵다. 그 개발사에 속하지 않은 민간의 전문가가 참가할 경로가 원천적으로 막혀 있는데다, 개발기간이 끝나면 개발작업도 끝나기 때문이다. 다음번 고도화 프로젝트가 시작될 때까지 모든 작업이 중단된다. 게다가 발주를 하는 공무원이 그만한 전문성을 가지고 있다고 하기도 어렵다. 이런 현실을 증거하는 글들은 차고도 넘친다. 그중 하나를 소개한다. 

https://okky.kr/article/1075422

 이런 일들을 그만할 때가 되었다. 정부의 최고정보책임자(CIO)와 최고데이터책임자(CDO)가 선임이 돼 ‘표준화는 표준이라는 생태계를 만들어 내는 일련의 과정을 모두 포함하는 것’을 충분히 이해한 가운데 당대의 전문가들과 함께 시민을 위한 최고의 서비스를 만들어나가는 모습을 볼 수 있기를 바란다.  


얼마전에 뜻이 맞는 사람들이 모여 DAIMS에 관해 토론을 했다. 이 글은 그 내용을 정리한 것이다. 전체 토론을 아래에 공유한다. 공공데이터 개방에 참가하고 있는 분들에게 조금이라도 도움이 되기를 바랄 따름이다. 


[미국 데이터법정보모형 스키마(DAIMS)에 관한 토론]


    DAIMS 주요 내용 요약   

(정부 재정 데이터의 투명성 제고) 미 연방정부의 예산정보를 투명하게 제공하기 위해 재정 데이터의 표준을 확립하는 표준화 작업 추진 

※ 기계 판독이 가능한 데이터(XML, RDF 등) 표준 규격으로 제공 

(민관 협업 생태계 확립) 개발 단계부터 민간과 협업하여 법제도 제정–표준–개방까지 전체 ’표준화‘ 프로세스의 생태계를 구축 

※민관공동협력으로100개이상의 ‘유효성검증규칙’ 및400개 데이터요소 구현 

(국제 표준 준수) DAIMS는 ISO 표준개발 지침서인 ISO 디렉티브 및 DAIMS 메타데이터는 ISO/IEC 11179 표준을 준용 

※ 국제 표준 지침에 맞춰 연방지출 데이터요소의 명칭, 유형, 크기, 허용 가능 범위를 정함 


(애자일한 진행 과정) 실제 진행한 모든 이력이 dropbox 및 github에 공개되어 있어, 프로토콜 자체는 민간에서 사용하는 방식을 도입 


    국내 현황 및 한계점   

(표준적용 한계) 기관 담당자들이 데이터를 표준화된 형태로 제공을 의무화 하는 제도 및 방안 미흡
※ legacy 시스템의 표준 도입 법적 의무사항도 부재 

(국제 표준 적용) 개방 표준 및 공통표준용어 등을 추진하고 있지만, 국제 표준 및 사실상 표준(de facto) 등의 반영이 부족 

(어휘 용어 표준) 어휘 표준 및 어휘를 담고 있는 주소인 name space의 부재로 현재 국내 표준은 프로세스 표준 수준 

(부족한 시스템 간 연계) AI 허브의 공공데이터포털 스키마 (schema.org) 미반영 등 정부내 시스템 간 연계 및 표준 반영 미흡 


국내 도입 가능성 및 제안

(DAIMS 과정 벤치마킹) 구축 단계부터의 민관 협업, 오픈 소스 방식 등 일하는 방식 및 문화를 바꾸는 표준화 생태계 구축 추진 


(민간 역할 확대) 민간이 실제 개발 및 구축 단계서부터 적극적으로 참여 할 수 있도록 하는 제도적인 방안 마련 필요 

※ 현재 민간의 역할은 자문 및 데이터 활용 주체로 제한됨 


(정부 common 프레임워크 수립) 45개 메타데이터 속성의 범정부 통용 가능 여부 검토를 통해 DCAT AP* 한국 버전 수립 추진 

* 국제표준 DCAT 목록 중 Application Profile 이라고 불리는 표준으로 유럽에서는 국가마다 확장 진행중 

(국가 데이터 관리체계 확립) 국가 관점에서의 데이터 관리 방안 및 개방 규칙 등의 정부 지침 마련 필요 

 

토론 요약


� C 씨 발제 : 미국 DAIMS 주요 내용 및 국내 도입 시사점 

공공데이터 얘기가 나왔을 때, 미국이 제일 먼저 타겟을 잡은 부분이 예산 데이터임. DAIMS는 2010년부터 논의가 되었음. 이 프로젝트에서 주목할 점은DAIMS와 연관된 미국 USA spending 내용을 보면 최근 급부상한 빅데이터, AI 같은 기술 내용이 전혀 없다는 것. 

DAIMS의 주안점은 실제 stakeholder 들과 협업해서 스키마 정보를 만들어 냈다는 것!임. DAIMS에서 얘기하는 스키마는 우리가 요즘 말하는 스키마(schema.org)와는 다른 개념으로 2000년대 초반의 XML을 의미함 

DAIMS의 XBRL이라는 언어는 결국 XML 형태이고, stakeholder들과 함께 시스템을 협업체계로 만들었으며, 그들의 요구사항이 반영됨. 

시스템을 보게 되면 ERP 등이 모두 묶여있고, legacy 시스템과 데이터를 표준화된 방식으로 만들어 국민에게 개방할 수 있는 pipe-line을 만든게 BP임. 

이를 위해 법제도 제정부터 국민에게 개방하는 사이클을 하나의 생태계 관점으로 본 것임. 즉, DAIMS 사례는 거버넌스 체계를 처음부터 끝까지 만들었다고 할 수 있음 XML이나 데이터 표준화를 시켰다의 개념이 아님. 

표준과 표준화는 다른 개념이다. 표준은 스펙(specification)을 만드는 작업이고, 표준화는 표준이라는 생태계를 만들어 내는 일련의 과정을 모두 포함하는 것임. 이 표준화에 속하는 것들을 DAIMS에서는 했음 

전체적으로 DATA ACT의 focus 는 넓지 않고 예산의 정확성, 표준성, 정확성에 초점이 맞춰져 있음. 법 제정 배경은 오바마 정부에서 오픈데이터를 시작할 때, accountability와 transparency에 가장 큰 중점을 두고 추진함. 그 과정에서 필요성은 미연방정부 내 각기 다른 예산을 취합하는 방법이 없었고, 서로 다른 프로그램들이 존재해서, 데이터를 개방함에 있어 항상 정보가 이질적인 부분이 있었기 때문에 표준화를 도입하게 되었음. 

XML 형태를 ‘개방가능한’ 형태와 ‘기계판독 가능한’ 형태로 얘기하다 보니 RDF 포맷을 같이 사용하게 되었음 

USA spending에서는 예산 정보를 DCAT 이라는 데이터 카탈로그로 표현해줌. 목록은 카탈로그로 표현되고 실제 데이터는 XBRL 형태 또는 스키마 형태로 변환하는 툴을 쓰고 전체적으로 연결된 형태로 구성되어 있음. 

DAIMS 표준은 안에 들어가는 용어나 어휘에 대한 표준을 의미하며, 전체 시스템을 묶는 것은 ISO 표준과 메타데이터 레지스트리가 모두 연관되어 묶여 있음 

가장 중요하게 생각한 것은 100여개 연방 기관, 400여개의 연방 기관이 보유한 시스템을 어떻게 연계할 것인가에 대한 부분이었음. 연계하기 위한 작업은 처음에는 전형적인 waterfall 방식 이였으나, 4년 이상의 시간이 걸리자 애자일한 방법으로 민간 stakeholder들이 들어오고 시스템도 개방형 형태로 진행됨. 

민간에서 바라보는 접근의 end-point는 USA spending이고 실제 진행되었던 커뮤니케이션은 dropbox, github에 모든 과정이 남아 있으며, 민간 방식으로 진행되었다고 이해하면 됨 

공공데이터포털도 약간 비슷한 매커니즘을 가지고 있는데, 기관의 서로 다른 시스템에서 데이터를 올리면 1차적으로 굿데이터 시스템 에서 해당 데이터를 검증하고 있는 것처럼 DAIMS에서는 the broker(오픈 소스 소프트웨어)에서 검증함. 

DAIMS는 서로 다른 시스템에서 올리는 데이터에 대해서 개방 형식을 지키게 하는 것이고, 그 데이터가 올라올 때 400여개의 유효성을 검증하는 룰을 만들고 동작시키는 것은 the broker의 역할(민간과 같이 개발). The broker가 어떻게 작동하느냐에 따라서 reporting tool을 통해 USA spending으로 개방됨 

가장 중요한 부분은 인터페이스 및 데이터가 the broker에 올 때까지 DAIMS 표준 준수 여부, USA spending에서 처리하는 방식 모두 자동으로 이루어짐. 정부 별도 망이 아니고 파일을 올릴 때 dropbox를 사용했기 때문에 프로토콜 자체도 민간에서 사용하는 방식을 취했다고 볼 수 있음. 

엄청난 새로운 기술을 사용한 게 아니고 legacy 방식을 최적화했다고 볼 수 있음. 우리는 클라 우드 같은 형태의 더 나아간 기술로 적용 가능하다고 생각됨 

이 관점에서 보면, 우리나라는 기반을 다시 바라보는 작업이 필요함. 공공데이터포털, AI 학습 데이터 등 우리는 좋은 경험이 많으므로, 지금은 그 좋은 경험들을 엮어 내는 과정이 필요하고, 일련의 프로세스를 만들어 내는 고민이 필요함

DAIMS를 보면서, 이와 같은 사례를 공공데이터포털이나 dBrain에 적용할 수 있을지에 대한 고민은 많음. 

공공데이터정책이 공공 데이터로 끝나면 안되고, 우리나라 데이터 전반에 확장되어야 한다고 생각함. 확장을 못 시키는 이유는 체계화가 안되어 있음. 

DAIMS를 통해서 우리가 만들고 싶은 부분이 재정정보를 공개데이터로 만들고 싶은 것인지, DAIMS 표준 도입인지, DAIMS에서 얘기하는 재정정보를reporting 하는 ODF 주제인지, 데이터 관련 체계 거버넌스인지에 따라서 DAIMS 해석은 달라진다고 생각함 

� 중간 토의 

(A씨) 김교수님이 ‘표준과 표준화는 다른데, 우리는 표준만 가지고 오려고 한다’라고 말씀 주셨는데 굉장히 중요한 포인트라고 생각함. 

DAIMS가 만들어진 과정이 상세하게 잘 정리된 보고서로 만들어지면, 비슷한 생태계를 만들려는 시도가 생길거라고 생각됨. ‘데이터를 모으자’ 할때도DAIMS가 만들어진 것과 같은 그런 민관 협력의 생태계가 있었으면 수요자가 더 많이 참가했을 것이고, 더 많은 의견을 낼 수 있었을 것임. 지금은 대부분‘이런게 필요하지 않을까’라는 짐작으로 정리된 부분이 많다고 생각함

(B 씨) DAIMS가 표방하고 있는 내용보다, DAIMS를 만든 과정이 더 중요해 보이고 우리가 배워야 할 필요가 있음. 미국은 first mover이고 우리는 fast follower가 되면 되는데, 똑같은 과정을 겪어야 할지에 대한 의문이 있음. 우리는 생태계를 만들고 제대로 된 거버넌스를 만든 경험이 없음. 우리가 디지털 경제에 first mover가 될 수 있는 분야가 있다면, 그 분야에서는 DAIMS가 했던 경험 그대로를 우리 사회에서 시도 해봐야 한다고 생각함 

(L씨) DAIMS를 만들어 낸 과정을 보면 정부가 주도를 하고, 400여 개 이상의 기관과 파편화된 저장정보에 민간 이해관계자까지 참여시켜 pipe-line을 만들었음. DAIMS의 작동 방식, 즉 일하는 방식이 가장 중요하다고 생각되기 때문에 조금 더 구체적으로 정리해보면 좋을 거 같음. DAIMS 자체는 legacy 시스템을 최적화시킨 거고, 기술 수준을 우리가 쫓아갈 필요는 없기 때문에 일하는 방식에서 우리가 시사점을 받아야 함. 우리는 output을 관료적인 방식으로 만드니까, 생태계가 안 만들어지고 있음. 우리가 지금까지 해온 관료적인 방식에 문제제기를 하고, 생태계 구축을 하는 부분에 집중해서 보면 좋겠음 

(C 씨) 2013년 쯤에 한국에서 공공데이터 얘기가 나올 때, 영국 open knowledge 에서 ‘where does my money go?’라는 프로젝트를 실시함. 이 프로젝트는 사이트에서 내 연봉을 입력하면, 내가 낸 세금이 복지, 국방 등으로 얼마가 사용되는지 보여주는 프로젝트였고 굉장히 sensational 했음. 

그 다음에 open spending 프로젝트가 바로 나와서 전세계 예산 데이터를 확보를 해서 공개 한다고 했음. 그 당시에 한국 정부는 관심이 많지 않았고, 시민 단체에서도 맨 윗 단계인 시각화만 진행하고 끝이 났음. 생태계를 얘기할 때, 제일 끝에서부터 시작되어야 하는데 각자 보고 싶은 것만 봤음. 

하지만 DAIMS는 정부의 무거운 데이터가 시민단체까지 잘 와서, 같이 묶였다고 보면 됨. 민간에서 정부의 데이터를 가지고 가서 만드는 개념이 아니고, one team이 되어야 함. 협업 체계도 정부와 민간이 묶여있는 시스템이 가장 필요함

(B 씨) 미국 DAIMS가 또 놀라운 점은, 첫 release가 2016년 이고, 이해당사자가 굉장히 많은데도 불구하고 버전 업그레이드가 지속적으로 있었음. 미국처럼 큰 나라가 이 output을 냈다는 자체가 굉장하다고 생각됨. 우리가 해오는 결정 방식은 한번 결정된 내용을 의심하고 같은 문제를 계속 논의하고 있다는 문제점이 있음 

(C 씨) 결과까지 가기 전에 차곡차곡 쌓여서 다른 사람이 오더라도 연결해서 가져가는 체계가 만들어야 함. DAIMS 뿐만 아니라, 스키마 (shema.org)도 선도적인 방식으로 계속되었으면 좋겠음. 우리나라가 어렵다고 생각한 이유는 DAIMS는 내부에서 표준화, XML, RDF, 기계판독 형식 등이 논의가 되면 그 단계에서 끝나지 않고, USA spending이나 data.gov 사이트까지 연결이 됨. 기관들이 썼던 데이터 포맷이 USA spending 데이터 목록에 바로 연결이 되는 생태계 자체가 구축되어 있음. 

우리는 data.go.kr에서 만들어 낸 스키마가 AI 허브에서조차 사용되지 않고 연계가 되지 않고 있음. 또한 행안부에서 만들어 내는 표준은 정부가 정한 규칙이지, 실제로 많이 사용되고 있지 않음. 이런 부분들이 거버넌스 안에서 정해지고, 각 정부로 퍼져야지만 효과가 일어 날 수 있음 

(L씨) 굉장히 적절한 문제 제기라고 생각됨. 

(F씨) 미국 OMB는 이니셔티브를 가지고 있기 때문에, 4년이라는 짧은 시간에 가능했다고 보임. OMB는 정부 management, 디지털 및 데이터 관련 기능을 가지고 있기 때문에 데이터 표준 화를 중요한 agenda로 생각하고 있음. OMB 내에서 coordination이 굉장히 잘 되었음. 또 개인적인 소견은 USA spending이 만들어 질 때, 데이터의 transparency 제고 목적으로 끝나지 않고, 의사 결정에 활용할 수 있도록 만들어졌지만 정확도는 30%가 되지 않았다고 함. DAIMS를 도입하려고 하는 목적 자체가 굉장히 명확했다고 봄. 그렇기 때문에 DAIMS를 만들려고 하는 참여자들의 목적에 대한 컨센서스가 잘 확립되었음 

(C 씨) DAIMS의 기본은 XBRL을 가져왔기 때문에 기술 표준에 대한 항목들은 수월했음. 반면에, DAIMS와 궤적을 같이 했던 것이 ‘project open data’라고 하는 프로젝트가 있었음. 정부의 메타데이터 체계를 만드는 프로젝트인데, 실패했음. 본받아야 할 점이 많은 project 였는데 실패한 이유는 트럼프 정부로 넘어오면서 진행이 잘 안되었음. 여기서 또 중요한 부분은 리더십임. 또한 미국에서 이 분야를 담당하는 담당자들이 world wide web과 협력하였음. 용어, 표준을 만들어 내는 단계가 domain 전문가들이 아니고, 표준화 단체의 노하우를 가지고 일했음

(B 씨) 또 중요한 점은 우리가 하고 있는 모든 정부 주도 사업은 실패 없이 성공한다고 간주되고 있음. 제대로 시도해보고 실패하는 경우라면 social study가 될 수 있으나, 뭐든 성공으로 평가가 내려져야 하는 환경이라 역설적으로 social study가 굉장히 부족하다고 생각됨. 

 (A 씨) 미국도 쉬운 작업이 아니였다고 생각함. Intens한 작업들이 있었고, 여러 차례의 미팅, 워크숍, 회의 등이 있었 기에 가능했다고 보임

H 발제 : 미국 DAIMS–한국 공공데이터 표준 비교 분석 

먼저, 스키마(schema.org) 적용 건은, 기관 담당자들이 운영하는 사이트의 데이터를 표준화된 형태로 제공해야 한다는 의무 사항이 고유 역할로서 책임성이 부과되어야 하는데 그에 따른 제도적인 방안이 아직은 없음. 

기술적인 문제는 아닌 것 같고 지속성을 갖기 위해서는 제도적인 뒷받침이 필요함. 다른 사업에서 관련 지침이 나와 있는데, 그 사항이 포함이 안되어 있거나, 공공 데이터포털에서 control 하기 쉽지 않은 부분들이 있음. 표준화 관련된 법과 제도를 하나로 묶는 작업이 필요하다고 생각됨 

우리는 표준을 만들고 문서 고시를 하고는 끝났다고 생각한다면, DAIMS는 다양한 사용자의 입장을 고려해서 산출물을 만들어 내는 점이 놀라움. 

우리의 개방과 활용 부분은 서로 단절된 부분이 있음. 개방할때는 개방하기 좋은 형태로 개방 하는데, 활용하는 쪽에서 보면 입장이 다른 경우가 많음. 이런 부분이 DAIMS 사례에서 벤치마킹할 부분들이 있다고 생각됨 

우리가 하고 있는 개방 표준은 기관의 동일한 데이터 항목, 형식, 용어를 표준화하는 것이고 공통표준용어는 공공기관이 보유하고 있는 DB를 일관성 있게 적용하자는 것임. 또한, 중앙메타데 이터관리시스템을 통해서 표준을 관리하고 있고 개방 표준 데이터의 경우 ‘굿데이터’라는 점검시스템 운영을 통해 제시한 개방 표준에 맞게 데이터를 개방하고 있는지 점검하고 있음 

한계점은 표준 자체가 고시된 문서 정도임. 표준 제정 과정에서 민간 의견을 듣는 노력은 했지만 부족한 점이 있었고, 국제표준이라든가 사실상 표준(de facto) 등이 충분히 고려되지 못했음. 

반면, DAIMS는 DAIMS 변경 이력 사항 등을 문서로 잘 관리하고 있고, 기술 관련 문서도 제공하고 있는 것으로 확인됨. 데이터 항목별로 적용할 수 있는 품질 규칙, 스크립트 등을 자세히 제공하고 있음. 데이터 분석용 가이드도 풍부하게 제공되고 있음 

시사점으로 보는 점은, 우리의 개방과 활용 부분이 완전 단절은 아니지만 활용 부문을 고려해서 표준 정책을 추진하여야 함. DAIMS가 만들어진 과정을 재정 뿐만 아니라 다른 분야에 적용해야 함. 

현재 ODF 진단 도구, 공통표준 용어 진단 매핑 등을 추진하고 있는데 오픈소스 기반으로 다양한 진단 도구 확대가 필요하다고 생각됨. 이 과정에서 커뮤니티를 활성화 시키고 제도적으로 뒷받침이 되어야 함 

� 최종 전체 토의 

(C 씨) DAIMS에 했던 프로세스와 사상 중 우리 정부로 가지고 올 수 있는게 뭘까 고민하는게 핵심이라고 생각함. 특정 도메인이 아니라, 정부에서 통용할 수 있는 프레임워크의 수준은 무엇인지 고민해봐야 함. 행안부나 특정 부처가 아닌, common 프레임워크를 만들고 각 부처에 확장 하는게 중요함. 예를 들어 범정부 메타 데이터 45개가 확산 가능하면 확산시켜야 하는데, 범정부에서만 쓰고 있으니까 외부에서는 참고용으로만 쓰고 있으면 표준으로 받아들이고 있지 않음

(A 씨) 개발 형태가 지속가능성이 없다고 보임. 개발 단계에서 continuous integration(CI), continuous deploymenet(CD)가 되어야 하는데, 한국 프로젝트는 SI로 진행이 되고 있기 때문에 지속 가능하지 않음. 프로젝트 사이에 많은 단락이 생기고, 외주를 줘야 하고, 외주 과정에서 오해와 왜곡이 발생하고 있음. 

또한, 표준과 국제표준이 다르다는 점을 이해해야 함. 국제표준은 오픈소스로 지속적인 개선과 발전이 일어나고 있음. 우리가 자체로 표준을 만들었다 해도 SI로 구현했다면 다음번 SI작업이 있기 전까지는 업데이트를 할 수가 없고, 그러는 사이 격차는 계속해서 벌어질 수 밖에 없음. 일하는 방식과 문화를 바꾸고, 국제표준을 이해한 바탕에서 표준화의 길을 가야함 

(C 씨) gap을 줄일 수 있다고 봄. TTA에 데이터 카탈로그에 대한 표준을 제안했고, 올해 표준이 나옴. 이런 시도 또는 45개 메타데이터를 확장한 버전에 국제표준 DCAT 목록 중 application profile 이라고 하는 표준(유럽에서 국가마다 확장 중)의 한국 버전을 만들어야 함. 

45개 메타데이터가 범정부에 통용될 수 있는지 검토해 보고, 될 수 있다면 DCAT AP KR을 국내 표준으로 내고, 받아들여지면 국제표준으로 가면 됨. 또한 민간의 역할을 넓혀줘야 함. 민간은 대부분 자문이나, 데이터를 가져다 쓰는 활용 역할을 하고 있는데 개발과 구축을 민간이 같이 했으면 좋겠음. DAIMS는 민간이 가져다 쓰는 역할이 아니고 일원이 돼서 같이 만드는 역할임 

(C 씨) 예를 들어 영국 포털을 만들고 CKAN을 도입할 때 민간 핵심개발자들을 채용함. 영국은 data.gov를 만들어냈고, 미국에서 다시 이 핵심개발자들을advisor로 채용함. 우리는 민간의 역할을 소극적으로 보고 있음. 민간이, 조언이나 데이터를 활용하는 커뮤니티로만 존재할 필요는 없음. 민간의 역할을 ‘함께 일하는 사람’으로 끌어 들일 때 시너지가 날 수 있음

(J 씨) 민간이 정부와 같이 일하는 역할은 좋다고 동의함. 다만 포털을 CKAN 기반으로 변경하려고 시도했지만 안됐던 이유는 중앙에서 CKAN이 된다고 해도 각각의 기관의 시스템이 CKAN 체계가 되어야 자동으로 harvesting이 되고 메커니즘이 바뀌게 되는데, 담당자들의 의식이 낮은 수준임. 

모아서 개방하는 입장에서는 provider가 표준화가 되어야 함. 실질적으로 공공 데이터포털을 CKAN으로 적용하는데, 국내 오픈소스가 아니고 해외 오픈소스로 유지보수가 되는지, customizing이 되는지에 대한 우려가 있었음. 

저도 국제표준 준수는 동의하고, 우리 나름의 표준을 국제표준으로 맵핑하고 변경하는것도 가능하다고 보지만, 처음부터 국제 표준으로 가는 체계의 내부적인 동의가 쉽지 않음 

(E 씨) DAIMS의 과정은 개발부터 개방까지 전체 프로세스가 다 이어지는데 우리는 그렇게 못하고 있음. 예를 들어, 전자정부법에는 표준이 있고 기관간 연계하는데 focus가 있기 때문에, 전자정부시스템을 만들 때 의무사항으로 따라야 함. 그 이후에 공공데이터법이 생기면서 공공데이터 표준을 만들었지만 ‘개방’표준으로만 되어 있음. 개방 표준을 만들어도 legacy 시스템 에 반영이 안돼서 괴리가 발생하고 있음. 

또한 정부는 권고 사항이지만 의무사항으로 받아들이고 있고, 민간은 그렇지 않기 때문에 격차는 커지고 있음. 이 관점에서 데이터 거버넌스는 이 둘을 중간에서 조정해 주는 역할을 해줘야 한다고 봄

(B 씨) 실제로 외부에서 이 표준이 왜 안 지켜지는지 얘기를 들어본 적이 거의 없다고 생각함. 거버넌스는 이해당사자들의 얘기를 듣는 거라고 생각됨. 

표준과 표준화는 다른데, 표준을 만들어 내는 작업은 문서화로 끝나지만 표준화 작업은 더 큰 노력과 예산도 많이 들고 큰 작업임. 

Legacy 시스템을 바꾸는데 소요되는 예산은 얼마인지, 해결할 수 있는 오픈소스는 뭐가 있는지, 전문가는 누구인지를 전수 조사하고 협의하는 과정이 필요함. 지금의 legacy가 견고하기 때문에 안돼서 차세대에 적용한다는 식의 접근은 아니라고 생각함. DAIMS에서 본 핵심은 이해당사자들의 얘기를 듣는 것임 

(G 씨) 빅데이터플랫폼은 16개 분야가 있고, 16개의 데이터 표준들을 만들었는데 말씀 하신 것처럼 표준화 과정, 생태계를 만드는 과정이 없었음. 

분야별로 데이터 표준들은 있지만, 지켜지고 있지 않고 표준화 과정을 통해서 각각의 분야별로 생태계를 만드는 작업이 필요하다는데 동의함. 빅데이터 플랫폼 같은 경우는 공공과 민간이 섞여 있는데 DAIMS 스키마를 만드는 과정을 좀 더 조사해서 조금씩 적용해 보는 것을 고려해 보겠음 

(D 씨) 우리가 그동안 많이 해온 작업들을 하나로 묶는 작업이 필요하다고 봄. 공공데이터 표준과 지침을 조금 더 compact 하게 묶는 작업이 필요하다고 보고, 그 과정에서 민간과 이해관계자 의견을 받아 TTA 표준으로 올리는 작업들이 필요하다고 봄 

(C 씨) 우리 표준은 대부분 부처에서 정한, 법제도에서 만들어지는 행위 표준임. 그걸 넘어선게 실용 표준이라고 보는데 이 역시도 프로세스 표준임. 

우리가 가장 부족한 것은 어휘 용어 표준임. TTA 용어 표준이 많지만 해외 표준을 준용하고 있음. 어휘 표준을 만들면 어휘를 담고 있는 주소(name space)가 필요한데 TTA에 name space가 없음. 우리가 공공데이터를 얘기하고 있지만 공공을 빼고, 국가데이터라는 관점으로 보고, 공공데이터에서 학습한 경험을 바탕으로 abstract 한 버전이 충분히 나올 수 있다고 생각함. 이 abstract version을 국가데이터에 활용 체계, 거버넌스 체계를 만들어야 함. 무거운 발걸음이지만, 부처별 접근이 아니고 펼쳐봐야 하는 일을 데이터 특위에서 시작해야 함 

(B 씨) 정부가 마스크 앱을 진행하면서, 민간 개발자와 협업하는 경험을 했고, 민간과 일해야 하는 필요성을 인지한 변화라고 생각함. 가장 중요한 것은 생태계 구축의 경험들을 어떻게 우리 식으로 녹여 낼지에 대한 고민이 필요한 단계임 

(C 씨) 마스크 앱은 결과를 만들어 내는 부분은 성공이었지만, 그 경험을 범정부적으로 확산 가능 하게 하는 지속가능성을 유지하기 위한 노력이 따르지 못해 많이 아쉬웠음 

(D 씨) 마스크 앱의 경우 첫 개방단계부터 이용자들이 필요한 데이터 요구를 먼저 받고, 요구에 맞춰서 개방한, 쉽게 나오기 어려운 사례였음. 현재는 공공기관들의 개방을 끌고 가는 작업 자체도 쉽지 않고, 또 이용자들의 요구에 맞춰서 개방하는 부분은 더더욱 쉽지 않은 상황임 

(L 씨) 앞에서 국가데이터와 공공데이터를 구별해서 얘기했는데, 국가데이터는 공공데이터는 아니지만 정부부처가 광범위하게 보유하고 있는 데이터 전체를 말한 게 맞는지 ? 

(C 씨) 맞음. 공공데이터의 목적은 개방인데 개방하지 않은 데이터도 중요함. 

데이터기반행정법과 공공데이터법 취지 안에서, 빅데이터분석센터 운영 방법에 대한 의문이 있음. 빅데이터분석센터로 들어오는 데이터는 legacy가 아니고 새로운 데이터인데, 거버넌스 체계를 입히지 않으면 언제든 legacy가 될 수 있음. 

지금은, 국가 전체에서 데이터를 어떻게 관리해야할 건지에 대한 고민이 필요한 시점이고, 그중에서도 개방규칙(국가데이터 관리 체계)을 정부에서 지침으로 만들어야 함. 국가적인 관점에서 데이터를 다시 한번 보고, 이 수준에서 abstract을 만들고 확장은 부처에서 하도록 하는 접근을 해보면 좋겠음 

(H 씨) 표준을 만드는 과정은 전혀 새로운 것을 만드는 과정은 아니고, 대표성이 있고 공통적인 있는 과정을 찾는 것이라고 생각함. 그 과정에 다양한 이해관계자가 참여해서 표준을 개발하고, 표준화를 하는 과정이 중요하다는 말씀에 전적으로 공감함. 품질을 만들고 준수를 해야 하는데 현실적인 문제 등이 있으며 대안이 필요함. 표준은 표준대로 가고, 부담을 경감하고 현실적인 문제를 풀어가는 과정이 중요하다고 생각됨. 표준과 관련된 내용들이 제도적인 부분이 취약하며, 웹데이터는 법률이 존재하지 않고, 행정표준코드 경우는 전자정부법에 정의가 되어 있어서 분리되어 있음. 이처럼 행안부내 관련된 규정과 지침이 분산되어 있어 올해 일원화된 데이터 표준화 지침을 추진하려고 하고 있음. DAIMS 사례에서 범정부 차원으로 끌어올려야 하는 부분이 있고, 분야별 특성 반영도 필요함 

(C 씨) 한가지 제안하고 싶은 부분이 있음. 행정표준코드 관리시스템이 314개 종이 있는데, 스키마(schema.org)로 변환을 하고 공공데이터포털에서5개의 데이터셋을 무작위로 뽑아서 매칭률을 보았음. 컬럼이 10개 정도 있으면 4개 정도는 표준코드와 매칭이 되는데, 공공데이터는 코드가 있는게 아니고 텍스트가 있어서 코드로 바꾸고, 코드를 입힌 다음 퀄리티를 측정해 보니 40% 이상 개선되었음 

예를 들어, 우편번호를 해보면 10,000개 중에 500 개가 비어 있으면, 주소값을 매칭시켜서 우편번호 코드를 넣을 수 있어 완전성이 개선됨. 또 이전 우편번호 쓰던 것들을 표준우편번호코드로 써서 5자리로 바뀌어서 값을 고정시킬 수 있음. 

5개를 샘플로 해봤는데, 개방된 모든 데이터를 표준코드를 입혀서 변환 작업을 해보고자 함. 314개 종에 대해서 변환한 데이터를 오픈할텐데 그 데이터들을 그대로 활용해 주셨으면 함. 다큐멘테이션, 변환 코드 들을 다 제공해 드리겠음 

(B 씨) 중앙부처는 전산 직군이 있는데, head들의 협의회가 있는지? 얼마나 자주 운영되고 있는지 ? 

(E 씨) CIO 협의체는 있지만 전문가 그룹이라고 보기 어렵고, 정보화담당관협의회도 있는데 활성화는 되고 있지 않음 

(B 씨) 결정에 참여하지 않으면서 적극적으로 동참하기는 쉽지 않음. 

실제로 부처에 근무하고 있는 담당자들이 이해 당사자고, 실제 업무에서 적용해야 하는데, 매번 통보를 받는 입장임. 표준화 관련된 것은 생태계의 문제이기 때문에, 전산 관련 담당자들의 협의체가 실질적으로 돌아가도록 정부가 지원해줘야 한다고 생각함        

작가의 이전글 '페이스북 파일즈' WSJ의 특종 보도

매거진 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari

브런치 로그인