빅데이터, 이렇게 쓸 수 있다

공공 부문 데이터 활용 사례 보고서

Jan 29. 2019

들어가는 말

데이터를 활용하는 일은 전문가들을 중심으로 이미 오래전부터 해왔던 일이지만, ‘빅데이터’라는 이슈는 이것을 사회 전반에 걸쳐 진행되어야 할 하나의 패러다임으로 부각시켰다. 데이터의 중요성은 갈수록 커지고 있고, 앞으로 국가 차원의 데이터 인프라 수준, 데이터 활용 역량은 그 나라의 경쟁력을 좌우하게 될 것이다. 우리나라에도 데이터 산업이 활성화될 수 있는 질 좋은 토양이 필요하다.

2017.5.4

글쓴이 NIA 한국지능정보사회진흥원(구 한국정보화진흥원) 정책본부 미래전략센터 송경빈 수석연구원

감수

건강보험심사평가원 의료정보융합실 권의정 부연구위원

도로교통공단 대구교통방송 권기영 프로듀서

㈜더아이엠씨 손기준 연구소장

한국지능정보사회진흥원 정책본부 미래전략센터 김승현 주임연구원

대한무역투자진흥공사 중소기업지원본부 구현모 대리

신한카드 빅데이터센터 BD컨설팅팀 안성희 부부장

글 순서

사례 1. 감염병 확산, 데이터로 막는다.

사례 2. 교통사고를 '예보'하는 방송

사례 3. 데이터! 장그래를 부탁해

사례 4. 신용거래 데이터로 빠르게 보는 소비동향

데이터 활용 사례 1

감염병 확산, 데이터로 막는다.

프로젝트 개요

o 과제명 : 환자안전 조기 이상감지 시스템 구축

o 수행기간 : 2016년 6월 ~ 11월

o 주요 내용 : 의약품안전사용정보(DUR)의 실시간 데이터 기반 감염병 이상징후 모니터링 시스템 구축

o 활용 데이터 : 의약품 처방 데이터(2010년 이후 약 51억건), 진료기록 데이터(약 2조9천억건)

o 수행기관 : 건강보험심사평가원, 디비디스커버, 오픈메이트

※ 한국정보화진흥원 정책본부 미래전략센터의 ‘데이터 기반 미래전략 정책지원’ 사업으로 추진됨

Why? - 왜 추진했나

◉ 감염병 시대, 안전지대는 없다.

활발한 국제교류 및 교통의 발달로 감염병 발생이 증가하고, 한번 발생된 감염병은 무서운 확산세를 보이며 많은 피해를 유발시키고 있다.

2015년 우리나라에 타격을 준 메르스는 격리자 16,693명, 확진자 186명, 사망자 38명을 기록한 바 있으며, 경제적 피해규모가 6조3천억원에 달하는 등 인명·재산 피해 뿐만 아니라 생활경제 침체까지 유발시킨 바 있다.

또한 미세먼지, 폭염 등 이상기후 발생과 환경 변화로 인해 새로운 질병 발생 가능성도 증가하고 있다. 일반적으로 평균 온도가 1℃ 상승하면 전염병 발생률이 4.27% 증가한다고 보고되고 있다(한국보건사회연구원). 2016년에는 22년만의 폭염으로 온열질환자 발생이 역대 최고를 기록한 바 있으며, 후진국형 질병인 ‘콜레라’가 14년만에 국내에서 자체적으로 발생하기도 하였다.

◉ 치료재료, 의약품 등 의료 안전관리 문제 대두

이외에도 건강보험 비급여 항목에 대한 관리, 환자위생 및 안전관리에 대한 모니터링 체계가 부재한 가운데, 최근 서울과 원주 지역에서 주사기 재사용, 자가혈 주사 등으로 C형 간염 집단감염 사건이 발생하여 각각 97명, 2백여명의 피해가 발생되기도 하였다.

◉ 신속‧정확한 질병 감시 및 예측 체계에 대한 요구 증가

이와 같이 보건의료 분야에 감염성 사건사고가 자주 발생하자, 감염병에 제대로 대응할 수 있는 효율적인 체계 구축에 대한 요구 또한 증가하고 있다. 피해 사례를 쫓아가면서 조치하는 사후 대응이 아닌, 발생 즉시 대응 또는 선제 조치할 수 있는 적극적 대응 체계가 요구되고 있는 것이다. 본 프로젝트는 이러한 사회적 요구에 부응할 수 있는 질병 감시ㆍ예측 시스템 시범 구축을 목표로 기획‧추진되었다.

What? - 무얼 만들었나

◉ 감염병 확산의 ‘실시간’ 추적이 가능한 시스템

감염병 발생‧확산에 효과적으로 대응하기 위해서는 국내에서의 유행 상황, 확산경로, 피해 상황 등을 신속, 정확하게 모니터링하고, 다음 발생 지역을 예측할 수 있는 시스템이 필요하다. 본 과제는 건강보험심사평가원과 관계기관이 보유한 방대한 보건의료 데이터들을 실시간 분석하여 전염병 발생 현황을 모니터링하고 이동경로를 감시하며 확산 지역을 예측하는 것을 목표로 추진되었다.

◉ 진단명이 없는 의약품 처방 데이터로부터 발생 질환 추정

감염병 상황 모니터링에 있어 핵심적인 요소는 ‘즉시성’이다. 건강보험심사평가원은 병‧의원으로부터 전 국민 진료내역을 가장 빠르게 원천 수집·보유하고 있으며, 의약품안전사용정보시스템(DUR : Drug Utilization Review)을 운영·관리하는 기관이다. DUR은 의사가 처방단계에서 환자의 처방정보를 건강보험심사평가원에 전송하면, 환자의 과거투약이력 조회 및 안전정보 기준을 확인하여 문제 여부를 0.5초 이내에 의사에게 제공해주는 세계 유일의 시스템이다. 대부분의 보건의료 기록이 사후에 정리‧수집되는 가운데, 이것은 유일한 ‘실시간성’ 시스템인 것이다.

그런데 DUR에는 질병코드 즉 진단명이 포함되지 않는다. DUR은 신속한 처리속도가 필수적이기 때문에, 부하를 줄이기 위해 최소 데이터만을 다루어야 해서이기도 하고, 처방시점에는 진단명이 확정되지 않은 경우가 많기 때문이기도 한데, 이 때문에 DUR 데이터를 감염병 관리에 활용하기 위해서는 각 처방내역이 어떤 질병을 의미하는지에 대한 판단을 필요로 했다. 본 과제에서는 이와 같이 질병코드가 포함되지 않는 DUR의 취약점을 보완하기 위해, 과거 청구자료를 분석하여 각 처방전이 어떤 질환을 의미하는지에 대한 참조테이블을 만들고, 확정된 의약품 처방 패턴을 DUR의 실시간 데이터에 적용하여 현재 발생하고 있는 질환을 추정하였다.

◉ GIS 솔루션을 활용한 공간 시각화 서비스 개발

이렇게 산출된 실시간 감염병 발생 현황은 GIS 기반으로 지역별로 매핑하여 시각적으로 모니터링할 수 있도록 하였으며, 처방패턴 중 감염병 의심 사례 및 의심 지역에 대한 집중 모니터링, 발원지역 추적, 환자거주지 정보와 연계한 감염병 확산 경로 예측 등의 기능을 구현하였다.

예산과 시간적 제약으로 인해 우선 인플루엔자, 수족구, 쯔쯔가무시병을 대상으로 추진되었지만, 향후 모든 법정 감염병을 대상으로 의약품 처방 패턴을 찾아 적용할 수 있을 것으로 기대된다. 이 분석모델은 최근의 C형간염 사건과 같이 특정 지역에서 집단 질환이 발생하는 이상 패턴을 조기에 발견하여 신속 대응하도록 하는데 활용이 가능하다는 특장점도 갖고 있다.

How? - 데이터 분석 방법

◉ 과거 데이터를 기반으로 현재 데이터의 의미를 확률적으로 추정

우리는 ‘이미 알고있는 정보’에 기반하여 ‘아직 알 수 없는 대상’에 관한 예측을 할 수 있다. 과거의 행동은 미래의 행동을 예측함에 있어 강력한 변수가 된다. 특정 현상에 대해 과거 데이터가 보여주는 특성, 즉 패턴을 찾아내고, 이를 현재 데이터에 적용함으로써 우리가 아직 알지 못하는 사실을 추정해볼 수 있다.

본 과제에서 사용한 방법도 이와 같다. 과거 진단정보를 토대로 특정 약제들의 조합이 어떤 질환을 의미하는지 조사하고, 이를 현재의 데이터 즉 병명이 포함되지 않은 처방 데이터에 적용해 각각의 처방이 의미하는 질환을 판단하였다.

데이터 분석 모델 구축을 위한 첫번째 대상으로 우선 가장 발생빈도가 높고 전파력이 큰 감염병인 인플루엔자를 선택하였다. 인플루엔자의 처방 패턴을 확인하기 위해 진료기록 데이터 중 인플루엔자로 진단된 데이터만 추출하여 어떠한 약제의 조합으로 많이 처방되었는지를 조사하였는데 인플루엔자의 경우에만 수십만가지의 조합이 도출되었다. 그런데 동일한 처방이 유사 질병에도 쓰이는 경우가 종종 있어, 도출된 처방 패턴들이 반드시 인플루엔자의 처방이라고 판단해도 되는지 일일이 검증하는 작업을 진행해야 했다.

이와 같은 과정을 거쳐 최종적으로 도출된 약제 조합들, 즉 인플루엔자에 대한 처방 패턴을 DUR 데이터에 적용하여 일치하는 패턴들을 찾아냄으로써 현재의 인플루엔자 발생 현황을 즉각 모니터링할 수 있도록 하였다. 수족구, 쯔쯔가무시병에 대해서도 같은 방법을 적용하여 모니터링 체계를 구축하였다.

◉ 단순하지만 단순하지 않았던 분석 과정

당초 본 과제는 주요 법정 전염병 중 10개 정도는 구현할 수 있을 것으로 기대하고 시작했지만 3개 질병을 구축한 상태에서 과제는 일단락되었다. 일단 예상보다 데이터 사이즈가 너무 커서 분석과정에 물리적으로 많은 시간이 소요되어, 한 개의 전염병에 대해 처방패턴을 찾아내는 것에만 과제 기간의 절반 이상이 소진되었다. 또한 전문 의료 데이터를 분석해야 하는데 의료 지식이 없는 통계분석가가 분석을 진행해야 하다보니 데이터의 내용 이해를 위해 지속적으로 별도 전문가의 도움을 받아야 하는 어려움이 있었다.

이외에도 애초 본 프로젝트는 질환별 처방 패턴을 일일이 사람이 분석하여 찾아내지 않고, 머신러닝을 통해 자동 도출하는 기법을 적용해보자는 계획이 있었다. 그런데 기계가 스스로 패턴을 찾아내기 위해서는 대상 데이터가 일정 범위 내에서 수렴하는 특성을 가지고 있어야 하는데, 실제 데이터 확인 및 적용 결과 의사들의 처방 형태가 워낙 다양하고 일관성을 찾기 어려워 최종적으로는 구현을 포기할 수 밖에 없었다. 이번 프로젝트에서는 개발해내지 못했으나, 새로운 의약품 등장, 진료 트렌드 변화 등에 따라 새로운 처방 패턴이 계속적으로 나타나는 현실을 감안할 때 패턴 도출의 자동화는 꼭 필요할 것으로 판단되며, 이를 위해 향후 별도의 연구를 통해 자동화 방안을 마련할 필요가 있다.

Expected Outcomes - 기대효과

◉ 현재의 전염병 감시 체계보다 일주일 빠른 신속한 대응 가능

본 과제의 데이터 분석 및 패턴 매칭을 통해 산출한 인플루엔자 의심환자 현황과, 같은 시점 질병관리본부의 감염병 발생현황 자료의 비교 결과는 아래와 같다.

약간의 시차를 보이기는 하나 유사한 그래프를 보여주고 있는 것을 확인할 수 있다. 여기에서 눈여겨 볼 것은 의심환자 모니터링 정보가 감염병 경보나 유행 기준 판단 시점에 있어 실제 발생정보보다 1~2주 가량 앞서 있다는 것이다. 이것은 질병관리본부의 정보가 의사의 ‘진단 후 신고 정보’에 의존하는 반면, 이 시스템은 실시간 처방 데이터를 분석해 즉각 유추해내기 때문이다. 더구나 많은 의사가 초진 시에는 진단을 유보하고 두번째 혹은 세번째 진료 시 감염병을 확진하기 때문에 질병관리본부가 확인하는 데이터는 1~2주 이상의 지연이 생길 수 밖에 없는 상황이다. 결론적으로 이 시스템은 감염병의 본격 확산에 기존 체계보다 적어도 일주일 이상 빠르게 대응할 수 있다는 것을 알 수 있다.

◉ 감염병 확산 조기 차단을 통해 국민 건강증진에 기여

질병관리본부는 ‘감염병 통합 관리 체계’의 일부로 이 시스템을 활용할 예정이다. 확산세를 예측할 수 없는 대부분의 감염병은 정부가 적기에 적정량의 백신을 확보하여 공급하는 것이 매우 중요한데, 질병관리본부의 기존 체계보다 일주일 빨리 확산 현황을 파악할 수 있는 본 시스템은 약물수급에도 매우 유용하게 활용될 전망이다.

또한 본 시범 프로젝트는 그 활용가치가 인정되어 2017년 법정 감염병 외 국민관심질환 등으로 실시간 감지 대상 질병을 확대하는 등 확대 추진될 예정이다.

Implications - 한계와 발전방향

◉ 개인정보보호법으로 인해 확률적 모니터링만 가능

우리나라는 개인정보보호법으로 인해 데이터 공유ㆍ활용이 매우 까다로운 나라이다. 특히 건강보험 데이터, 즉 진료 데이터, 처방 데이터 등은 민감정보이기 때문에 활용이 더욱 어렵다. 최근 법 개정으로 법정 감염병 확진자에 대해서는 추적이 가능하긴 하지만, 의심환자에 대해서는 별도의 모니터링 행위가 불가능하기 때문에 현재의 제도 하에서는 정밀한 선제 예방 조치에 한계가 있다.

때문에 본 프로젝트에서도 단순히 감염병으로 의심되는 처방 건의 발생빈도를 모니터링하고, 인근 지역 전파 가능성을 확률적으로 추정하는 것까지를 과제 범위로 설정할 수 밖에 없었으며, 해당 처방을 받은 환자를 실제 모니터링하거나 이동경로를 확인하는 등의 기능은 구현이 불가능했다.

사실 공익성이 크고 서비스의 부가가치, 국민에게 주는 편익이 매우 큰데도 불구하고, ‘금지’ 우선으로 적용되는 개인정보보호법으로 인해 좋은 정책 및 서비스가 좌초되는 경우가 적지 않다. 본인 스스로 자기 자신의 진료이력을 스마트폰을 통해 언제 어디서나 편리하게 확인할 수 있도록 하기 위해 건강보험심사평가원이 개발한 앱 서비스도 이와 같은 이유로 서비스 오픈 단계에서 좌절된 바 있다. 또한 개인정보보호법은 메르스 발생 초기에 원활한 정보 공유를 가로막는 원인 중 하나가 되기도 하였다. 정보보호를 통한 보안사고 예방과 정보공유를 통한 가치실현 중 어떤 것이 국민에게 더 유익한지는 각 사안에 따라 달라질 수 밖에 없다. 무조건적인 금지 정책보다는 합리적인 판단을 통해 유연하게 대응할 수 있는 정교하고 고도화된 정책과 법제도가 필요한 시점이다.

◉ 성공적인 파일럿 프로젝트를 통해 본격 확대 구축의 기반 제공

빅데이터 프로젝트는 처음부터 대규모로 기획ㆍ추진되는 것보다는 성공 가능성을 검증할 수 있는 단타성의 작은 과제들로부터 출발하는 것이 좋다. 이런 작은 과제들의 ‘성공의 경험’을 토대로 장기, 대규모 과제가 기획되어야 빅데이터 활용 성과가 잘 나올 수 있다.

본 과제는 소규모 단기 프로젝트로서 몇 개의 질병에 대해서만 시범 추진되었고, 이를 통해 서비스 모델의 성공 가능성을 분명하게 확인함으로써, 향후 데이터 기반 감염병 모니터링 체계의 성공 모델을 구체적으로 제시하였다. 더불어 단계별로 차근차근 추진해 나아가는 합리적인 빅데이터 프로젝트 추진사례를 만들었다는 데에도 의의가 있다.

◉ 데이터 기반의 방역체계 구축을 위한 초석 마련

치사율이 20.4%에 달했던 메르스의 확산 원인에는 여러가지가 있었지만, 정보부족으로 인한 초기대응 미흡이 중요한 원인 중 하나로 꼽힌다. 신속하고 효과적인 초기 대응체계 및 방역체계의 작동을 위해서는 유기적이고 원활한 기관 간 협조체계 구축과 더불어 데이터 기반의 국가방역체계 구축이 필수적이다. 메르스 발생 시에도 확진자의 이동경로 추적에 곤란을 겪어, 결국 보건당국이 이동통신사의 데이터 협조를 받은 바 있다.

겪어보지 못한 신종 전염병이나, 빠른 전파속도 또는 고병원성의 감염병일수록 신속한 대응은 피해를 최소화하는 가장 효과적인 수단이고, 데이터에 기반한 국가방역체계는 지능정보화 시대에 가장 빠르고 위력적인 해결책이 될 것이다. 본 프로젝트는 공공 보건의료 데이터를 기반으로 실시간 감염병 대응 체계를 구축하는 첫걸음으로 평가될 수 있을 것이다. 향후 다른 공공ㆍ민간 기관 등과 협력하여 각종 데이터를 융합하고, 보다 정교하고 고차원적인 분석기법을 적용하면 훨씬 더 강력한 국가방역체계가 구축될 것이다. 전염병으로부터 안전한 대한민국을 만들 수 있도록 관계기관의 적극적인 협력이 필요하다.

데이터 활용 사례 2

교통사고를 '예보'하는 방송

프로젝트 개요

o 과제명 : 교통사고 감소를 위한 데이터 분석 기반 사고예보 서비스

o 수행기간 : 2016년 6월 ~ 11월

o 주요 내용

- 교통사고 제보, 사고 기록, 기상 데이터 분석 기반으로 주요 위치ㆍ시간대별 교통사고 위험도 평가

- 분석 결과를 교통방송에서 활용할 수 있도록 방송용 정보 서비스를 개발하여 위치 단위 사고예보 서비스

제공(대구ㆍ부산)

o 활용 데이터

- 도로교통공단 한국교통방송 : 사고제보 데이터(2010~2016, 약 32만건)

- 도로교통공단 : 교통사고 데이터(2010~2015년, 약 8만건), 돌발교통정보(2010~2015년, 약26만건)

- 기상청 : 기상데이터(2010~2015년, 약286만건)

o 수행기관 : ㈜더아이엠씨, 도로교통공단 대구교통방송

※ 한국정보화진흥원 정책본부 미래전략센터의 ‘데이터 기반 미래전략 정책지원’ 사업으로 추진됨

Why? - 왜 추진했나

◉ 교통사고, 막대한 비용을 유발시키는 사회 현안

경찰청 집계에 따르면 우리나라의 교통사고는 연간 23만여건(2015년 기준)에 달하고 있고, 한국교통연구원에 따르면 교통사고로 인한 사회비용이 연간 약 42조원에 달한다고 한다.

교통사고는 인명·재산 피해를 야기할 뿐만 아니라 막대한 사회비용을 유발시키는, 국가경제 차원에서도 중요한 사회 현안이다. 이를 해결하기 위해 다수의 기관들이 교통 인프라를 증설하고, 안전시설을 확충하는 등 지속적인 노력을 기울여오고 있다. 그럼에도 불구하고 우리나라의 교통사고는 감소하기는커녕 해마다 3~4%씩 증가하고 있어, 보다 효과적이고 혁신적인 대책이 필요한 상황이다.

◉ 교통사고, 왜 사후 방송만 해야 하는가?

전국의 교통방송은 주요 도로별 소통상황 정보와 함께 각종 사고발생 현황, 공사 정보 등 안전한 차량운행에 필요한 유익한 정보들을 제공하고 있다. 그러나 이미 발생 중인 사실과 상황을 운전자에게 알려주고 위험정도를 인지시켜 주는 것 이상의 기능을 기대하기는 힘들다. 물론 현재의 정보 서비스도 운전자가 정체를 예상하여 우회 여부를 판단하거나, 추가 사고가 발생하지 않도록 주의하는데 도움이 되기 때문에 유익하다. 그럼에도 불구하고 교통상황 개선과 사고 감소에 적극적으로 개입할 수 없는, 수동적ㆍ소극적인 정보 서비스라는 점에 대해서는 여전히 아쉬움이 남는다.

도로교통공단 대구교통방송은 이런 가운데 획기적인 생각을 했다. 교통사고를 예보할 수는 없을까? 우리가 갖고 있는 데이터가 많은데 이를 분석하면 사고발생을 미리 예측할 수 있지 않을까? 이 정보를 활용하여 운전자에게 예보, 경보해줄 수 있다면 사고를 미리 예방할 수 있지 않을까?

What? - 무얼 만들었나

◉ 사고 예상 지점을 라디오 방송으로 예보하는 시스템

말도 안되는 상상이고, 마치 영화 ‘마이너리티 리포트’에서나 나올 법한 이야기 같지만, 실제로 이것을 구현하는 것이 그리 복잡한 얘기는 아니었다. 과거 데이터를 활용하여 통계적 확률로 시간대별, 지점별 사고 발생 가능성을 계산하고 이를 알려주는 것이 전부인 서비스 개념이었다. 단순한 개념이고 단순한 정보이지만, 그러나 듣는 사람들에게는 결코 ‘별 게 아닌 것’이 아닌 정보이다. 교통사고라는 ‘재난’을 경고하는 메시지이기 때문이다.

◉ 과거 데이터로부터 현재의 위험도 추정

교통방송은 공식적인 교통사고 기록 데이터보다도 사고 건수가 더 많은 교통사고 ‘제보 데이터’를 보유하고 있는 기관이다. 전국의 교통방송은 방송국마다 수백명의 통신원을 보유하고 있고, 이들이 지속적으로 제보하는 돌발 교통정보는 공식 기록되는 사고 건수를 훨씬 상회한다. 통신원 이외에 일반 청취자가 제보하는 건수도 상당하며, 이런 제보 데이터는 매년 수십만건에 달하고 있다.

이러한 교통상황 돌발정보 제보 데이터를 기초 데이터로 활용하고, 여기에 도로교통공단의 사고 데이터, 기상청의 기상정보 등을 보조 데이터로 하여 위치, 시간, 기상 요건 등에 따른 사고발생 가능성을 산출하고 지수화를 진행하였다. 산출된 교통사고 발생 위험정보는 오전/오후로 구분하여 일일 위험지수, 교통사고 위험지역 Top 10, 교통사고 위험시간대, 오늘의 사고 주의 지역 정보 등의 형태로 가공되었다.

◉ 인포그래픽 기반의 직관적인 정보 서비스 개발

이렇게 만들어진 정보의 대부분은 방송 제작자가 직관적으로 쉽게 이해할 수 있도록 그래프, 아이콘, 지도 등을 활용하여 시각화되었다. 또한 방송 콘텐츠로서 쉽고 편리하게 활용될 수 있도록 전용 ‘교통사고 예보 웹사이트’를 구축하여, 이 모든 정보를 한눈에 볼 수 있도록 구성하였다.

이 프로젝트의 가장 큰 특징은 데이터 분석 기반의 객관적이고 설득력 있는 정보를 방송 매체를 통해 직접 청취자에게 들려줌으로써 빅데이터 분석 결과가 ‘즉시’ 활용되는 체계를 구축하였다는 것이다. 우선 대구ㆍ부산을 시범 지역으로 선정하여 추진하였으며, 서비스 모델의 성공 가능성이 검증ㆍ확인됨에 따라 향후 수도권을 비롯한 전국으로 확대될 예정이다.

How? - 데이터 분석 방법

◉ 교통사고에 영향을 미치는 변수와 각 변수 간 상관관계를 정의

개념적으로 데이터 분석 모델링이란 해결하고자 하는 문제에 영향을 미치는 변수들을 도출하고, 각 변수에 적정 가중치를 부여한 후, 각각의 항들의 합계를 구하는 수식을 만드는 것을 말한다. 단순한 것 같지만 영향 인자를 정의하고, 이들 각각의 중요도까지 정확하게 판별해내는 것이 쉬운 일은 아니다.

데이터 분석 모델링에 있어 머신러닝(기계학습)이란 모델링 과정 중 가중치 부여 과정을 자동화하는 것으로 설명될 수 있다. 다시 말해 각 변수의 가중치를 컴퓨터가 산출하도록 하는 것인데, 기계가 스스로 각 변수의 가중치에 변화를 주면서 최고의 정확도를 보여주는 가중치를 찾도록 하는 것이다.

이 프로젝트에서 사용한 데이터 분석 방법은 전통적 기계학습 기법 중 하나인 ‘베이지안 네트워크’이다. 베이지안 네트워크는 문제에 영향을 미치는 핵심 변수를 정의하고, 각각의 변수가 서로에게 영향을 미치는 상관관계를 정의함으로써 변수별 가중치를 결정하는 다소 복잡한 기법이다. 불완전한 데이터에서 상대적으로 잘 작동하고, 변수들 사이의 인과성 정보를 반영할 수 있다는 장점 때문에 이 기법이 채택되었다. 교통사고 발생에 영향을 미치는 변수로는 월/일/요일별 사고 건수, 기온, 강우량, 습도, 불쾌지수 등이 활용되었다.

우선 교통방송, 경찰청 등이 갖고 있는 기존 교통사고 데이터를 활용해 위치/시간/요일별 사고발생 빈도를 분석하였고, 사고 데이터에 해당 시점의 기온, 습도 등 기상 데이터를 매핑하여 교통사고와 기상 조건의 상관관계를 분석하였으며, 이를 통해 각각의 요소가 미치는 가중치를 산출하였다. 또한 사고가 늘 빈번하여 상식적으로도 예측할 수 있는 지점 외의 특이지점을 발견해낼 수 있도록, 각 지점에 대해 산출된 위험지수값의 ‘변동성’을 추가 변수로 활용하였다. 이렇게 생성된 모델에 현재의 시간적 요인, 위치, 기상 조건 데이터를 대입함으로써 지점별 사고 발생 위험도, 즉 교통사고 발생 확률을 추정하였다.

◉ 손 탈 일이 많았던 데이터

본 프로젝트 역시 다수의 다른 빅데이터 프로젝트들처럼 데이터 정제ㆍ가공에 많은 시간과 노력이 소모되었다. 사고 제보 데이터에 ‘국채보상로 동신교에서 종각네거리방향 중구청 앞’과 같이 구술형식으로 기재된 사고 위치 정보를 모두 좌표 형태로 변환해야 했고, 제보 데이터가 텍스트 기반의 비정형 데이터이기 때문에 형태소 분석, 개체명 인식 등의 자연어 처리도 필요했다. 또한 대구와 부산, 두 교통방송 간의 데이터 포맷이 일치하지 않아 이를 통일시키기 위한 데이터 정제 작업도 필요했다.

Expected Outcomes - 기대효과

◉ 위험에 대한 사전 예보를 통해 사고 예방

이 서비스는 현재 대구와 부산 지역에서 정식 서비스되고 있다. 매일 8회, 교통방송을 통해 “오늘의 빅데이터 교통안전 정보”라는 이름으로 방송 중이다. (대구교통방송: FM 103.9MHz, http://daegu.tbnbp.or.kr, 부산교통방송: FM 94.9MHz, http://busan.tbnbp.or.kr)

어떤 관점에서 보면 과거 데이터를 토대로 사고 확률이 높은 지점을 운전자에게 알려주는 것이 전부인 단순한 정보 서비스처럼 보이지만, 청취자 관점에서는 ‘사고 예상 지점을 예보하는 방송’으로 들리게 된다. 더구나 데이터라는 객관성으로 무장하고 있는 정보인데 이를 무시할 수 있는 강심장은 별로 없을 것이다. 방송에서 위험하다고 알려주는 지점을 통과하는 청취자는 자기도 모르게 긴장하고 조심하게 될 것이고, 이것은 자연스럽게 사고발생을 줄이는 효과를 낳을 것으로 기대된다.

◉ 교통사고 줄이기로 안전한 대한민국 실현

좀더 장시간에 걸친 조사ㆍ확인이 필요하겠지만, 서비스가 본격 운영된 2016년 이후 대구 시내의 교통사고 사망자는 6%, 부상자는 10% 감소하고, 총 사고 건수는 약 9% 정도 감소한 것으로 조사되었다. 전국의 교통사고 발생율이 3~4% 지속적인 증가세인 것을 감안하면 의미있게 볼 수 있다.

도로교통공단은 향후 본 서비스가 전국화되고, 다양한 채널을 통해 보다 많은 국민에게 제공되면 대한민국의 교통사고 줄이기에 크게 기여할 것으로 기대하고 있다.

Implications - 한계와 발전방향

◉ 프로젝트를 성공으로 이끈 두 가지 요소

이 과제의 성공 요소는 크게 두 가지로 볼 수 있다. 첫번째는 주제의 명확성이다. 이 데이터 분석 프로젝트의 성공 포인트는 양질의 데이터도, 고성능의 분석모델도 아닌 ‘명확한 주제’이다. 이 프로젝트는 ‘1분 내외의 라디오 방송시간을 활용한 교통사고 발생 예측 정보 제공’이라는 구체적인 목적을 갖고, 이를 위해 ‘특정 도시에 대해 시간대별ㆍ지점별 교통사고 위험 순위를 산출한다’라는 명확한 데이터 분석 주제를 갖고 있었다.

이것은 데이터 엔지니어가 어디에 초점을 두고 데이터를 수집ㆍ가공ㆍ변환해야 하는지를 분명하게 판단할 수 있게 해주었고, 데이터 분석가가 모델 개발 시 고려해야 할 변수의 범위를 합리적으로 좁힐 수 있게 해주었으며, 서비스 개발자가 자신이 다루게 될 정보의 성격을 미리 알고, 어떤 방향과 내용으로 구현할지 구상하는데 집중할 수 있게 해주었다. 이 서비스를 실제 활용할 방송 PD가 직접 기획과 제작에 참여했다는 것도 주목할 만한 점이다.

두번째는 결과의 활용성이다. 교통정보 서비스에 있어 정보의 ‘전달성’과 ‘접근성’은 매우 중요한 요소이다. 데이터를 가공ㆍ분석하는 일도 중요하지만, 이렇게 만들어진 정보를 현재 운전 중인 사람에게 적시에 편리한 방법으로 전달하는 것도 매우 중요한 일이며, 적절한 매체가 없을 경우 이것은 해결하기 무척 어려운 과제가 된다. 이 과제는 애초 라디오 교통방송이라는 매체로부터 기획됨에 따라 이 고민에서 자유로울 수 있었다. 데이터 분석만 제대로 이루어진다면 활용에 대해서는 걱정할 필요가 없었다. 잘 만드는 것도 중요하지만 잘 쓰는 것도 중요하다는 것은 빅데이터 프로젝트에서도 예외가 없다.

◉ 잘 맞추어도 잘 틀려도 문제가 되는 딜레마

이 과제의 경우에는 예측이 좀 틀린다 하더라도 지탄을 받지는 않는다. 아무리 조심해도 지나침이 없는 교통사고에 관한 문제이기 때문이다. 약간의 위험성만 있어도 주의를 줌으로써 사고를 미연에 방지한다는 것에 의미가 있지, 맞고 틀리고는 크게 중요하지 않은 것이다. 당연히 이 과제의 가장 적절한 성과평가지표는 본 서비스를 통한 사고 감소 효과이다. 그러나 단기 예측을 목적으로 하는 빅데이터 과제 측면에서 예측 성능에 관심을 갖는 것 또한 당연하다.

그런데 이 서비스와 같이 부정적 사건사고를 예측하려는 과제가 부딪히게 되는 딜레마가 있다. 너무 틀리면 모델 성능을 지적받고, 잘 맞으면 예측 정보가 제대로 활용되고 있는지에 대한 지적을 받게 되는 것이다. 이 과제 성과의 이상적 모습은 방송을 통해 보다 많은 사람들에게 정보가 전달되고, 이를 청취한 운전자들이 조심함으로써 사고발생이 현저히 줄어드는 것이다. 이것은 달리 말하면 예측 결과가 잘 활용되면 될수록 예측 정확도는 더더욱 낮아진다는 것을 의미한다. 예측 정보가 잘 활용되고 있다면, 아무리 분석 모델이 정확해도 예측 내용이 현실화될 수 없는 것이다.

때문에 이와 같은 부정적 사건 예측 모델에 대한 성능 평가는 과거 시점을 기준으로 시뮬레이션 해보거나, 일정기간 동안 예측 정보를 외부에 제공하지 않으면서 적중률을 테스트해보는 방법으로 진행되어야 할 것이다. 본 과제의 경우 과거 시점 기준의 시뮬레이션을 통해 성능을 측정하였다. 만일 실제 예측률을 정확히 산출하고자 한다면 방송 청취율이 낮을 때와 높을 때를 구분하여 적중률을 달리 평가하는 등 복잡한 방법을 강구해야 한다.

◉ 데이터 자체가 갖고 있던 한계

원시 데이터가 갖는 근본적인 한계는 대부분의 경우 데이터 분석 프로젝트 자체의 한계로 이어진다. 오류 데이터를 삭제하고 누락 데이터를 추정치로 대체하는 등 정제ㆍ가공을 하거나 다른 데이터와의 연계를 통해 보완한다 해도 원본 데이터가 갖는 태생적 한계를 극복하는 것은 쉽지 않다.

본 과제의 경우 지점별 사고빈도가 일정 규모 이상일 때에만 예측이 가능하다는 점이 한계로 노출되었다. 적당량의 데이터가 있어야 분석도 가능하다는 상식적인 이야기인데, 사고가 많은 곳이든 적은 곳이든 시내 전 구간의 사고위험을 고르게 예측해내고 싶었던 입장에서는 아쉬운 부분이었다. 이 데이터 분석 모델의 예측 정확도를 시뮬레이션하여 평가한 결과는 다음과 같다.

본 과제는 신뢰성 확보를 위해 예측 정확도 85% 이상을 목표치로 설정하여 추진하였는데, 위 그래프에서 볼 수 있는 것처럼 대구 지역은 상위 30개 지점까지, 부산 지역은 상위 80개 지점까지만 85% 이상의 예측 정확도를 달성할 수 있었다. 대부분의 교통사고가 발생하는 지점에서 반복적으로 발생하는 경향이 있기 때문에 과거 사고이력, 즉 분석할 데이터가 많은 상위 지점들에 대해서는 정확도가 높게 나오지만, 뒤쪽으로 갈수록 분석할 데이터량이 부족해서 예측이 잘 안되는 것이다. 지점별 사고 건수가 상대적으로 많은 부산은 상위 100위까지도 신뢰할 수 있는 수준이지만, 대구는 지점별 데이터량이 많질 않아서 50위권 밖으로만 나가도 예측이 자주 틀릴 수 있는 상황임을 알 수 있다. 물론 상식적으로 사고빈도가 낮은 지점들이 위험예보 상위에 랭크될 가능성은 희박하기 때문에 이 데이터 분석 서비스 상에서는 큰 의미가 없는 얘기이지만, 향후 보다 정교한 모델로 개선시키고 다양하게 활용하기 위해서는 이러한 데이터 결핍 지점에 대해서도 적절한 분석 방안을 연구해둘 필요가 있다.

◉ 데이터 품질 개선을 위한 정책적 노력 필요

데이터 품질 문제는 빅데이터 프로젝트에 있어 중요한 문제이다. 앞의 사례는 데이터 품질 문제라기보다는 해당 데이터가 본래 갖고 있는 속성이라고 봐야 하겠지만, 빅데이터 프로젝트를 준비하다 보면 데이터 품질 문제로 프로젝트가 초반에 좌절되는 경우가 종종 있다.

지금은 빅데이터가 정보화의 핵심 패러다임으로 부상하였지만, 불과 얼마 전까지만 해도 데이터는 어플리케이션 서비스 구동을 위한 부가 요소로만 인식되었기 때문에, 향후 이것이 자원으로 인식되고 분석에 활용될 것에 대비해 짜임새 있게, 체계적인 인프라를 구성해놓은 경우가 드물었다. 그래서 현재 생산되고 있는 데이터들 중에는 품질면에서 너무 열악하여 분석에 활용할 수 없는 경우가 있다. 그리고 이들 대부분은 데이터 생산ㆍ관리에 대한 표준체계의 부재, 즉 데이터를 생산하는 ‘룰’의 부재로 인한 문제인데, 과거 시스템 설계자 또는 운영자가 자의적인 규칙 또는 편의에 따라 임의로 정한 방식으로 데이터를 생산하고 있기 때문에 발생하는 경우가 많다. 심지어 하나의 시스템 안에서도 이종 기기들이 생산하는 데이터의 형식이 일치하지 않는 경우가 있다. 또한 수집된 데이터를 체계적으로 관리하지 않아 분류가 안되거나 유실 데이터가 많아 정상적인 복구가 불가능한 경우도 많다. 이와 같은 데이터의 일관성 부재, 품질 불량 문제는 데이터의 활용 가능성을 현저히 떨어뜨린다. 이는 공공ㆍ민간 구분 없이 공통적인 현상이다.

이런 경우 기관 차원에서 이제부터라도 분석가능한 형태로 데이터가 생산ㆍ관리될 수 있도록 체계를 정비해야 한다. 해당 도메인에 대한 데이터 생산ㆍ관리 표준체계를 수립하고, 도메인 내 여러 업무 영역에서 분산 생산되고 있는 데이터가 유기적으로 상호 유통하고 수집될 수 있는 소프트 체계(논리적 시스템 또는 데이터 활용 네트워크)가 구축되는 것이 좋다. 더불어 정부 차원에서 이를 지원하기 위한 데이터 생산체계 정비 사업, 빅데이터 생산체계 구축 사업이 대규모로 추진될 필요가 있다.

◉ 교통ㆍ안전 분야에 빅데이터 확산의 계기 마련

향후 이 과제의 데이터 분석 모델은 각 지역별 교통사고 발생 특성에 대한 정교한 연구를 통해 지역별 특성도 반영할 수 있는 모델로 발전되어질 예정이다. 미래창조과학부는 이 서비스의 가능성, 활용가치를 인지하고, 전국화 지원을 고려하고 있다. 현재 방송 중인 대구, 부산 외에 대전, 광주, 인천 등을 추가하고, 수도권에서는 내비게이션을 통해 서비스할 수 있도록 협의 중이다. 도로교통공단은 전국화를 2019년까지 완료하고, 현재 시내 구간에만 적용되고 있는 본 서비스를 주요 고속도로에까지 확대하는 방안도 고민하고 있다.

빅데이터의 중요성을 인지하고 각 분야에서 다양한 시도가 이루어지고 있지만, 주목할만한 성과를 내는 경우는 흔치 않다. 본 프로젝트는 국민이 체감할 수 있는 공공 빅데이터 프로젝트의 좋은 사례가 될 것이다. 라디오 방송을 통해 일반 국민에게도 빅데이터의 활용 가치를 인식시키고, 교통ㆍ안전 분야는 물론 사회 주요 분야에 빅데이터 활용을 확산시키는 촉매제가 되기를 기대한다.

데이터 활용 사례 3

데이터! 장그래를 부탁해

프로젝트 개요

o 과제명 : 데이터 기반 수출 올인원(All-In-One) 서비스

o 수행기간 : 2016년 6월 ~ 11월

o 주요 내용 : 중소ㆍ중견 수출기업을 위한 데이터 기반 품목별 적정 수출 대상 국가 추천 등 맞춤형 컨설팅

서비스 개발

o 활용 데이터 : 기업별 글로벌 역량 평가정보(KOTRA, 2013년~2016년, 약 2만건), 기업별 수출 컨설팅 정보

(KOTRA, 2013년~2016년, 약 9만건), 국내기업 수출규모 정보(관세청, 2013년~2016년,

약 3.4만건), 국가별 무역시장 동향 정보(국제무역센터, 2013년~2016년, 약 60만건)

o 수행기관 : 대한무역투자진흥공사, 엔코아, 포스윈, 투비소프트

※ 한국정보화진흥원 정책본부 미래전략센터의 ‘데이터 기반 미래전략 정책지원’ 사업으로 추진됨

Why? - 왜 추진했나

◉ 중소 수출기업을 구하라

중소기업들은 하부 조직으로 ‘경영연구소’, ‘경제연구소’와 같은 것들을 갖고 있지 못하다. 해외 수출 계획이 있는 대기업들은 수출 전략 수립 시 이들 연구소로부터 해외 주요국에 대한 분석 리포트를 받아 활용하고, 치밀한 정보망과 고급정보원들을 통해 ‘지지않는 수출전략’을 수립한다. 반면 중소기업들은 이런 일들을 상상할 수 없다. 경험과 전해듣는 정보에 의존해 사업을 영위하는 이들에게는 ‘현상유지’가 지상과제이다. 인기 웹툰 ‘미생’을 본 사람들은 알겠지만, 한 사람 한 사람의 인건비가 절절한 이들에게는 이런 일에 충분한 힘을 쏟을 여력이 없다.

단지 몇 번의 실패만으로도 기업의 존립이 흔들릴 수 있는 중소기업이야말로 성장을 위해서는 정보력을 갖는 것이 매우 중요하지만, 현실은 절대 호락호락 하지 않다. 대기업에서 중소기업으로 이직한 ‘미생’의 주인공 ‘장그래’는 발로 뛰어야 하는, 맨땅에 헤딩해야 하는 현실을 절감 한다. 정보화 시대인데 정보를 얻는 일이 왜 이리 막막한가?

◉ 정부는 10만 수출 중소기업 양성 중

무역 의존도가 높은 우리나라는 현재의 수출부진 타개와 무역 1조 달러 달성을 위해 중소기업의 해외시장 개척을 지원하는 10만 수출 중소기업양성 사업을 추진하고 있다. 그러나 중소기업의 열악한 해외시장 정보 접근성은 수출 비즈니스 확대에 커다란 장애가 되고 있다. 2015년 기업 대상 조사 결과에 따르면 이들이 가장 필요로 하는 정보는 맞춤형 시장 정보(49.8%)와 비즈니스 정보(21.6%)인 것으로 나타났다. 달리 말해 수출계획 수립에 있어 첫걸음이 되는 ‘기업에 적합한 수출 대상국 및 품목 선정’ 단계에서부터 대부분의 중소기업이 곤란을 겪고 있다는 뜻이다.

What? - 무얼 만들었나

◉ 기업을 위한 ‘맞춤형’ 수출 정보 서비스

정보격차가 곧 경쟁력 격차라는 것은 수출 비즈니스에서도 예외가 아니다. 이러한 가운데 대기업과 중소기업 간의 간격을 좁히고자 정부가 직접 수출 정보 인프라 개발에 나섰다. ‘데이터 기반 수출 올인원 서비스’는 대한무역투자진흥공사(KOTRA)가 자체 데이터와 국제무역기구, 관세청 등으로부터 수집한 다양한 데이터를 분석하여 기업 맞춤형 수출 정보를 정교하게 산출하고, 이를 전문가 상담 및 온라인 채널을 통해 각 기업에게 제공하는 서비스이다.

◉ 수출전략에 필요한 필수 정보를 총망라

수출기업이 가장 궁금해하는 정보는 ‘우리 물건을 어느 나라에 팔면 좋은가’이다. 질문은 단순하지만, 이에 대한 답을 얻기 위해서는 많은 것들이 고민되어야 한다. 어느 나라에 해당 품목에 대한 수요가 있는지, 수요가 있다면 그 나라의 시장규모는 얼마나 되는지, 성장가능성은 어떠한지, 수출 시 어떤 절차를 거쳐야 하는지, 관세나 환율 사정은 어떠한지, 우리나라와 외교ㆍ정치적 이슈는 없는지, 어떠한 문화ㆍ관습적 특성이 있는지, 그 나라와 우리나라 간의 물리적 거리는 얼마나 되는지 등 수출에 영향을 줄 수 있는 항목들이 모두 고려되어야 한다. 더구나 이 고민은 국가 단위에서 한단계 더 들어가 그 나라 안에서 팔고자 하는 물건, 즉 ‘품목’ 단위로 이루어져야 한다.

KOTRA는 우리나라 모든 중소 수출기업의 기초 정보와 더불어 이들을 대상으로 2013년부터 진행해온 수출 관련 상담 데이터를 보유하고 있다. 게다가 전 세계 주요국에 주재원을 두고 지속적으로 무역 동향을 조사해오고 있다. 이들 데이터에는 각국의 무역 업무와 관련된 거의 모든 정보와 현황들이 세세하게 기록되어 있으며, 지금도 지속적으로 업데이트되고 있다. 이러한 데이터들을 KOTRA는 웹사이트 등을 통해 대부분 공개ㆍ제공하고 있다. 이와 연관된 데이터로 관세청은 각국의 시장을 객관적으로 평가, 전망할 수 있는 국내기업 수출 물동량 데이터를 제공하고 있으며, 국제무역센터는 국가별 무역 현황 데이터를 제공하고 있다.

이것들은 수출기업 입장에서는 최고의 가치를 갖는 정보들이다. 그러나 현재 이 정보들은 문서저장소처럼 각각의 데이터가 영역별로 분리되어, 서로 연결되지 않은 별개의 정보로서 제공되고 있다. 필요한 데이터가 어디에 있는지 찾는 것도 그리 쉽지 않다. 설령 기업이 이 데이터들을 모두 수집해 정리한다고 해도 이를 분석하는 것은 고급 역량과 전문성을 필요로 하는, 난이도가 높은 일이기 때문에 현실적으로 어렵다.

만일 이 데이터들이 체계적으로 연결되고 잘 연구된 데이터 분석 모델을 통해 분석된다면, 이것은 기업의 수출전략을 세우는데 더할 나위 없이 훌륭한 정보가 될 것이다. KOTRA가 본 프로젝트를 통해 개발하고자 한 것이 바로 이것이다.

KOTRA는 중소수출기업의 수출 지원을 위해 주요 정보를 망라하는 데이터 인프라를 구성하고, 다양한 요소들에 대한 종합적인 검토를 통해 국가별 시장성을 품목 단위로 평가하는 지수를 개발하였으며, 이를 통해 각 기업이 수출 희망 품목별 적정 국가를 산출할 수 있도록 하였다.

본 서비스를 이용하는 기업이 수출하고자 하는 품목을 입력하면 기업 특성에 최적화된 적정 수출 대상 국가들을 추천받을 수 있고, 왜 그 나라들이 추천되었는지에 대한 정보도 구체적으로 확인할 수 있다.

How? - 데이터 분석 방법

◉ 수많은 데이터를 함축적으로 읽어낼 수 있는 지수 개발

맞춤형 컨설팅을 위해서는 먼저 컨설팅을 받는 대상에 대한 상세 정보가 필요하다. KOTRA는 국내 수출기업 약 9만개 중 2만개에 대한 글로벌 역량진단 정보인 GCL(Global Competence Level) 데이터를 보유하고 있다. 여기에는 각 기업들의 운영상태 및 인적 역량, 매출액, 수출비중, 수출품목 등 상세한 정보가 포함되어 있다. 이 정보를 통해 우선 개별 기업의 수출 비즈니스 역량에 대한 진단ㆍ평가가 선행된다.

두번째로 우리나라와 교역 중인 국가들 전체에 대해 세부적인 상황 파악, 개별 진단이 필요하다. 많은 정보가 종합적으로 고려되어야 하기 때문에 각 교역국들을 수출 품목 단위로 세분화하여 시장성을 평가하는 체계를 개발하였다. 시장 접근성, 시장 매력도, 시장 성장성 및 시장 경쟁력의 4개 요소로 구성된 ‘수출 품목에 대한 국가별 시장성 평가 지수’를 개발하였는데, 시장 접근성 산출에는 관세율, 무역 장벽(수입 제한 정책 등), 해당 국가와의 거리 등이 변수로 사용되었고, 시장 매력도에는 시장 규모와 상품 대중성이 변수로 사용되었으며, 시장 성장성에는 수입 증가율과 수입 변화율, 대 한국 수입 증가율이, 시장 경쟁력에는 상품별 무역 수지와 최근 판매 동향(호진/부진 여부)이 변수로 사용되었다.

이와 같이 구축된 평가점수 체계에 컨설팅 대상 수출기업의 역량 진단 정보와 희망 수출 품목을 대입하면 기업 특성에 가장 적합한 국가목록이 우선순위별로 산출된다. 대부분의 기업 진단정보가 이미 시스템 내에 저장되어 있기 때문에, 실제 서비스 이용 시에는 간단히 기업 ID와 상품코드만 입력하면 된다. 중요한 것은 기업 특성에 따른 ‘맞춤형 정보’가 산출된다는 것인데, 예를 들어 똑같이 립스틱을 생산하는 기업이라 할지라도 수출 강소기업에게는 진입장벽이 높지만 매출규모가 큰 캐나다, 중국 등이 추천되고, 초보기업에게는 매출규모는 작아도 시장 개척이 수월한 말레이시아 등이 추천된다. 초보기업에게는 이와 더불어 수출역량 강화 지원사업에 대한 안내 정보도 같이 제공된다.

◉ 데이터 정제에 많은 시간과 비용 소모

복잡ㆍ다양한 요소를 동시에 고려해야 하는 특성 때문에 다양한 데이터가 수집ㆍ처리되어야 하는 것도 어려운 일이지만, 고려해야 할 많은 정보, 즉 변수들에 대해 각각 최적의 가중치를 부여하는 것은 더욱 어려운 일이었다. 특히 국가별로 각 품목에 대해 시장성을 평가하여 최종 결론을 내주는 4개의 평가지수 - 시장 접근성, 매력도, 성장성, 시장 경쟁력 산출을 위한 데이터 분석 모델 개발은 과제의 성패를 좌우하는 부분이기 때문에 많은 고민이 필요했다. 변수가 많을 뿐만 아니라 변수 간 상관관계가 크고, 관계의 정의가 높은 복잡도를 갖는 특성이 있었다. 결국 신뢰성 높은 모델 개발을 위해 학계 전문가들과 협력하여 별도의 연구를 추진했고, 오류와 왜곡을 최소화하는데 초점을 맞추고 다면검토와 모델 검증을 진행하였다.

프로젝트 초기에는 데이터 분석 모델과 분석 결과물의 신뢰성에 의문을 제기하는 등 기관 내부에도 부정적인 시각이 꽤 있었으나, 서비스를 운영 중인 지금은 긍정적인 평가가 대부분이다. 이 서비스가 상담위원별로 편차가 컸던 기존 컨설팅 서비스의 품질을 상향 평준화하고, 표준화시켰다는 평가도 나오고 있다.

대부분의 데이터 프로젝트가 그렇듯 이 과제에서도 데이터의 품질 문제는 적지 않은 시간과 비용을 소모시켰다. 현업부서에 산재되어 있는 데이터들을 통합하고자 할 때 자주 발생하는 ‘데이터의 일관성’ 문제이다. 예를 들면 부서 A가 상품별 생산기업 정보를 보유하고 있고, 부서 B는 주요 국가의 상품별 수요량 정보를 보유하고 있는데, 두 팀이 사용하는 상품 ID의 형식이 다르거나 버전이 일치하지 않는 등의 경우, 또는 부서 C가 종목별 수요량 정보를 보유하고 있는데 부서 B가 보유한 상품별 수요량의 합계와 일치되지 않는 경우 등인데, 이런 경우 데이터 분석팀은 분석이 아닌 데이터 정제 작업에 많은 시간을 빼앗길 수 밖에 없다. 이 프로젝트에서도 유사한 상황으로 인해, 데이터 정제 작업에 한달 이상이 소모되었다.

Expected Outcomes - 기대효과

◉ 중소ㆍ중견 수출기업의 정보 인프라 개선

아직 우리 사회의 대부분 영역이 데이터를 기반으로 의사결정을 신속하게 진행할 수 있는 체계를 갖추고 있지 못하다. 이러한 가운데 이 서비스는 열악한 중소ㆍ중견 수출기업들이 활용할 수 있는 수출 분야 데이터 기반 정보 인프라로서 선도적 역할을 하게 될 것으로 기대된다. 기업들이 필요로 하는 무역ㆍ수출과 관련한 양질의 정보 획득을 용이하게 하고, 데이터 분석에 필요한 비용과 시간을 줄여주는데 도움이 될 것으로 기대된다. KOTRA는 앞으로도 이러한 사업을 계속 추진하여 국내 수출기업들이 지속가능한 글로벌 기업으로 성장할 수 있도록 지원할 계획이다.

◉ 데이터 활용을 통한 업무혁신의 계기 마련

KOTRA는 국내외의 다양하고 방대한 수출 관련 데이터들을 보유하고 있고 지금도 계속 생산하고 있지만, 이 데이터들을 적시에 신속하게 효과적으로 활용할 수 있는 체계를 갖추고 있지는 못하였다. 예를 들어 기존의 기업 상담 서비스는 상담위원들이 개별적으로 각자의 PC에 수집ㆍ저장하고 있는 자료에 의존하여 진행되어 왔다. KOTRA가 보유한 다양한 데이터들은 별도의 관리체계 없이 여러 부서에 산재되어 있었으며, 이를 핵심자원으로 활용하기 위한 체계적 계획을 갖고 있지 않았다.

본 프로젝트를 통한 통합 데이터 인프라 구축과 데이터 분석 기반 컨설팅 서비스 개발은 KOTRA의 정보 인프라 수준을 한단계 업그레이드시키는 계기가 되었다. KOTRA는 본 프로젝트를 통해 빅데이터 활용에 자신감을 얻었으며, 앞으로 수출ㆍ무역 뿐만 아니라 경제 분야 다양한 기관과의 데이터 연계를 통한 협력 프로젝트도 추진할 계획이다.

Implications - 한계와 발전방향

◉ 기존 전문가와의 유기적 협력을 통해 성과 극대화

빅데이터에 대한 인식 수준이 높아지면서, 빅데이터 프로젝트를 추진한다 하여 데이터 사이즈를 논하거나, 데이터 수집ㆍ저장 플랫폼부터 고민하는 사례는 점차 줄어들고 있다. 그리고 빅데이터 프로젝트를 ICT 인력이 전담해야 하는 것으로 오해하는 경우도 줄고 있다. 빅데이터 인적 역량 강화를 고려하는 기관은 대부분 통계 전문가, 데이터 엔지니어 및 데이터 분석가의 확보를 고려하고 있다. 지속적인 빅데이터 역량 확보를 위해 이러한 전문인력을 내재화하는 것은 바람직한 일이다.

그런데 이와 더불어 반드시 비중 있게 고려하고 빅데이터 활용 과정에 있어 같이 융합을 이루어야 할 아주 중요한 대상이 있는데, 바로 전통적인 문제해결 방법을 사용하고 있는 기존의 전문가들이다. 이들은 각 분야에서 수십 년간의 전문지식과 경험에 의한 노하우를 보유하고, 고유한 방법에 의한 전통적 의사결정구조를 갖고 업무를 처리해오고 있는 베테랑들이다. 빅데이터가 새롭고 혁신적인 솔루션이며, 가끔은 단기간에 이들의 성과를 따라잡는 당황스러운 경우도 있긴 하지만, 결론적으로 이들의 도움과 적극적 참여 없이는 빅데이터 프로젝트도 훌륭한 성과를 낼 수 없다. 기존의 전문가가 주가 되고, 데이터 분석 전문가가 조력자가 되는 협력 형태를 갖추어야 최고의 성과를 낼 수 있다.

본 프로젝트에서도 기존 전문 상담위원들이 다년간 축적한 상담 정보가 중요한 분석 대상 재료로 활용되었고, 이들의 의견을 반영하여 데이터 분석 모델이 도출되었으며, 이를 통해 구축된 신개념 정보 인프라 또한 이들이 가장 먼저 활용하면서 보완 의견을 제시하였다. 과제 초기, 이들 기존 전문가로부터의 부정적인 견해들도 다소 있었으나, 지속적인 교류를 통해 의견 차이를 좁히고 서로 협조할 수 있는 체계를 만들었다. 결과적으로 신ㆍ구의 바람직한 융합과 상호 전향적인 협조체계는 과제 성과 극대화는 물론 기업 대상 수출 상담 서비스의 품질을 단기간에 높이는 효과를 가져왔다.

본 과제를 통해 구현된 정보 중 국제무역센터의 물동량 정보는 KOTRA 직원이 내부용으로만 활용할 수 있고, 기업고객은 상담위원을 통해 간접적으로만 이용할 수 있도록 구현되었다. 이것은 데이터 저작권 문제 때문인데, 이 데이터의 경우 활용범위가 ‘공개 불가하나 가공되었을 경우에는 가능하다’라고 정의되어 있었다. 문제는 ‘가공’의 범위가 명확하지 않다는 것이었다. 프로젝트팀은 이에 따라 법률 검토를 의뢰하였으나 확실한 답을 얻을 수 없었으며, 직접 해당 기관과 협의하는 것에는 시일이 오래 걸릴 것으로 예상되었고, 섣불리 공개하였을 경우 법적 시비의 소지가 있다고 판단되어 결과적으로 소극적인 방식으로만 구현하게 되었다.

비슷한 예로 ‘공익적 목적일 경우 활용 가능하다’라고 정의되어 있는 경우도 종종 있는데, 추상적 개념인 ‘공익성’에 대해 해석이 달라질 수 있어 논란이 생기고, 마찬가지로 보수적 해석에 따른 소극적 추진방법을 선택하는 것으로 결론이 나곤 한다.

◉ 수출ㆍ무역 분야 빅데이터 활용 확산에 기여

KOTRA는 분야별로 존재하는 단편적인 데이터들을 통합하여 분석함으로써 새로운 인사이트를 도출하고, 중소ㆍ중견 기업들에게 신뢰성 있고 정교한 양질의 정보 서비스를 제공하는 계기를 마련하였다. 물론 이 서비스는 이제 막 첫걸음을 떼었을 뿐이다. KOTRA는 향후 데이터를 더욱 풍부하게 보강하고, 기업들이 필요에 따라 수출 조건을 스스로 조정하며 다각도로 분석해볼 수 있는 환경을 제공하는 등 기능 보완을 진행할 예정이다.

이 서비스는 중소·중견기업의 수출 확대 및 시장 개척에 기여하고, 해외진출을 위한 정책 개발에도 도움을 주게 될 것이다. 더 이상 ‘미생의 장그래’가 맨몸으로 뛰어다니다 지쳐 쓰러지는 일이 벌어지지 않고, 고군분투하는 9만 중소수출기업들이 헛발질로 주저앉는 일이 생기지 않길 바란다.

데이터! 장그래를 부탁해!

데이터 활용 사례 4

신용거래 데이터로 빠르게 보는 소비동향

프로젝트 개요

o 과제명 : 데이터 기반 경기 모니터링 및 조기경보 체계 구축

o 수행기간 : 2015년 10월~12월(1차), 2016년 6월~11월(2차)

o 주요 내용 : 신용카드 거래 통계 데이터를 활용하여 소비 경기 동향을 확인할 수 있는 소비 지수 개발 및

모니터링 시스템 구축

o 활용 데이터 : 신한카드 신용/체크 카드 승인금액 주월간 데이터(2008년~현재), 통계청 소비자 물가지수 등

o 수행기관 : 신한카드, (사)한국환경경제학회, 통계청, ㈜가이온

※ 한국정보화진흥원 정책본부 미래전략센터의 ‘데이터 기반 미래전략 정책지원’ 사업으로 추진됨

Why? - 왜 추진했나

◉ 경기동향에 대한 속보성 지수 필요

물가동향, 소비동향 등 우리나라의 각종 경기동향은 국가 승인 통계기관인 통계청에서 지속적으로 생산하고 있다. 그러나 한달 이상의 간격이 있기 때문에 메르스ㆍ지진과 같은 긴급상황 발생 시 정책 판단용으로의 활용성이 떨어지고, 임시공휴일ㆍ김영란법 등 정책 시행에 따른 적용 효과를 신속하게 확인하는 것도 어렵다.

관계기관은 이러한 한계를 극복하고자 수집 데이터를 다양화하는 등 개선을 시도하고 있으나, 국가 전반에 걸친 경기동향을 세부적으로 즉시 읽을 수 있는 데이터를 찾기는 쉽지 않다.

현재 미국에서는 MasterCard사가 카드 거래 데이터를 기반으로 하는 ‘Spending Pulse’라는 지표를 개발하여 주요 산업별ㆍ지역별 소매 판매 동향 정보를 제공하고 있다. 이 지표는 정부 공식지표와의 높은 연관성은 물론, 정부지표보다 7일 빠른 속보성으로 활용성 측면에서 높은 평가를 받고 있다. 본 프로젝트는 우리나라에서도 이와 같은 방법으로 소비동향을 빠르게 모니터링할 수 있는 체계를 마련하기 위해 기획되었다.

What? - 무얼 만들었나

◉ 주 단위 소비동향 확인이 가능한 시스템

신용카드 거래 데이터는 소비경기 동향을 빠르고 정확하게 확인할 수 있는 최적의 자원이다. 우리나라의 신용카드 사용률은 무려 73% (2016년 기준)에 달한다. 본 과제는 국내에서 시장 점유율이 가장 높은 신한카드사가 보유한 신용 거래 데이터를 분석하여, 지역ㆍ업종ㆍ소득분위 등 다양한 기준으로 볼 수 있는 국내 월간ㆍ주간 소비 지수를 개발하고, 이를 상시 모니터링할 수 있는 시스템을 구현하는 것을 목표로 추진되었다.

◉ Economy Scanner - 소비 지수의 상시 모니터링 시스템 구축

우선 2015년 1차 과제를 통해 한국환경경제학회와 신한카드가 공동으로 카드 데이터를 기반으로 하는 지수를 개발하였다. 6종의 월간지수(종합, 지역, 업종, 소득분위, 가맹점 규모, 연령별)와 2종의 주간지수(종합, 소득분위별)를 개발하였으며, 2016년 2차 사업에서는 주간지수를 고도화하여 월간지수와 같이 6종의 지수로 확대하였다. 더불어 지수 산출을 자동화하고, 자동 시스템에서 산출된 지수를 직관적으로 확인할 수 있는 35개의 시각화 화면을 개발하였다.

How? - 데이터 분석 방법

◉ 과거 대비 현재의 소매 거래 규모를 비교ㆍ분석

본 과제의 소비지수는 경제 분야 전공 교수진으로 구성된 한국환경경제학회팀이 신한카드 데이터의 특성과 여신협회 데이터, 통계청 지수, 한국은행 지수 및 데이터 등을 복합적으로 연구하고, 다양한 모형 적용 및 방법론에 대한 테스트를 거쳐 개발하였다. 이 프로젝트에 활용된 지수는 2010년도의 소매판매액을 기준으로 현재의 거래액 규모를 비교하고, 물가상승과 계절특성을 반영한 보정계수를 적용하는 개념으로 개발되었다. 분석 대상 데이터로는 신용거래 원시 데이터로부터 연령별ㆍ소득별ㆍ가맹점규모별 등 부문별로 집계한 자료가 활용되었으며, 정확도 향상을 위해 소매 거래가 아닌 공과금 납부, 도매 거래 등의 비소매 거래는 제외하였다.

이렇게 개발된 지수는 다음과 같이 구성되었다.

지수 산출 자동화는 크게 4단계 프로세스로 진행되었다. 먼저 기본 데이터인 카드 승인액과 보조 데이터인 여신협회ㆍ통계청 데이터 등 ‘필요 데이터를 집적’하고, 다음으로 지수 모형에 데이터를 대입하여 ‘지수 값을 산출’하며, 산출된 지수에 물가와 계절효과를 반영하여 ‘지수 조정’을 한 후, 최종 산출된 값을 모니터링 ‘시스템에 전송’한다.

◉ 마케팅 성과 분석 기법을 응용하여 이상 징후 포착

이상 징후를 포착하는 기법으로는 마케팅 분야에서 성과 측정 모형으로 사용하는 MMM(Marketing Mix Modeling) 분석 기법이 활용되었다. MMM 모형은 마케팅을 시행하지 않았을 경우를 기본 매출액으로, 마케팅 비용으로 설명되는 매출액을 마케팅 효과에 의한 매출액으로 간주하여 효과를 측정하는 방법론이다.

지수 개발 시 기본 매출액에서 주별 효과ㆍ휴일효과ㆍEvent 발생 등의 요소에 의해 변동되는 매출액을 분리하여 추정 가능한 특징이 있다.

◉ 가변적인 데이터 분석모델로 적합성 향상

본 프로젝트에서 활용한 신용거래 데이터의 신뢰도는 우수하지만, 국가적으로 통일된 업종분류 체계를 아직 적용하지 않고 있었고, 본사 집중 가맹점들에 대한 정보의 경우 기재된 소재지가 실제 영업 소재지와 다른 경우가 많다는 문제점이 있었다. 대부분의 신용카드 데이터가 공통적으로 갖는 문제인데, 정확도 향상을 위해서는 개선이 필요했고, 이를 위한 데이터 정제 작업이 진행되었다. 문제가 되었던 데이터에 한국은행의 업종분류 체계를 도입하고, 가맹점 지역 오류를 올바르게 정정함으로써 데이터의 품질을 확보하였다.

일반적으로 지표값은 과거 일정기간의 데이터를 기반으로 개발된 통계 모델에 새롭게 발생하는 값을 대입함으로써 산출된다. 그러나 이 프로젝트의 핵심인 주간지수는 모델 성능을 최대화하기 위해 매주 데이터를 검토하여, 특성에 따라 최적화된 통계방법을 그때그때 선택하는 방식을 취했다. 이로인해 지수산출에 사람의 판단이 늘 개입되어야 하는 어려움이 따랐지만, 적합성은 항상 높게 유지될 수 있었고 결과치에 대한 만족도도 높았다. 이는 다른 분야의 속보성 지표 개발에서도 참고할만한 유용한 사례가 될 것으로 보인다.

Expected Outcomes - 기대효과

◉ 한달 단위인 현재의 통계 정보를 주 단위로 단축

이렇게 구축된 소비동향지수를 국가승인 통계 정보와 비교하여 정확도를 확인한 결과는 아래와 같다.

최근의 월간 지수와 통계청 소매판매지수를 비교한 결과, 지수 증감 방향이 전월 대비 92%, 전년 동월 대비 83% 일치하는 것을 확인할 수 있다. 본 프로젝트를 통해 구축한 지수 정보 서비스의 특장점은 ‘속보성’이다. 기존 한달 단위였던 통계 정보로는 할 수 없었던 국가적 사건ㆍ사고에 따른 경제 여파의 즉시 확인이 가능하고, 임시공휴일ㆍ블랙프라이데이와 같은 단기 경제정책에 따른 경기 부양 효과도 빨리 확인해볼 수 있다. 이것은 각종 경제적 이벤트에 대해 신속한 정책 대응을 가능하게 한다는 점에서 의미가 크다.

◉ 민간 데이터를 공익적으로 활용한 우수 사례

이외에도 본 정보 서비스는 다른 데이터에서는 확인할 수 없는 상세성을 갖고 있다. 소득분위별 지수를 비롯한 몇몇 지수는 기존 소비동향 정보에서는 볼 수 없었던 부분이다. 이것은 통계기관 입장에서는 매우 유용한 정보이며, 이런 장점들 때문에 통계청은 이 시스템에서 산출되는 정보를 경제동향 국가승인 통계지수 산출 시 공식 데이터로 활용할 계획을 갖고 있다. 통계청은 향후 이 정보서비스를 경제동향 통계지수 산출 지원 시스템으로 확장시킬 계획이다. 또한 한국은행은 금융통화위원회의 ‘기준금리 결정회의’에서 ‘한국은행 소비자심리지수’에 대한 속보성 자료로 이 정보를 활용할 예정이다.

Implications - 한계와 발전방향

◉ 데이터 편향성에 대한 우려

신용카드 거래 데이터만으로 국가 전체의 소비동향을 모니터링하게 되면 현금 거래 선호 인구의 특성을 반영할 수 없고, 더구나 특정 신용카드사 하나의 데이터만을 활용하여 동향을 판단하면 카드사별 소비자 특성이나 성향에 의한 데이터 편향성이 발생한다는 문제 제기가 있을 수 있다. 그러나 관계 기관과 검토ㆍ분석한 결과, 일부 그러한 현상이 있을 수 있으나 통계적으로 오차가 크지 않다는 결론이 나왔다. 아래의 분석 결과와 같이, 신한카드 사용금액 데이터는 모든 카드사의 사용금액과 0.96의 상관계수를 갖고 있고, 현금사용분이 포함된 통계청 소매판매액과도 0.92의 상관계수를 갖는 것으로 확인되었기 때문에 신뢰도 면에서는 큰 문제가 없는 것으로 판단된다.

◉ 목적에 특화된 데이터로 인해 활용성에 한계

이 지수는 우리나라 ‘전체’의 소비동향을 보기 위해 개발된 지수이기 때문에 원시 데이터가 ‘전국 단위’로 가공되었다. 이 때문에 지자체 단위로 분석 정보를 보는 것이 현재는 불가능하다. 지자체 단위로 세부적인 정보를 보기 위해서는 데이터 가공의 단위를 한단계 내리고, 여기에 맞게 서비스의 기능을 추가 개발해야 한다. 앞서 언급한 통계청이나 한국은행 외에 다수의 지자체들에서도 이 서비스에 많은 관심을 갖고 사용의사를 표하고 있기 때문에, 이를 위해 서비스를 재구성 또는 추가 구축할 필요가 있다.

또 다른 한계점은 이 서비스가 지수 산출 시스템인 관계로 분석ㆍ리포팅 기능이 없다는 것이다. 지수를 시각화하여 직관적으로 보여주기는 하나, 일반인이 보기에는 여전히 어려운 전문적인 경제 정보들이다. 이용 대상을 다각화하고 활용성을 높이기 위해서는 보여지는 내용의 의미를 해석하고 설명해주는 분석 서비스의 구현이 필요하다.

◉ 속보성 지수 개발을 위한 민ㆍ관 협력 확대의 계기 마련

신한카드는 본 시스템을 활용하여 정기 경기분석 보고서를 발간할 예정이며, 한국은행과 협력하여 경기변동 추정 연구, 신규 지수 개발 및 시스템 확장 추진을 검토하고 있다. 향후 지표의 안정성과 정확도를 계속 추적하며 개선하고, 정보 서비스의 수혜대상을 지자체, 연구기관 등으로도 확대할 예정이다. 또한 소비지표 외에도 GDP, 물가, 관광지수 등 타 경제지표의 속보성 지수로도 영역을 확대해 나아갈 예정이다.

이 서비스를 계기로 앞으로 각종 국가 주요 지수 개발에 민간과 공공의 협력이 확대되기를 기대한다.

맺는 말

데이터를 분석하여 활용하는 일은 이미 여러 분야에서 오래 전부터 해왔던 일이지만, 데이터가 폭증하는 시대적 배경 속에 이러한 트렌드가 사회 모든 분야로 확산되고 있다는 점에 우리는 주목해야 한다.

국내에 빅데이터가 더욱 활성화되려면 각각의 프로젝트가 설령 작은 시도일지라도 프로젝트의 방향을 잘 잡아 시행착오를 최소화하고, 각각의 시도들이 데이터 활용 역량을 축적하는 기회이자 경험이 될 수 있도록 잘 기획되고 추진되어야 할 것이다.

<참고자료>

1) 환자안전 조기 이상감지 시스템 구축 결과보고서(한국정보화진흥원, 2016.12.30)

2) 환자안전 조기 이상감지 시스템 구축 결과보고회 발표자료(건강보험심사평가원, 2017.1)

3) 신종 질병 등 전염병 확산에 대한 데이터 기반 대응전략(서울시, 2017.1)

4) 교통사고 감소를 위한 데이터 분석 기반 사고예보 서비스 개발 결과보고서(한국정보화진흥원, 2016.12.30)

5) 교통사고 감소를 위한 데이터 분석 기반 사고예보 서비스 개발 결과보고회 발표자료(㈜더아이엠씨, 2017.1)

6) 데이터 기반 수출 올인원 서비스 개발 결과보고서(한국정보화진흥원, 2016.12.30)

7) 데이터 기반 수출 올인원 서비스 개발 결과보고회 발표자료(대한무역투자진흥공사, 2017.1)

8) 데이터 기반 경기 모니터링 및 조기경보 체계 구축 결과보고서(한국정보화진흥원, 2016.12.30)

9) 데이터 기반 경기 모니터링 및 조기경보 체계 구축 결과보고회 발표자료(신한카드, 2017.1)

10) 민간소비 이상징후에 대한 속보성 모형 구축(빅데이터학회 제3호, 2017.2)

11) 신한카드 빅데이터 컨설팅 소개 자료(https://infographic.shinhancard.com/)

keyword

작가의 이전글인공지능 기술/원리의 이해빅데이터 - 질문을 명확히 하라작가의 다음글