machine readable을 넘어 machine understandable로 나아가자
데이터 혁신의 새로운 패러다임
21세기, 데이터는 ‘새로운 석유’라 불릴 만큼 그 가치와 영향력이 커졌다. 우리는 스마트폰, 인터넷, 각종 센서와 IoT 기기에서 매일 엄청난 양의 데이터를 생산하고 소비한다. 정부와 기업, 학계는 이 데이터를 활용해 정책을 수립하고, 서비스를 개발하며, 사회의 크고 작은 문제를 해결한다. 그 과정에서 ‘기계 판독 가능(machine readable)’ 데이터의 중요성이 부각되어 왔다. 하지만 지금, 우리는 한 단계 더 높은 도약이 필요한 시점에 와 있다. 바로 ‘기계 이해 가능(machine understandable)’ 데이터로의 전환이다.
기계 판독 가능 데이터의 성과와 한계
지난 10여 년간 데이터 개방과 디지털 전환이 가속화되면서, 데이터의 구조화와 표준화가 큰 진전을 이루었다. 과거에는 종이 문서, PDF, 이미지 등 사람이 직접 읽어야만 했던 정보가 많았다. 하지만 이제는 CSV, JSON, XML 등 기계가 읽을 수 있는 형태로 데이터가 제공된다. 덕분에 행정의 효율성이 높아지고, 데이터 기반 의사결정이 가능해졌다. 예를 들어, 공공기관의 데이터 개방, 금융거래 내역의 자동 분석, 대규모 고객정보 관리 등이 모두 기계 판독 가능 데이터 덕분에 가능해진 일들이다.
그러나 여기에는 분명한 한계가 존재한다. 기계가 데이터를 ‘읽을 수’ 있다고 해서, 그 의미와 맥락까지 ‘이해’하는 것은 아니다. 예를 들어, ‘2025-06-27’이라는 데이터가 단순히 날짜인지, 기한인지, 특정 사건의 발생일인지 기계는 알지 못한다. ‘서울’이라는 단어가 도시인지, 기업명인지, 혹은 인명인지도 구분하지 못한다. 데이터의 의미와 관계, 맥락이 빠져 있다면, 기계는 여전히 단순한 명령만 수행할 뿐, 복잡한 사고나 추론은 불가능하다.
machine understandable 데이터란 무엇인가?
‘기계 이해 가능(machine understandable)’ 데이터란, 단순히 읽히는 것을 넘어, 데이터의 의미와 맥락, 그리고 데이터 간의 관계까지 기계가 파악할 수 있도록 설계된 데이터를 말한다. 이를 위해서는 데이터에 ‘의미’를 부여하는 작업이 필수적이다. 여기서 시맨틱 웹(Semantic Web), 온톨로지(Ontology), 지식 그래프(Knowledge Graph) 등 첨단 기술이 등장한다.
시맨틱 웹은 데이터를 단순한 문자열이나 숫자가 아니라, ‘의미 단위’로 표현해 기계가 인간처럼 이해할 수 있도록 하는 개념이다. 온톨로지는 특정 분야(도메인) 내에서 개념과 그 관계를 체계적으로 정의한다. 예를 들어, ‘서울’이라는 단어가 ‘대한민국의 수도’임을 명확히 기술하고, ‘2025-06-27’이 ‘행사 개최일’임을 표시하면, 기계는 이를 단순한 데이터가 아닌, 의미 있는 정보로 인식할 수 있다.
지식 그래프는 이러한 의미 기반 데이터를 노드와 엣지로 연결해, 복잡한 관계망을 시각화하고, 기계가 추론할 수 있도록 돕는다. 구글, 네이버 등 글로벌 IT 기업들은 이미 지식 그래프를 활용해, 사용자가 질문하면 단순 키워드 검색을 넘어, 맥락과 의도에 맞는 답변을 제공하고 있다.
왜 지금 ‘machine understandable’이 필요한가?
첫째, 데이터의 양은 기하급수적으로 늘고 있지만, 그 데이터를 제대로 활용하는 능력은 아직 부족하다. 기계가 데이터를 단순히 읽는 수준에 머무르면, 데이터 활용의 잠재력은 제한적이다. 의미를 이해하는 데이터는 인공지능, 빅데이터 분석, 자동화 시스템의 성능을 획기적으로 끌어올릴 수 있다.
둘째, 다양한 출처에서 생성되는 데이터를 통합하려면 의미 기반 데이터가 필수적이다. 서로 다른 형식과 구조를 가진 데이터를 연결하고, 그 관계를 이해해야 진정한 데이터 융합과 시너지 효과를 낼 수 있다. 예를 들어, 의료 데이터와 환경 데이터, 생활 습관 데이터가 의미적으로 연결되어야 개인 맞춤형 건강 관리가 가능해진다.
셋째, 정부와 기업의 디지털 전환이 가속화되는 가운데, 투명하고 신뢰할 수 있는 데이터 생태계를 구축하려면 데이터의 의미와 출처를 명확히 하는 것이 중요하다. ‘기계 이해 가능’ 데이터는 데이터의 신뢰성과 재사용성을 높이고, 국민과 소비자에게 더 나은 서비스를 제공하는 기반이 된다.
machine understandable 데이터가 만드는 미래
‘기계 이해 가능’ 데이터는 우리의 삶을 어떻게 바꿀 수 있을까? 이미 여러 분야에서 그 가능성이 입증되고 있다.
1. 지능형 검색과 질의응답 서비스
기존의 검색 서비스는 사용자가 입력한 키워드를 단순히 포함하는 결과를 보여주는 수준이었다. 하지만 지식 그래프와 시맨틱 기술이 도입되면서, 사용자의 질문 의도와 맥락을 파악해 정확한 답변을 제공할 수 있게 됐다. 예를 들어, “서울의 내일 날씨는?”이라는 질문에, ‘서울’이 도시임을 인식하고, ‘내일’이 현재 날짜의 다음 날임을 파악해, 해당 지역의 예보 데이터를 정확히 연결해준다.
2. 스마트 팩토리와 자동화
스마트 팩토리에서는 수많은 센서와 기계가 데이터를 실시간으로 생산한다. 이때 단순히 온도, 습도, 진동 등의 수치를 기록하는 것만으로는 충분하지 않다. 각 데이터가 무엇을 의미하는지, 어떤 상황에서 어떤 조치를 취해야 하는지 기계가 이해할 때, 완전한 자동화와 예지정비가 가능해진다.
3. 맞춤형 의료와 헬스케어
의료 분야에서는 환자의 진료 기록, 유전자 정보, 생활 습관 데이터 등 다양한 정보가 존재한다. 이 데이터를 의미적으로 연결하고, 기계가 그 관계를 이해할 수 있다면, 개인 맞춤형 치료와 예방이 가능해진다. 예를 들어, 특정 유전자 변이와 특정 질병의 연관성을 자동으로 추론하거나, 환자의 생활 패턴에 맞는 건강 관리 방안을 제시할 수 있다.
4. 공공 데이터 혁신
정부가 보유한 방대한 공공 데이터를 ‘기계 이해 가능’하게 만들면, 민간의 창의적 활용이 폭발적으로 늘어난다. 예를 들어, 교통, 환경, 복지 등 다양한 분야의 데이터를 의미적으로 연결해, 시민 맞춤형 정책이나 서비스가 개발될 수 있다.
어떻게 ‘machine understandable’ 데이터로 전환할 것인가?
첫째, 시맨틱 웹 기술과 표준을 적극 도입해야 한다. RDF(Resource Description Framework), OWL(Web Ontology Language) 같은 표준을 활용해 데이터에 의미를 부여하고, 온톨로지를 구축하는 작업이 필요하다. 둘째, 도메인별 표준화 작업을 통해 산업, 행정, 의료 등 각 분야에 맞는 의미 체계를 마련해야 한다. 셋째, 자연어 처리(NLP)와 인공지능 기술을 활용해 비정형 데이터에서도 의미를 추출하고, 자동으로 온톨로지를 생성하는 기술 개발이 중요하다.
또한, 데이터 생산자와 소비자가 함께 참여하는 생태계 구축도 필수다. 데이터의 의미를 명확히 정의하고, 이를 공유하는 문화가 자리잡아야 한다. 정부와 민간이 협력해 시범사업을 추진하고, 성공 사례를 확산시키는 것도 효과적이다.
결론: 데이터 혁신의 미래, ‘이해’에 달려 있다
‘machine readable’ 데이터는 데이터 활용의 첫걸음이었다. 하지만 이제는 ‘machine understandable’ 데이터로 진화해야 한다. 데이터가 기계에게 읽히는 것을 넘어, 기계가 그 의미와 맥락을 이해할 때, 우리는 비로소 진정한 데이터 혁신을 이룰 수 있다. 더 똑똑한 인공지능, 더 효율적인 행정, 더 창의적인 서비스가 가능해진다. 데이터의 미래는 ‘이해’에 달려 있다. 우리 모두 ‘machine readable’을 넘어 ‘machine understandable’로 나아가자.
이것이 바로 데이터 시대의 새로운 경쟁력이며, 우리 사회가 반드시 준비해야 할 미래다.