대한민국은 디지털 시대에서는 강국이었지만 AI 시대에 들어서는 여러 가지의 문제점을 노출하고 있다. GPU 확보로 대변되는 컴퓨팅 인프라의 문제가 우선적으로 해결해야 할 문제로 거론되지만 정작 AI의 ‘밥’에 해당하는 데이터에 관해서는 관심히 없거나 막연히 공공데이터 개방을 확대해야 한다는 얘기를 주로 하고 있다. 우리나라의 공공데이터 개방은 OECD 공공데이터 평가에서 4회 연속 1위를 하고 있을 정도로 세계적으로 인정을 받고 있는데 정착 산업계에서는 쓸만한 공공데이터가 많이 개방되어 있지 않다고 말한다. 이러한 갭은 어디서 발생하는 것일까? 우리나라가 AI 강국으로 가기 위해서는 AI 발전의 핵심 기반인 데이터 확보에서는 여러 장애물에 제거해야 한다. 데이터는 AI의 연료이자 경쟁력의 원천이지만, 쓸만한 데이터가 없는 것은 정부가 공공데이터를 적극 개방하지 않아서가 아니라, 개인정보보호 규제와 저작권 문제, 그리고 플랫폼 성장의 제약이 AI 산업의 도약을 가로막고 있기 때문이다. 여기서는 이러한 문제를 하나씩 살펴보고자 한다.
개인정보보호 규제의 강력함
대한민국은 세계적으로도 강력한 개인정보보호법을 갖추고 있으며, 옵트인(Opt-in) 방식을 채택해 데이터 주체의 명시적 사전 동의 없이는 원본 데이터의 수집·이용이 불가능하다. 이러한 규제는 개인정보를 포함한 공공데이터의 개방을 크게 저해하고 있다. 글로벌 기준 대비 과도한 보호 수준으로 인해 비식별 정보 조차 활용에 제약이 많아, AI 학습에 필요한 대규모 데이터 확보를 매우 어렵게 한다.
공공데이터의 개방을 막는 개별법들
우리나라는 공공데이터법에 따라 공공데이터 개방을 원칙으로 하고 있으나, 개별법에서 특별히 비공개를 규정하고 있는 경우 해당 데이터는 개방에서 제외된다. 예를 들어 국세기본법 제81조의13은 세무공무원이 납세자가 제출한 자료나 국세 부과·징수를 위해 취득한 자료(과세정보)를 타인에게 제공하거나 누설하는 것을 금지하고 있고 국세청 등에서 보유하 국세 관련 공공데이터의 개방은 제한되고 있다. 국세기본법 이외에도 상당히 많은 법들에서 공공데이터의 개방을 막고 있어서 이에 대한 개선 없이는 이러한 중요한 공공데이터의 개방은 막혀 있을 수 밖에 없다.
저작권 규제 문제
AI 학습을 위한 데이터 활용 시 저작권 문제는 여전히 해소되지 않은 큰 장애물이다. 데이터의 공정 이용 범위가 불분명하고, 저작권자의 동의 없이는 사용이 제한된다. 이로 인해 국내 AI 기업들은 다양한 텍스트, 이미지, 뉴스 등 양질의 데이터를 충분히 확보하지 못해 글로벌 경쟁에서 뒤처질 위험에 놓여 있다.
플랫폼 성장 규제와 데이터 댐 부재
법률, 의료, 모빌리티, 금융, 교통 등 다양한 분야에서 플랫폼 도입과 확산이 각종 규제로 제한받고 있다. 플랫폼이 자유롭게 성장해야 데이터가 집적되고, 이를 바탕으로 AI 서비스가 발전할 수 있지만, 현실은 ‘데이터 댐’ 역할을 할 만한 플랫폼 구축 자체가 쉽지 않다. 데이터의 속도가 느려지고, AI 서비스의 혁신이 지연되는 악순환이 반복되고 있다.
기득권 저항, 혁신의 또 다른 장애
기존 이해관계자들의 집단적 저항도 데이터 혁신을 가로막는 주요 요인이다. 전통 산업의 성장 논리가 데이터 기반 산업의 성장과 충돌하면서, ‘건전 저지기제’로 포장된 저항이 곳곳에서 나타난다. 이로 인해 데이터의 대규모 집적과 활용이 더욱 어려워지고 있다.
결론
AI 산업의 미래는 데이터에 달려 있다. 대한민국이 AI 선도국으로 나아가려면, 정부에 보다 적극적인 공공데이터 개방을 요구하기 보다는 개인정보보호와 저작권 등 각종 규제의 합리적 개선이 시급하다. 또한 플랫폼 성장의 발목을 잡는 규제를 완화하고, 데이터 댐 구축을 위한 사회적 합의와 제도적 지원이 필요하다. 데이터 확보의 벽을 넘지 못한다면, AI 혁신의 열매도 기대할 수 없다. 지금이 바로 데이터 주권과 AI 경쟁력의 기로에 선 시점이다.