팩트 체크와 비판적 사고의 필요성
정부 기관이 분과별 회의 및 토론 결과를 AI 친화적 텍스트 형식인 마크다운(Markdown, .md)으로 작성하고 위원회 누리집에 공개하겠다는 이 발표는, 수많은 개발자, PM, 기획자들에게 'Breaking!'이라는 수식어와 함께 빠르게 공유되었습니다. 하지만 실무자의 시선에서 원본 데이터를 직접 확인해 본 결과, 우리가 기대했던 혁신과는 거리가 멀었습니다.
오늘은 프로덕트를 기획하고 데이터를 다루는 실무자의 관점에서, 이번 마크다운 도입 이슈의 실체와 우리가 가져야 할 비판적 시각에 대해 이야기해보고자 합니다.
소프트웨어 개발자나 프로덕트 관리자(PM)라면 마크다운이 왜 'AI 친화적'인지 잘 알고 계실 것입니다.
마크다운은 텍스트 기반의 가벼운 마크업 언어입니다. 최근 LLM(거대언어모델)을 활용한 RAG(검색 증강 생성) 시스템이나 데이터 파싱 작업을 수행할 때, 기존의 HWP나 PDF 문서 포맷은 구조를 추출하고 노이즈를 제거하는 데 상당한 전처리 리소스가 소모됩니다.
반면, 마크다운은 # 을 통한 제목 계층화, - 를 통한 리스트화 등 메타 구조를 텍스트 자체에 포함하고 있어 기계(AI)가 문서의 맥락을 정확하고 빠르게 학습할 수 있습니다. 따라서 국가 공공데이터가 마크다운으로 제공된다는 것은, 민간 기업에서 공공 데이터를 활용한 AI 서비스를 개발할 때 데이터 전처리 비용을 획기적으로 줄일 수 있다는 것을 의미했습니다.
데이터의 퀄리티는 실제 프로덕트의 품질을 좌우합니다. 서비스 기획자로서 이 데이터가 향후 어떻게 활용될 수 있을지 확인하기 위해, 국가인공지능전략위원회 누리집에 접속하여 실제 분과 회의록 파일을 다운로드해 보았습니다.
☞ 분과 위원회 게시글 목록 Link
결과는 실망스러움을 넘어 다소 황당했습니다.
파일 형식의 모순: 다운로드한 파일의 확장자는 분명 .md였습니다.
내용의 부재: 파일을 에디터로 열어본 결과, 마크다운 문법(Syntax)은 단 하나도 적용되어 있지 않았습니다.
AI가 문맥을 이해하는 데 필수적인 헤더 태그(#), 볼드체(**), 인용구(>) 등의 구조적 마크업은 전무했습니다. 즉, 시스템적으로는 텍스트 파일(.txt)과 전혀 다를 바가 없었으며, 정부가 보도자료에서 강조했던 'AI 친화적 문서 작성 체계 혁신'이라는 기대 효과를 전혀 충족시킬 수 없는 로우 데이터(Raw Data)였습니다.
이번 해프닝은 IT 업계에 종사하는 우리에게 중요한 교훈을 남깁니다. 수많은 기술 블로그와 커뮤니티, SNS에서는 위 뉴스의 헤드라인만 캡처되어 공유되었고, 정부의 혁신적인 행보를 칭찬하는 맹목적인 반응이 주를 이루었습니다. 하지만 실제 데이터를 다루는 IT 실무자라면, 정책의 '선언'이 아니라 '실행'의 퀄리티를 직접 검증해야 합니다.
물론, 정부가 국가 차원에서 AI 친화적인 데이터 환경을 구축하려 시도하고 정책을 주도하는 방향성 자체는 매우 긍정적이며 응원해야 할 일입니다. 변화의 첫걸음을 떼었다는 점에서는 박수를 보냅니다. 그러나 실무자의 관점에서 볼 때, 기술에 대한 정확한 이해 없이 껍데기(확장자)만 바꾸는 식의 행정은 실질적인 AI 산업 발전이나 공공데이터 생태계에 기여할 수 없습니다.
우리는 하루에도 수십 개의 AI 관련 뉴스와 트렌드가 쏟아지는 시대를 살고 있습니다. "정부가 AI 친화적 포맷을 도입했다"는 기사 제목만 읽고 기대감에 부풀기보다는, 직접 데이터를 다운로드하고 검증하는 수고로움이 필요합니다. 헤드라인 이면의 실체를 파악하고, 기술이 실제로 어떻게 구현되고 있는지 확인하는 '팩트 체크'의 태도. 그것이 바로 이 시대를 살아가는 서비스 기획자, PM, 그리고 개발자에게 가장 필요한 핵심 역량일 것입니다.