그냥 허수아비 때리기는 아닐까?
HWP가 AI 발전을 가로막는다는 주장이 끊임없이 제기되지만, 문제의 본질은 파일 형식이 아니라 문서 작성 관행에 있다. 최근 이런 인식이 조금씩 확산되고 있어 다행이지만, 여전히 의구심이 남아 생각을 정리해 본다.
HWP와 AI의 관계를 제대로 이해하려면 몇 가지 전제를 따져봐야 한다. 공공기관이 HWP를 많이 쓰는 것은 사실이다. HWP 파일 구조가 복잡해서 AI가 쉽게 해석하기 어려운 것도 사실이다. 그래서 개선판인 HWPX 형식이 나왔지만, 전 세계가 DOC 파일을 쓰는 상황에서 국내에만 존재하는 형식이라 활용 도구의 발전 속도는 더딜 수밖에 없다.
하지만 공문서가 AI 학습에 중요하다는 전제는 재검토가 필요하다. 공공기관이 생산하는 문서를 크게 분류하면 신청양식, 보도자료, 외부 기관 협조용 문서, 내부 보고용 문서로 나눌 수 있다.
신청양식은 형식보다 내용이 중요하고, 중앙 정부 기관은 DOC와 PDF를 함께 제공하는 경우가 많아서 공공기관이 생성한 공문서 양식 자체의 가치는 크지 않다. 오히려 신청자가 작성한 내용에 이용 가치가 있어서 OCR 기술을 적용하는 것이 더 적합하다. 보도자료도 양식이 정해져 있어서 AI가 해석하기 어렵지 않다.
진짜 문제는 외부 기관 협조용 문서와 내부 보고용 문서에 있다. 국감 자료나 법령 의견서 같은 문서는 내용이 중요한데, 내용에 따라서 여러 가지 형식이 사용된다. 표 안에 표를 넣는 방식 같은 복잡한 편집 기법도 꽤 사용된다. 내부 보고용 문서 역시 민원 처리 결정이나 행정 수요 조사 같은 중요한 내용으로 판단과 결정에 사용되는데, 역시 HWP를 복잡한 형태로 사용하고 있을 가능성이 높다.
이런 문서의 진짜 문제는 문서 포맷이 AI 친화적인지 보다도, 최종 보고서가 나오는 과정에서 중간 자료가 사라진다는 점이다. 로우 데이터가 최종 보고서가 되는 과정에서 보고서 주제와 맞지 않는 정보는 삭제된다. 정작 AI가 학습해야 할 가치 있는 내용이 내부에서 생성됐다가 흔적도 없이 사라지고, 최종 보고서에 남은 정보는 편향되어서 AI가 학습하기에는 조심스러울 수 있다.
HWP를 희생양 삼아 누군가를 비난하는 것은 일시적인 카타르시스를 줄지 몰라도 근본적인 해결책이 아니다. 공공기관에서 생성되는 중간 단계 자료를 중앙에서 체계적으로 관리할 수 있는 시스템을 구축하는 편이 AI가 사용할 정보를 수집하는 더 현실적인 방법이다. 문서의 생명주기 전체를 추적하고 보존할 수 있는 설루션이 필요하다.
전문가들이 정책을 만들 때 이런 맥락을 충분히 고려하리라 믿지만, 과도한 집착으로 성급하게 달려드는 일도 있어서 우려스럽다. 진짜 문제는 파일 형식이 아니라 비용을 들여서 수집한 정보와 현장의 시각과 의견을 활용하지 못하는 현실이다.
과연 HWP 파일이 문제일까? 아니면 편향되고 과도하게 정제된 정보일까?