HWP 파일을 이제 AI가 읽을 수 있게 제가 직접 만들었어요.
ChatGPT에게 논문을 던지면 요약해준다. Gemini에게 PDF를 보여주면 분석해준다. Claude에게 코드를 보여주면 리뷰해준다.
전 세계 지식 노동자들의 생산성이 비약적으로 높아지고 있다.
그런데 한국은 조금 다르다.
.hwp
1989년 한글과컴퓨터가 만든 문서 형식이다. 35년간 한국의 표준으로 자리 잡았다.
정부 문서의 대부분이 HWP다. 공공기관 입찰 서류가 HWP다. 대학 과제 제출 양식이 HWP다. 기업 내부 보고서가 HWP다.
한국에서 일한다면, HWP를 피할 수 없다.
ChatGPT에 HWP 파일을 업로드해보라. "지원하지 않는 형식입니다."
Gemini에 HWP를 보여줘도 마찬가지다. Claude도, Copilot도 결과는 같다.
이유는 명확하다.
HWP는 한국에서만 쓰인다. 전 세계 시장 점유율로 보면 0.1%도 안 된다. 실리콘밸리 기업이 이 파일을 지원할 이유가 없다.
결과적으로 한국의 지식 노동자들은 AI 혁명에서 반쪽짜리 혜택만 받고 있었다.
HWP 파일은 단순한 텍스트가 아니다.
마이크로소프트의 OLE 복합 문서 형식을 기반으로, 자체적인 바이너리 구조로 데이터를 저장한다.
내부에는 BodyText, BinData, DocInfo 같은 스트림들이 계층적으로 존재하고, 텍스트는 2바이트 유니코드로 인코딩되어 있으며, 대부분 zlib으로 압축되어 있다.
파일을 열어서 텍스트만 복사하면 되지 않느냐고?
수십 페이지 문서를 매번 수동으로 복사할 것인가. 표와 이미지가 섞인 문서는 어떻게 할 것인가. 한글 프로그램이 없는 환경에서는 어떻게 할 것인가.
자동화가 필요했다. AI가 직접 HWP를 읽을 수 있어야 했다.
이 문제를 해결하기 위해 개발한 서비스다.
핵심 기능은 세 가지다.
첫째, HWP/HWPX 파일에서 텍스트를 자동 추출한다. 바이너리 파싱부터 압축 해제, 문자 디코딩까지 전 과정을 자동화했다.
둘째, 추출된 텍스트를 AI에게 전달하고 대화한다. "이 계약서 요약해줘." "위험 조항 있으면 알려줘." "3페이지 내용 설명해줘." 자연어로 질문하면, AI가 문서 기반으로 답변한다.
셋째, 대화 맥락을 저장하고 기억한다. 세션 기반 메모리 시스템으로, 이전 대화를 이어갈 수 있다.
HWP 텍스트 추출에는 이중 안전장치를 적용했다.
1차 시도: pyhwp 라이브러리의 hwp5txt 활용 대부분의 표준 HWP 파일을 빠르게 처리한다.
2차 시도: olefile 기반 직접 바이너리 파싱 1차가 실패할 경우, OLE 스트림을 직접 열어 레코드 단위로 텍스트를 추출한다.
HWPX 파일은 다른 방식이다. ZIP 압축된 OOXML 구조이므로, 내부 XML에서 텍스트 노드를 파싱한다.
이 과정을 통해 한글 2002부터 최신 버전까지, HWP와 HWPX 모두 처리할 수 있다.
추출된 텍스트는 다양한 형식으로 변환된다.
Markdown: AI 서비스 입력, 노션, 깃허브 활용에 최적 TXT: 범용 텍스트, 어떤 환경에서든 열람 가능 HTML: 웹 게시, 이메일 본문 활용 ODT: LibreOffice 호환, 오픈소스 문서 편집 XML: 데이터 파이프라인, 자동화 시스템 연동
특히 Markdown 변환을 권장한다.
변환된 MD 파일을 ChatGPT에 업로드하면, 드디어 HWP 내용을 AI와 논의할 수 있다. Gemini도, Claude도 마찬가지다.
HWP와 글로벌 AI 사이의 브릿지 역할을 하는 것이다.
법률/계약 검토 수십 페이지 계약서를 업로드하고, "을에게 불리한 조항 찾아줘"라고 질문한다. AI가 문서 전체를 분석해 위험 요소를 짚어준다.
공공기관 서류 분석 입찰 공고문, 사업 계획서, 정책 문서를 업로드하고, 핵심 요건과 평가 기준을 추출한다.
학술/연구 논문 자료, 연구 보고서를 빠르게 훑고, 관련 내용을 질의응답 형식으로 파악한다.
기업 내부 문서 보고서 초안을 AI에게 검토받고, 요약본이나 발표 자료 초안을 생성한다.
서비스는 웹 기반으로 제공된다. 별도 프로그램 설치가 필요 없다.
브라우저에서 접속해 파일을 업로드하면 된다. 모바일에서도 동작한다.
현재 무료로 운영 중이다. 서버 자원 한계로 일부 제약이 있으나, 기본적인 문서 분석과 변환은 충분히 가능하다.
한국의 디지털 환경은 독특하다.
HWP, 공인인증서, 액티브X. 글로벌 표준과 다른 길을 걸어왔다.
그 유산이 때로는 불편함으로 남는다. 특히 AI 시대에 들어서면서 그 간극이 더 선명해졌다.
HWPower AI 어시스턴트는 그 간극을 메우려는 시도다.
ChatGPT가 읽지 못하는 파일을, Gemini가 열지 못하는 문서를, AI와 연결하는 다리.
한국의 지식 노동자들도 AI의 혜택을 온전히 누릴 수 있도록.
HWPower AI 어시스턴트 무료 사용 링크 � hwp.humangen.ai
문의는 � arxivgpt@gmail.com
#HWP #AI문서분석 #ChatGPT #Gemini #한글문서 #업무자동화 #디지털전환