#Al 산업혁명
“OCR, 데이터 자산화 AI 시대의 필수 인프라
– 업스테이지 ‘도큐먼트 파스’가 여는 디지털 혁신”
글로벌연합대학 버지니아대학교
인공지능융합연구소장 이현우 교수
인공지능 도입이 전 세계 기업에서 빠르게 확산되고 있다. 그러나 AI의 성능과 가능성은 결국 얼마나 양질의 데이터를 보유하고, 그 데이터를 얼마나 빠르게 활용할 수 있는가에 달려 있다. 특히 대형언어모델(LLM)을 기반으로 한 AI 서비스를 성공적으로 운영하기 위해서는 방대한 양의 데이터를 디지털 자산으로 전환하는 과정이 필수적이다. 이 과정의 중심에 있는 기술이 바로 광학문자인식(OCR, Optical Character Recognition)이다.
업스테이지(대표 김성훈)는 최근 자사의 LLM 수요 증가와 맞물려 OCR 활용이 폭발적으로 늘고 있다고 전했다. LLM을 구축하려면 고품질 데이터 확보가 먼저인데, OCR은 비정형 문서를 구조화된 형태로 전환하여 이를 가능하게 한다. 이건찬 업스테이지 도큐먼트파스(Document Parse) 사업개발 리드는 “최근 하루 평균 두 곳의 기업과 OCR 관련 미팅을 진행하고 있다”며 OCR의 시장 수요를 실감한다고 말했다. 특히 보험·물류 분야뿐만 아니라 최근에는 건설 산업에서의 활용이 급격히 증가하고 있다는 설명이다.
건설 분야는 단일 프로젝트에서도 수천 건의 문서가 쏟아진다. 입찰 서류, 계약서, 법률 문서, 설계 도면 등 그 종류와 형식은 다양하고, 언어도 여러 국가의 것을 아우른다. 이 리드는 “건설 공사 1건에서 발생하는 문서는 평균 5,000~6,000개에 달한다”며 이를 사람이 일일이 검토하는 데 드는 막대한 시간과 비용을 지적했다. 보험업 역시 상황은 비슷하다. 표준화되지 않은 다양한 포맷의 보험 청구서, 계약서, 의료기록이 존재하며, 정보 유출에 특히 민감하다. 이때 OCR은 단순 문서 읽기를 넘어, 특정 조항을 추출하고, 독소조항을 탐지하며, 검색 증강 생성(RAG) 기반으로 필요한 정보를 신속히 찾아낼 수 있게 한다.
이러한 수요 증가에 대응하기 위해 업스테이지는 최근 오픈 베타 웹사이트 ‘AI 스페이스(Space)’를 공개했다. 이 서비스는 다양한 형식의 문서를 일원화된 데이터 체계로 변환할 수 있는 ‘도큐먼트 파스’ 모델을 기반으로 한다. 기존 OCR 솔루션이 문자 추출에 머물렀다면, 도큐먼트 파스는 문맥과 문법까지 이해하며 문서 내 특정 정보의 위치까지 파악할 수 있다. 구글의 ‘노트북LM’과 비교하면, 단순 요약을 넘어 정보 구조와 위치를 분석하는 점에서 확연한 차이가 있다.
업스테이지의 OCR·파서 모델은 경량화되어 있어 가격 경쟁력도 갖췄다. OCR, 파서, LLM을 하나로 연결한 ‘풀 파이프라인’을 보유한 것도 강점이다. 특히 최근 출시된 추론 하이브리드 모델 ‘솔라 프로2’는 빠르고 정확한 문서 이해를 가능하게 하며, OCR의 활용 범위를 넓혔다. 기업 입장에서는 데이터 최적화와 AI 모델 적용, 그리고 이를 통한 의사결정 혁신이라는 선순환 구조를 구축할 수 있게 된 것이다.
해외 시장에서도 성과가 나타나고 있다. 미국 보험업계에서는 이미 도입 사례가 늘어나 가시적인 효과가 드러나고 있으며, 일본의 경우 방대한 문서량으로 인해 수요가 폭증하고 있다. 특히 일본의 공공기관 문서량은 한국의 6~10배에 달해, OCR 솔루션이 반드시 필요한 환경이 조성되고 있다. 업스테이지는 이미지와 텍스트를 동시에 이해하는 비전언어모델(VLM)도 개발 중인데, 이는 복잡한 데이터 해석이 필요한 분야에서 새로운 경쟁력을 제공할 것으로 기대된다.
OCR 기술은 단순한 디지털화 수단이 아니다. 이는 기업의 의사결정 속도와 정확성을 근본적으로 변화시키는 전략 자산이다. 복잡한 증권사 데이터 화면에서 필요한 정보를 즉시 추출·재구성하거나, 건설 현장의 대규모 문서를 사전 분석해 리스크를 줄이는 방식은 이미 실무에서 활용되고 있다. 결국 데이터의 디지털화는 기업 AI 도입의 첫걸음이자 필수 과제가 되었으며, 업스테이지는 이를 속도·정확성·보안성의 균형 속에서 구현하고 있다.
미래의 경쟁력은 더 이상 데이터를 얼마나 많이 보유했는가에 달려 있지 않다. 핵심은 그 데이터를 얼마나 빠르고 정확하게 활용할 수 있는가에 있다. OCR은 이러한 역량을 현실로 만드는 기술이며, 업스테이지의 도큐먼트 파스와 AI 스페이스는 기업이 그 능력을 확보하도록 돕는 플랫폼이다. AI 시대, 특히 AGI로 향하는 길목에서 OCR은 필수 인프라로 자리 잡아가고 있으며, 업스테이지는 그 최전선에서 디지털 혁신을 이끌고 있다.