인공지능이 글을 읽는 시대를 위한 개척
사람들은 OCR이 끝난 기술이라고 착각한다.
하지만 아직 세상은 AI가 읽을 수 없는 데이터로 가득하다.
우리는 AI에게 읽는 법을 가르쳐, 전 세계 지식 시스템을 재편할 것이다.
인간에게 '읽는다'는 건 단지 눈으로 활자를 따라간다는 뜻이 아니다. 인간은 글을 읽으며 그 너머에 숨겨진 서사와 감정을 자연스럽게 이어낸다. 그래서 우리는 뉴스를 읽으며 분노하고, 편지를 받고 울컥하며, 새로운 정보에 무릎을 치며 놀란다. 문장에 담긴 구조를 해석하고, 그 의미를 사유하는 것이다.
수천 년 동안 인류는 자신들의 생각과 권한을 ‘문서’라는 정제된 형태로 남겨왔다. 왕의 칙령에서부터 법률, 거래 계약서, 교육 커리큘럼까지. 세상의 모든 제도와 시스템은 문서로 구성되어 있다. 법과 경제 뿐 아니라 삶과 죽음, 사랑까지도. 인류는 문서를 통해 세계를 저장하고 다음 세대에 전달해왔다. 문서를 읽는다는 건 축적된 인류의 지식에 접근할 수 있다는 뜻이었고, 그것은 오랜 시간동안 인간만의 권한이자, 인간만이 감당해야 했던 의무이기도 했다.
나는 이 능력을 컴퓨터에게 나누고 싶었다. 오직 인간만이 감당해온, 문서를 읽고 해석하는 과업을 인공지능에게도 나누어 인류의 지식 문명을 가속화하고 싶었다. 이는 단순히 정확도 높은 OCR 기술로 가능한 일이 아니다. 정보의 계층을 이해하고, 상관관계를 분석하여, 인간의 사유 구조를 이해할 수 있는 능력을 부여해 주어야 하는 일이다. 수천 년 동안 인간만 가능했던 지적 과업을 기계와 공유하는 매우 방대하고 복잡한 도전인 것이다. 그래서 아직까지도 문서를 읽는다는 것은 인공지능이 넘지 못한 벽으로 남아있다.
'요즘 종이 문서 누가 써요. 다 디지털 파일로 주고 받잖아요.'
사람들은 흔히 착각한다. 세상이 이미 디지털화 되었다고. 대부분의 문서가 PDF, 엑셀, 워드 파일로 작성되어 클라우드에 저장되니, 이제는 AI만 붙이면 다 되는 세상이 되었다고 믿는다. 같은 이유로 OCR 역시 종이 문서를 스캔해 전자 파일로 바꾸는 오래된 기술쯤으로 오해된다. 종이 문서 사용이 줄어든 오늘날에는 시대에 뒤처진 기술이라는 인식이 따른다.
그러나 현실은 전혀 다르다. 이미 우리가 다루는 문서의 99%도 PDF나 워드같은 디지털 파일이다. 그런데 왜 여전히 OCR이 필요할까? 디지털이라고 해서 곧바로 기계가 이해할 수 있는 구조를 갖추는 것이 아니기 때문이다. 예를 들어, 고양이에 대한 PDF 보고서가 있다고 생각해보자.
1. 고양이에 대하여
1-1. 검정 고양이
1-1-1. 검정 고양이의 형태
이처럼 글자의 크기, 들여쓰기, 머리말, 구획선같은 시각적 표현을 통해 모든 문서의 정보는 계층 구조를 가진다. 또한 표 안의 ‘5%’라는 숫자가 수수료인지 세율인지를 알기 위해서는 상단과 좌측의 헤더를 함께 아우러야 한다. 문서에 글로 명시되지 않았지만, 사실 그 안에는 글자, 표, 이미지 등 수많은 시각적 단서들이 관계를 맺으며 공존하고 있다.
하지만 기존의 OCR 플레이어들은 이 관계성을 다루지 못했다. 그저 이미지에서 글자를 추출해 편집 가능한 문자로 변환하는 데 그쳤다. 문서를 읽는 목적은 방대한 내용을 요약하여, 필요한 정보를 추출하기 위함이다. 단순히 ‘가’를 ‘가’라고 변환하는 것은 아무 의미가 없다.
그래서 우리가 만드는 OCR 정확도의 기준은 더이상 ‘김지현’을 ‘김지현’이라고 인식했는지가 아니다. '김지현'을 ‘신청인의 성명’으로 이해했는가에 있다. 텍스트 인식은 극히 일부일 뿐이다. 우리가 개척하는 진짜 OCR은 문맥과 정보의 관계를 해석하는 고차원적인 종합 시각지능이며, 우리는 이를 ‘문서특화 일반시각지능(Expert General Visual Intelligence for Documents)’이라 부르고 있다.
이 단계가 제대로 이루어져야만, 그 뒤에서 LLM 같은 기술들이 실제 복잡한 영역에서 이해를 수행할 수 있다. 요즘 많은 AI 기업들이 우리를 찾아오는 이유이기도 하다.
AI는 모두 입력 데이터의 구조와 품질에 의존한다. 그러나 세상의 문서는 표·수치·이미지·텍스트가 뒤섞인, 예측조차 불가능할 정도로 다양한 형태를 이루고있다. OCR이 단순히 글자를 뽑는 수준에 머문다면 이를 구조화된 데이터로 이해할 수 없고, 결국 아무것도 자동화 시킬 수 없다.
LLM도 마찬가지다. 관리비 고지서에서 “이번 달 난방비가 얼마야?”라는 질문을 정확히 답하려면, 전기, 수도, 관리비, 난방비가 한 표 안에 섞여 있는 고지서부터 제대로 해석해야 한다. OCR이 앞단에서 이를 정확히 정제하지 못하면, LLM은 결국 부정확한 답변만 반복할 수 밖에 없다.
결국 모든 지능형 시스템은 구조화된 데이터라는 전제를 기반으로 작동한다. 그 전제를 책임지는 것이 OCR이며, 이는 AI 전체 생태계의 기초가 되는 인터페이스다. 비유하자면 OCR은 모든 AI 앞단에 붙는 미들웨어 소프트웨어라는 표현이 좋겠다. 우리의 기술은 LLM과 RPA같은 후속 기술들이 산업 현장에서 제 역할을 다할 수 있도록 보장하는 첫 관문이자, 전 산업을 지탱하는 공통 인프라가 될 것이다.
'OCR 회사는 옛날부터 너무 많지 않나요?'
나는 오히려 이런 질문이 반갑다. 그 물음이야말로 우리가 무엇을 보고 있는지를 증명해 주기 때문이다. 분명 OCR은 오래전부터 존재해왔다. 하지만 한 번도 인간을 무가치한 노동에서 해방시킬 만큼 충분히 유용했던 적은 없었다. 시장에는 많은 OCR 기업이 있지만, 우리는 그들과 실제로 경쟁하지 않는다. 우리가 실제 시장에서 만나는 경쟁사는 LLM으로 유명한 국내 기업 U사와 RPA로 유명한 글로벌 기업 U사 정도가 전부이다.
오늘도 우리는 세금 신고를 할 때 서류 더미 앞에서 몇 시간을 허비하고, 병원에서는 진료기록과 검사지를 들고 다니며 같은 설명을 반복한다. 계약서 하나를 확인하기 위해 변호사 팀이 며칠 밤을 새우고, 연구자는 수십 개의 논문을 뒤져야 겨우 필요한 정보를 찾는다.
이 모든 불편의 공통점은 단 하나다. 문서는 이미 디지털 파일이지만, 기계가 그 문서를 이해하지 못한다는 것. 지금까지는 사람이 직접 읽고 판단해야만 일이 굴러갔다. 만약 AI가 이 일을 대신할 수 있다면? 세금 신고는 몇 초 만에 끝나고, 병원에서는 과거 기록과 영상이 자동으로 정리되어 의사는 판단에 집중할 수 있다. 계약서는 수분 안에 검토되고, 연구자는 전 세계 논문을 단숨에 탐색하며 새로운 지식을 만들어낸다.
GPT 같은 LLM, 혹은 앞으로 등장할 모든 지능형 시스템도 결국 ‘정제된 입력 데이터’ 위에서만 제대로 작동한다. 문서가 올바르게 해석되지 않는다면, 어떤 AI도 믿을 만한 답을 내놓을 수 없다.
따라서 문서를 해석하는 AI야말로, LLM과 미래기술 전체의 가장 앞단에 서 있는 핵심 인프라다. 낡아빠진 OCR이라는 이름에 갇힌, 그 어떤 기술보다 각광받는 문서특화 일반시각지능. 우리가 보는 비전이고, 우리가 OCR을 하는 이유이다.
아직 이 변화를 알아차린 사람은 많지 않지만, 이 비표준적인 세계를 읽어내는 기술이야말로 다음 산업의 패권을 결정짓는 기술이 될 것이다. 이 영역을 선점하는 기업이 전 세계의 지식 처리, 행정 자동화, 산업 워크플로우를 재정의하게 될 것이다. 우리는 이 변곡점을 누구보다 먼저 목격했고, OCR이라는 이름에 가려진 새로운 일반시각지능을 만들어가고 있다.