구글보다 정확한 한국어 OCR을 만드는 법

한국딥러닝의 진짜 엔지니어링

by PH

Feb 26. 2026

한국딥러닝(주) AI 기술로 세상을 변화시키다

들어가며: 구글도 못 푸는 문제를 우리가 풀 수 있을까?

전 세계 테크 자이언트 구글. 그들이 만든 Vision AI는 가히 압도적입니다. 하지만 대한민국 기업의 실제 비즈니스 현장에 들어가면 이야기가 달라집니다. 수직으로 정렬된 표, 흐릿한 인감도장 위에 겹쳐진 글자, 그리고 한국어 특유의 복잡한 구조까지.

많은 기업이 구글 API를 쓰다가 결국 고개를 저으며 우리를 찾아옵니다. "한국딥러닝은 이 데이터를 읽을 수 있나요?"

우리는 대답 대신 아키텍처로 증명합니다.

오늘은 한국딥러닝(KDL)이 어떻게 경쟁력 높은 한국어 DEEP OCR를 구축했는지,

그 뒤에 숨겨진 엔지니어링 철학을 공유하려 합니다.

단순한 글자 인식을 넘어 문맥을 읽다: Vision-to-Graph

기존의 일반적인 OCR은 문서를 마치 퍼즐 조각처럼 하나씩 잘라내어 읽는 방식(Segmentation-based)을 사용합니다. 하지만 이 방식은 치명적인 약점이 있습니다. 글자는 정확히 읽을지 몰라도, 그 글자가 문서 안에서 어떤 역할을 하는지 알지 못한다는 점입니다. 예를 들어 보험금 청구서나 재무제표처럼 복잡한 표가 얽힌

문서에서 각 항목의 숫자와 제목을 매칭하지 못하고 엉뚱한 칸의 데이터를 읽어버리는 식입니다.

한국딥러닝은 이 문제를 해결하기 위해 문서 전체를 하나의 유기적인 지도로 바라보는 Vision-to-Graph 기술을 도입했습니다. 우리는 문서 안에 존재하는 모든 텍스트 조각, 표의 선, 심지어 빈 공간까지도 하나의 노드(Node)로 정의합니다. 그리고 이 노드들 사이의 수많은 연결 고리를 분석하는 그래프 신경망(Graph Neural Networks, GNN)을 통해 문서의 논리적 구조를 파악합니다.

가장 대표적인 해결 사례는 표 내부의 복잡한 계층 구조입니다. 여러 개의 셀이 병합되어 있거나, 항목이 상하좌우로 겹쳐진 비정형 표에서 기존 OCR은 텍스트를 단순 나열하여 데이터가 뒤섞이는 현상이 빈번했습니다. 하지만 한국딥러닝의 모델은 각 텍스트 간의 기하학적 거리와 시각적 관계를 학습합니다. 이 단어가 어떤 선 위에 있는지, 옆에 있는 숫자와는 어떤 간격을 유지하고 있는지를 분석하여 단순한 텍스트 뭉치가 아닌 의미적 묶음으로 데이터를 구조화하는 것입니다.

결과적으로 사용자는 단순히 글자가 추출된 텍스트 파일이 아니라, 완벽하게 정제된 엑셀이나 JSON 형태의 구조화된 데이터를 얻게 됩니다. 사람이 눈으로 문서를 훑으며 "이 숫자는 이 항목의 값이다"라고 판단하는 인지 과정을 AI가 그대로 재현해낸 셈입니다. 이러한 구조적 이해 능력이야말로 KDL이 복잡한 기업용 도큐먼트 처리 시장에서 독보적인 경쟁력을 갖는 이유입니다.

kdl_deepagent_architecture_260130_.drawio (2)_page-0001.jpg

한국딥러닝 딥에이전트 아키텍처

한국어의 미묘한 획을 살리는 딥러닝 최적화

한국어는 조합형 문자

한글은 자음과 모음이 상하좌우로 결합하는 복잡한 조합형 구조를 가집니다. 예를 들어, 저화질 스캔본에서 ㄹ의 가운데 가로획이 미세하게 끊어지면 인공지능은 이를 ㄷ과 ㅡ의 결합으로 오인하거나, 획이 뭉쳐버린 ㅌ과 구별하지 못하는 경우가 허다합니다. 또한 곡선이 마모된 ㅇ이 각진 ㅁ으로 인식되거나, 글자와 도장 인감이 겹쳐져 ㅎ의 상단 점이 사라지는 등 한국어 특유의 노이즈 패턴은 글로벌 범용 모델이 해결하기 가장 까다로운 지점입니다.

우리는 이 문제를 획 단위의 집중으로 풀었습니다. 한국딥러닝은 Attention Mechanism 기반의 디코더를 한국어의 11,172자 조합 특성에 맞춰 커스텀 설계했습니다. 모델이 글자 전체를 단순히 훑는 것이 아니라, 획과 획이 만나는 접점이나 굴곡진 에지(Edge) 부분의 특징값을 추출하는 데 가중치를 두도록 학습시킨 것입니다.

특히 팩스 송신으로 인해 노이즈가 심한 문서나, 오래된 종이의 질감이 그대로 드러난 스캔 데이터에서도 글자의 골격만을 정교하게 추출해 내는 독자적 전처리 레이어를 아키텍처 전면에 배치했습니다. 단순히 이미지를 깨끗하게 만드는 수준을 넘어, 깨진 획을 복원하고 글자의 외곽선을 선명하게 살려내는 일종의 디지털 복원 과정을 거치는 셈입니다.

이러한 집요한 최적화 덕분에, 복잡한 표와 수기 서명이 뒤섞인 실제 금융권 서류 테스트에서 글로벌 클라우드 비전 대비 한국어 인식 정확도를 15% 이상 끌어올리며 압도적인 성능 우위를 증명할 수 있었습니다. (자체 벤치마크 테스트 기준)

든든한 GPU 환경이 만든 압도적 실험 속도: 개발자의 시간은 GPU보다 비싸다

기술적 성취 뒤에는 한국딥러닝만의 독특한 개발 문화가 있습니다. 우리는 엔지니어가 모델의 가설을 검증하는 과정에서 '연산 자원 부족'이나 '대기 시간' 때문에 흐름이 끊기는 것을 가장 경계합니다. 개발자의 몰입이 깨지는 순간이 곧 회사의 손실이라고 믿기 때문입니다.

NVIDIA DGX B200: AI 팩토리를 위한 기반

이를 위해 한국딥러닝은 엔지니어링 팀에 파격적인 인프라를 제공합니다. 최신 블랙웰 아키텍처 기반의 NVIDIA DGX B200 시스템을 비롯해, 수많은 A100 서버군을 현업에 즉시 투입하고 있습니다. 이는 단순히 좋은 장비를 보유하고 있다는 자랑이 아닙니다. 공유 GPU 서버에서 자기 차례를 기다리며 슬랙 메시지만 확인하는 무의미한 대기 시간을 0에 수렴하게 만들겠다는 의지입니다.

이러한 전폭적인 지원은 Real-World Data를 다룰 때 비로소 진가를 발휘합니다. 우리는 연구실의 정제된 데이터가 아닌, 공공기관과 금융권에서 쏟아지는 수만 건의 실제 Dirty Data를 다룹니다. 노이즈가 심하고 복잡한 비정형 데이터를 학습시켜 모델의 맷집을 키우려면 압도적인 연산 능력이 필수적입니다.

남들이 리소스 최적화에 매몰되어 실험 횟수를 줄일 때, 한국딥러닝의 개발자들은 수십 가지의 파라미터를 동시에 테스트하며 가장 완벽한 해답을 남들보다 빠르게 찾아냅니다.

이러한 환경 덕분에 우리는 논문 속의 박제된 이론이 아니라, 현장의 거친 데이터 속에서도 즉각적으로 작동하는 살아있는 알고리즘을 만들 수 있었습니다. 풍부한 자원 위에서 마음껏 가설을 던지고, 빠르게 실패하며, 더 크게 성공하고 싶은 엔지니어들에게 이곳은 가장 매력적인 놀이터가 될 것입니다.

마치며: 우리는 가장 어려운 문제를 푸는 사람들입니다

누구나 API를 가져다 쓸 수는 있습니다. 하지만 그 API가 해결하지 못하는 1%의 오차 때문에 비즈니스가 멈춘다면, 그 문제를 해결하는 것은 결국 엔지니어의 집요함입니다.

한국딥러닝은 구글이라는 거인의 어깨 위에 올라타는 것에 만족하지 않습니다. 거인이 보지 못하는 한국어 데이터의 디테일을 가장 잘 이해하고 해결하는 팀, 그것이 우리가 정의하는 기술 리더십입니다.

세상의 모든 문서를 데이터로 바꾸는 여정, 우리와 함께하시겠습니까?
https://welcomekdl.oopy.io/

#OCR #인공지능 #개발자성장 #한국딥러닝 #기술블로그 #AI엔지니어링

keyword

매거진의 이전글왜 지금 한국딥러닝인가개발자의 시간은 GPU보다 비싸다매거진의 다음글