brunch

OCR 텍스트 추출은 사진 속 글자를 어떻게 인식할까?

AI 기반 객체 탐지 기술과 OCR 문자 인식 기술이 결합된다면?

by 아이나비시스템즈
맵스플랫폼 사업팀_브런치 (35).png OCR 텍스트 추출, OCR 문자 인식, OCR 사이트, 이미지 텍스트 추출

Ep.35


시작하며


최근 몇 년간 영상 기반 데이터 활용 기술은 눈부신 발전을 이루고 있으며, 그 중심에는 이미지 속 정보를 자동으로 해석하는 AI 기술이 자리하고 있습니다. 특히 OCR(Optical Character Recognition, 광학 문자 인식)은 단순한 문자 인식을 넘어, 다양한 환경에서 의미 있는 텍스트 정보를 추출하는 핵심 기술로 자리매김하고 있습니다.


이러한 OCR 텍스트 추출 기술은 단독으로도 강력하지만, 도로·교통 분야에서는 다른 AI 기술과 결합될 때 더욱 높은 가치를 발휘합니다. 예를 들어, AI 기반 객체 탐지 기술과 OCR이 결합되면, 단순히 “무엇이 보이는가?”를 넘어서 “무엇이 쓰여 있는가?” 까지 파악하는 정교한 분석이 가능해집니다. 이는 교통 정보의 신뢰도를 높이고, 서비스 고도화에 직접적인 도움을 주는 중요한 변화입니다.


오늘은 이러한 OCR 기술의 기본 개념부터 실제 도로 교통 분야에서 어떻게 활용되고 있는지까지, 그 전체 흐름을 소개해 드리겠습니다.

Group 1000011074.png

OCR 텍스트 추출 기술이란?


OCR은 이미지나 스캔 문서 속의 글자를 인식하여 컴퓨터가 읽을 수 있는 텍스트 데이터로 변환하는 기술입니다. 대부분의 OCR 모델들은 아래의 [자료 1]처럼 분석 대상 이미지에서 텍스트를 탐지하고 탐지된 텍스트를 인식하여 결과를 출력하는 3단계의 과정을 통해 모델이 결과를 생성합니다.

image1.png [자료 1. OCR 텍스트 추출 프로세스]

최근의 OCR 텍스트 추출 기술은 단순히 글자를 읽는 것을 넘어, [문자 검출(Detection) → 문자 인식(Recognition) → 후처리(Post-processing)]로 이어지는 형태로 발전하고 있습니다. 기존의 OCR이 문서 스캔용 흑백 이미지에 한정되었다면, 지금의 OCR은 도로 표지판, 스마트폰 사진, 동영상 프레임, 심지어 손 글씨나 노이즈가 많은 환경에서도 안정적으로 문자 인식을 할 수 있도록 고도화되고 있습니다.

image2.png [자료 2. OCR 적용 사례: 자동출입국 심사(좌) 차량 번호판 인식(우)]

그렇다면 주변에서 찾아볼 수 있는 적용 사례로는 어떤 것들이 있을까요? 생각보다 가까운 곳에서 OCR 문자 인식 기술를 활용해 이미지 텍스트 추출이 이루어지는 사례를 찾을 수 있습니다.


첫 번째로, 공항의 출입국 심사대에서 여권의 기계판독영역(Machine Readable Zone)을 OCR 기술로 인식하여 인적 정보를 자동으로 추출할 수 있습니다. 두 번째로, 주차장을 이용할 때 차량의 번호판을 인식하여 차량의 출입을 자동으로 기록하는 경우가 있습니다. 이렇듯 OCR 기술은 우리의 삶에 밀접하게 적용되어 보다 편리한 생활을 가능하도록 도움을 주고 있습니다.



OCR 모델의 이미지 텍스트 추출 원리


OCR 모델은 크게 두 단계의 모델로 구성되어 있습니다. 보통 이를 “Detection(탐지)” 단계와 “Recognition(인식)” 단계라고 부르고 있습니다. OCR은 이미지를 입력으로 받아 그 안의 문자 영역을 찾아내고, 이후 그 영역 안의 텍스트 내용을 해석하는 과정을 거칩니다. 즉, 사람의 시각적 인식 과정을 기계적으로 모방한 형태라고 할 수 있습니다.


두 단계의 모델은 독립적으로 동작하며, 탐지 모델이 출력한 결과를 인식 모델이 입력으로 받아 최종적으로 텍스트를 추출하는 방식으로 작동합니다. 아래의 [자료 3]을 통해서 OCR 모델의 예시를 살펴보겠습니다.

image3.png [자료 3. OCR 텍스트 추출 예시]

첫 번째 단계로, 탐지 단계에서는 대상 이미지에서 텍스트가 포함된 위치를 탐색합니다. 텍스트 탐지 모델은 이미지의 픽셀 패턴을 분석하여 글자가 포함된 부분을 좌표 형태로 식별합니다. 이 단계의 결과는 “어디에 글자가 있는가?”를 나타내는 위치 정보이며, 다음 단계에 해당하는 인식 모델이 처리할 영역을 지정하는 역할을 수행합니다. 위의 [자료 3]의 녹색 박스의 영역을 통해 그 결과를 확인할 수 있습니다.


두 번째 단계로, 인식 단계에서는 탐지 모델이 찾은 좌표 영역을 입력으로 받아, 각 영역 안에 포함된 글자 이미지를 실제 문자 시퀀스로 변환하는 역할을 합니다. 인식 모델은 이미지 내 픽셀 패턴을 분석하고, 이를 문자 단위의 시퀀스로 해석하여 사람이 읽을 수 있는 텍스트로 변환하는 작업을 수행합니다. 즉, 이 단계에서는 “무엇이 적혀 있는가?”를 판단하는 역할을 수행하며, [자료 3]의 빨간색 박스의 인식 결과를 통해 확인할 수 있습니다.



OCR 모델 종류 (Tesseract OCR, Paddle OCR 등)


위와 같은 기능을 수행하는 OCR 모델 중에서 가장 일반적으로 사용이 되는 모델의 목록은 아래의 [자료 4] 와 같습니다.

image4.png [자료 4. OCR 모델의 종류]

첫 번째로, Tesseract OCR은 오픈소스로 제공되는 대표적인 OCR 모델입니다. 문서형 이미지나 스캔된 PDF 등 인쇄체 텍스트 인식에 강점을 가지며, 다양한 언어 모델을 지원합니다. 다만 자연 이미지나 복잡한 배경에서는 인식률이 낮고, 딥러닝 기반의 최신 모델에 비해 처리 속도와 유연성이 떨어진다는 한계가 있습니다.


두 번째로, Easy OCR은 PyTorch 기반으로 개발된 오픈소스 OCR 모델로 간단한 설치와 직관적인 사용법 덕분에 널리 활용되고 있습니다. 80개 이상의 언어를 지원하며, GPU 가속을 통한 빠른 처리 속도가 장점입니다. 다만, 구조가 비교적 단순하여 인식 정확도는 최신 상용 OCR 엔진이나 Paddle OCR에 비해 다소 낮은 편입니다.


세 번째로, Paddle OCR은 중국 Baidu에서 개발한 고성능 오픈소스 OCR 모델입니다. 특히 한국어, 일본어 등 다국어에 최적화된 모델 구성이 강점입니다. Paddle OCR은 사용자가 직접 학습 데이터를 추가하여 Fine-tuning이 가능하다는 점에서 활용도가 높습니다. 다만 초기 세팅이 다소 복잡하고, 모델 선택에 따라 성능 편차가 존재할 수 있습니다.


네 번째로, Clova OCR은 네이버 클라우드에서 제공하는 상용 OCR 모델로 대한민국의 서비스인만큼 한국어 환경에 최적화된 인식 성능을 자랑합니다. 하지만, 오픈소스가 아닌 OCR API 과금형 서비스이므로 사용량에 따라 비용이 발생하며, 모델의 세부 구조나 학습 데이터에 접근할 수 없다는 점이 한계로 꼽힙니다.


마지막으로, Cloud Vision AI는 Google이 제공하는 인공지능 기반 OCR 모델로 전 세계 언어를 지원하며 인쇄체와 손글씨 모두 높은 문자 인식률을 보입니다. OCR뿐만 아니라 이미지 분류, 객체 탐지, 라벨링 등 다양한 시각 인식 기능을 통합 제공하며, 특히 영문 인식 성능이 매우 뛰어나 글로벌 서비스에서 자주 활용됩니다. 다만 NAVER Clova OCR과 마찬가지로 API 형태로만 제공되어 로컬 환경에서 직접 커스터마이징은 어렵고, 사용량에 따른 과금 체계를 적용한다는 점이 특징입니다.


도로 교통 분야에서의 OCR 활용법


그렇다면 아이나비시스템즈에서는 OCR을 어떻게 활용하고 있을까요? 현재 Dynamic팀에서는 OCR을 도로교통 분야에 적용해 회사의 서비스 고도화에 도움이 되고자 다양한 기술을 개발하는 중입니다. 대표적 사례 두 가지를 소개해 드리겠습니다.

첫 번째는 도로 교통 표지판 객체 탐지에 OCR을 적용하는 방안입니다. 도로 교통 표지판은 그 형태나 색상만으로도 일정한 의미를 전달하지만, 일부 표지판은 내부에 표시된 텍스트 정보와 함께 의미가 완성되기도 합니다. 예를 들어, ‘최고속도제한’ 표지판이나 ‘차높이제한’ 등의 표지판처럼 표지판 내부에 표시된 숫자가 제한 값을 구체적으로 설명하는 경우가 이에 해당합니다.

image5.png [자료 5. OCR 적용사례: 도로 교통 표지판]

위 이미지를 살펴보면, 먼저 딥러닝 기반 객체 탐지 모델인 YOLO(You Only Look Once)를 활용하여 표지판 객체의 위치와 종류를 탐지하고, 탐지된 영역 내부의 텍스트는 OCR을 통해 인식하는 절차로 분석이 이루어집니다.


단순히 객체 탐지 모델을 적용하는 1단계만으로 모든 정보를 식별할 수 있을 것처럼 보이지만, YOLO는 객체의 위치와 종류를 탐지하는 데 특화된 모델로 문자와 같은 세밀한 형태의 인식을 수행하기에는 한계가 있습니다. 따라서 텍스트 정보를 정확히 추출하기 위해서는 OCR 모델을 함께 결합하는 것이 필요합니다. 이처럼 딥러닝 기반 객체 탐지(YOLO)와 OCR을 통한 텍스트 인식을 결합하면, 표지판이 발견된 이미지상에서의 위치와 그 안의 문구를 동시에 파악할 수 있어 더 완성도 높은 결과물을 얻을 수 있습니다.

image6.png [자료 6. OCR 적용 사례: 고속도로 CCTV]

두 번째는 실시간 고속도로 CCTV 영상에 OCR을 적용하여 정확한 방면 정보를 추출하는 기술입니다. 고속도로 CCTV는 지점별 교통 정보를 수집하기 위한 목적으로 설치되어 있으며, 회전 기능을 갖추고 있어 촬영 방향이 수시로 변경됩니다. 따라서 CCTV 영상 속 교통 흐름을 분석 데이터로 활용하기 위해서는, 현재 카메라가 어느 방면을 촬영하고 있는지에 대한 정확한 정보가 필수적이었습니다.


다행히 고속도로 CCTV는 화면 내 자막을 통해 방면 정보를 제공하고 있었고, 이를 기반으로 실시간 API 영상과 OCR을 결합한 상∙하행 모니터링 시스템을 개발하게 되었습니다. 그 결과, [자료 6]과 같이 카메라의 회전 여부와 관계없이 영상 속 실제 방면 정보를 정확하게 인식 수집할 수 있는 기술을 확보할 수 있었습니다.


Group 1000011075.png

마치며


AI 기술이 산업 전반의 패러다임을 바꾸고 있는 현시대에서, 딥러닝을 비롯한 첨단 기술의 도입은 기업 경쟁력 확보의 핵심 요소가 되고 있습니다. 우리 아이나비시스템즈 또한 이러한 변화에 능동적으로 대응하기 위해 AI를 활용한 서비스 고도화와 업무 혁신을 위해 지속적인 연구를 진행하고 있습니다. 앞으로도 이어져갈 다양한 연구에 많은 관심과 응원 부탁드리겠습니다.


by 아이나비시스템즈 Dynamic팀 김상우 주임

배너시안_2.png

정교한 OCR 기술처럼, 더 정교한 지도 솔루션 iMPS로 서비스를 구현해 보세요.


#OCR텍스트추출 #OCR Text Extraction #OCR API #Computer Vision #YOLO Object Detection #Deep Learning #OCR사이트 #OCR문자인식 #Image Text Extraction #OCR ai #이미지텍스트추출 #Tesseract ocr #Paddle ocr #Easy ocr #Clova ocr #Cloud Vision AI #OCR pdf #OCR 프로그램 #아이나비 #아이나비시스템즈 #아이나비지도 #아이나비내비게이션 #지도

keyword
작가의 이전글AI Agent와 내비게이션 결합:인간중심 이동 지능화