brunch

You can make anything
by writing

C.S.Lewis

by 팟캐김 Aug 21. 2024

스캔된 PDF 를 OCR로 분석했던 체험기

AI가 아무리 발전해도 최종 관리감독자는 결국 인간


한참을 헤맸다. 인공지능(AI)이 온갖 외국어를 번역해주고 사진 속 텍스트까지 해석해주는데, 그깟 PDF 해독(?)이 대수냐고 생각했다. 방대한 양이라고 해도 AI가 요약도 해주고 필요한 내용도 쏙쏙 뽑아줄 것이라고 생각했다.


이런 기대가 일정 부분 사실이긴 하나, 인간 노가다 영역은 여전히 남아 있었다. AI 덕분에 일의 효율성이 높아졌고, 단순 작업에 들이는 시간이 줄어들었다고 하지만, 최종 감수자는 인간이어야 했다. 전적으로 AI를 믿기에는 아직은 무리였다.


1. 수백 페이지 PDF 분석을 시작하다


지난 두달여 동안 수백 페이지에 달하는 PDF 파일 뭉치를 갖고 씨름했다. 민주연구원과 여의도연구원 회계보고서 자료인데, 2018년부터 2023년 그리고 2024년 4월까지 자료가 있다보니 PDF 파일 수만 20개가 넘었다. 22개 정도였던가.


한 PDF마다 적게는 40페이지, 많게는 200페이지가 넘었다. PDF 파일 한 개당 60페이지로 놓고 계산해도 총 페이지 수는 1500여페이지가 될 것으로 여겨졌다. 물론 이 파일 전부를 해석하고 데이터를 뽑아 정렬할 필요는 없었다. 그럴 여력과 시간이 없었다. 눈 아프게 PDF 숫자와 텍스트를 한땀한땀 엑셀 파일로 옮겨가는 과정도 정말 하기 싫었다.



여러 일에 파묻혀 시간을 보내면서 종종 PDF 파일을 열어봤다. 이들 연구원들이 돈을 쓴 항목 등을 보면서 익숙해지려고 노력했다. 차마 손을 못대고 있었던 것은 PDF에 쓰여진 방대한 정보 양이었다. 인간 개인의 힘으로 이를 다 옮길 엄두가 나지 않았다.


누군가는 이렇게 조언할 것이다. ‘PDF 리더 프로그램이 흔한데 워드나 엑셀로 변환해주면 되지 않냐’고. 맞는 말이다. 실제 우리는 일상 생활에서 워드나 파워포인트를 PDF로 변환해서 공유하곤 하니까. 역으로 이렇게 만들어진 PDF를 한PDF나 애크로뱃리더 등을 통해 워드나 엑셀로 바꿔보기도 한다.


그러나 내가 확보한 PDF 파일은 이런 ‘게임의 룰’을 벗어났다는 데 있다. 무슨 의도인지 모르겠으나, 출력된 문서를 다시 스캔해서 PDF로 만들었다. 웬만한 PDF리더는 이를 읽지를 못했다. 이미지로 인식한다는 의미다.


한 두페이지 정도의 분량이라면, 백번 양보해서 수십 페이지 정도 된다고 하면 ‘우공이산’(어리석은 노인이 산을 옮긴다)의 심정으로 도전해볼 수 있다. 무엇을? 스캔된 PDF 속 활자를 키보드로 일일이 쳐서 옮기는 일이다. 그런데 상대는 수백 페이지가 넘는 이미지 PDF다! 그 페이지마다 적어도 20개의 줄로 이뤄진 표가 꽉꽉 채워져 있다.  그냥 보는 것도 눈 아픈데, 그것을 일일이 옮기라는 것은 시간 낭비요, 재능 낭비라고 여겼다.


2. 이 바보야 OCR이 있잖아


결정적인 마음의 변화가 생긴 것은 새 스마트폰을 산 이후였다. 갤럭시S24를 새롭게 구입했는데, 이 스마트폰에는 OCR 기능이 탑재되어 있었다. 사진을 찍으면 그 문자를 해독해주는 기능이다.


잠깐 OCR이라는 기능을 설명하자면 직역하면 ‘광학문자인식’이다. Optical Character Recognition 라고 하는데 이미지화된 글자를 읽는 기술이다. 컴퓨터가 키보드로 입력된 텍스트 뿐만 아니라 이미지, 사진, 종이 위에 그림처럼 그려진 텍스트도 읽고 해석하는 것이다. 이며 10여년전부터 구글 등에서 이런 기능을 가진 제품을 출시했다.



이 스마트폰을 쓰면서 OCR 기능을 새삼 떠올릴 수가 있었다. ‘인공지능 시대에 PDF 속 활자를 일일이 손으로 쳐 컴퓨터에 옮길 생각을 하고 있었다니…’


최근 이 OCR 기능은 질적으로 많이 향상됐다. 누적학습이 되는 딥러닝의 결과라고 생각이 든다. 수 억개의 이미지 파일을 보면서 학습하다보니 자연스럽게 정확성 또한 높아졌으리라.


그날로 이미지 OCR 기능을 제공하는 서비스나 프로그램을 찾았다. 이미 상용화, 대중화된 AI서비스이기에 쉽게 찾을 수 있을 것이라고 여겼다. 구글 검색을 하니 여러 OCR이 올라오긴 했다. 그중에서도 PDF 파일을 해석해주는 OCR 프로그램을 찾았다.


내가 원하는 기능은 이랬다. 첫번째는 이미지파일 속의 텍스트 인식. 두번째는 이를 엑셀로 변환. 엑셀로만 변환이 되면 이후 엑셀 내 ‘정렬’ 기능을 사용해 유의미한 해석을 할 수 있을 것이라고 봤다.


부푼 기대를 안고 실행해본 첫 프로그램은 아크로뱃리더프로였다. 아크로뱃리더 하면 바로 PDF를 만들어낸 장본인 아니던가. 일주일간 무료 체험 기회를 주고 한달에 2만원 정도의 구독료를 받는 형식이었다. 포토샵 구독료로 매월 4만원 이상 뜯어간다는 어도비 놈들의 제품이었다.


이놈들도 OCR 기능을 제공했다. 스캔된 이미지로 만들어진 PDF도 텍스트로 변환하고 워드나 엑셀로 만들어준다고 했다. 이를 믿고, 어도비 회원가입을 하고 무료 체험을 시작했다.


그러나 웬걸. 파일 중 하나를 맡겨봤는데 기대에 못미쳤다. 못 미치는 것을 떠나 이미지 속 텍스트 인식률이 매우 떨어졌다. 한 두장의 PDF 처리는 가능할지 몰라도 수십페이지나 되는 스캔된 이미지의 PDF를 인식, 변환하는 것은 무리였다. 변환은 커녕 앞서 썼던 보통의 PDF리더와 다를 게 없었다.


3. 실제 OCR로 스캔된 PDF 변환하기


그 다음 구글 검색 목록에 있는 게 UPDF라는 프로그램이었다. 처음 들어보는 PDF 리더, 변환 프로그램이었다. 유튜브에 올라온 리뷰 영상에서도 꽤 쓸만한 것으로 보였다. 1년 구독료가 5만원돈이고, 챗GPT 기반 텍스트 분석 기능도 제공했다. PDF파일을 변환하고 이를 요약하고 필요한 내용을 발췌해주는 기능이다. 평소 많은 양의 PDF를 읽어야 하는 사람들에게 나름 괜찮을 수 있었다.


밑져야 본전일까… ‘밑져야 본전’이라는 심정으로 5만원을 결제했다. 구글 상위 검색에 올라와 있고 유튜브에 리뷰 영상도 있고 하니 최소한 ‘사기’는 아닐 것이라고 여겼다. 100GB PDF 보관 클라우드 서비스도 제공한다고 했다. 이걸 중심으로 맥, 윈도우, 안드로이드 등에서 동시 연동해 쓸 수도 있다고 했다.


(이미 구글드라이브, 아이클라우드를 유료로 쓰고 있고 원드라이브도 일부 쓰고 있어 더 이상 클라우드 스토리지는 필요가 없지만…)


결제를 하고 구동 프로그램을 깔았다. 화면이 이렇게 뜬다.


이중 PDF 파일을 하나 불러와서 띄우면 다양한 편집 아이콘이 뜨는 것을 볼 수 있다.


화면 일부를 보면 ‘내보내기’ 기능이 있다. 앞서 아크래봇리더에서 봤던 PDF 보내기 기능과 동일한 부분이다.  이 기능을 실행해서 워드와 엑셀로 보냈다. 달리 무슨 설명이 필요할까. 엑셀 파일로 변환되는 동안에 ‘이것이 나를 노가다의 늪에서 구해줄까’ 노심초사로 기다렸다. 몇 분여가 지났을까, 이미지파일이 그대로 엑셀파일로 옮겨져서 나오는 것을 봤다. 다시 말하면 텍스트 해석은 커녕 그냥 이미지 그대로 엑셀로 옮겨진 것이다.



아, 그때의 황망함이란… 결국 5만원 내고 사기를 당한 것일까… 노가다의 늪에서 빠져나오기 힘들다는 얘기인 것일까… OCR이 간단한 이미지 내 텍스트 해석이지 수백페이지에 이르는 스캔된 이미지 속 텍스트는 알아보지 못하는 것일까… 별별 생각을 다했다.


노가다를 다시 시작해야할 생각에 아득했다. 프로그램을 껐다 다시 켰는데, AI 대화창이 하나 더 생겼고, OCR이라고 하는 아이콘이 추가가 됐다. 다시 로딩이 되는 과정을 통해 새 아이콘이 생긴듯 했다.

오른쪽 측면 아이콘에 'OCR'이 생긴 것을 볼 수 있다. 이후 OCR 버전 PDF로 바꾸면 손쉽게 워드나 엑셀 파일로 변환이 된다.

그나마 다행이었다. OCR 기능을 활용할 수 있게 됐다. 이후에는 일사천리로 진행됐다. OCR버전으로 변환된 PDF 파일이 올라오면 AI와 요약 등의 기능을 쓸 수가 있었다. 220페이지가 넘는 스캔 PDF 파일도 몇 분 안걸려 OCR 버전으로 바뀐 PDF로 변환됐고, 이것을 곧장 엑셀이나 워드로 옮길 수 있었다.


다만 PDF 파일의 상태에 따라서 OCR의 인식률이 현저한 차이를 보였다. 활자가 크고 해상도 높게 스캔된 파일일 수록 인식률이 높았고, 그 반대일 수록 인식률이 낮았다. 전자의 경우에는 큰 어려움 없이 엑셀 정렬 등을 할 수 있었지만, 후자는 일일이 원본과 확인을 하면서 보정을 해줘야 했다.


개중에는 버그로 의심될만큼 오류가 있을 정도로 심각한 수준의 결과물도 있었다. 몇백장 중의 하나로 나타났지만 이럴 때마다 욕지거리가 목구멍까지 올라왔다.


이런 경우라면 어쩔 수 있나. 생노가다를 할 수 밖에 없다. 아무래도 영어 기반이다보니까 한국어로 변환하는 과정에서 버그가 나지 않는가 의심이 될 정도였다.


그래도 스캔 퀄리티가 괜찮고 활자가 컸던 문서는 거의 100%에 가까운 정확성을 보였다. 하지만 활자가 작은 스캔 PDF의 오인식률이 높았다.



5. AI가 내놓는 결과물, 그래도 확인은 해봐야


그래도 숫자를 하나하나 엑셀에 옮겨적지 않아도 된다는 위안을 가졌지만, 이것도 방심하면 금물이었다. 입력은 안하더라도 전체적으로 숫자 등을 확인해야하기 때문이다. 한 예로 문서 스캔 상황에 따라 콤마(,)와 마침표(.)를 구분하지 못하는 경우가 빈번하게 발생했다. 숫자에 이런 상황이 발생하면 매우 곤란한 상황이 일어날 수 있다.


한 예로 100,000 이라는 숫자가 있다고 치자. 십만인데, OCR 인식 도중 콤마가 마침표로 인식이 된다면 곤란한 상황이 발생한다. 100.000이 된다면, 이 숫자는 엑셀에서 100으로 읽힌다. 10만에서 100으로 1000분의 1로 줄어든다. 곤란한 경우가 발생할 수 밖에 없다.


결국은 OCR이 됐던 엑셀문서를 일일이 원본과 대조하면서 콤마와 마침표를 구분하고, 잘못 인식된 한글을 일일이 고쳐야 했다. 앞서 말했듯이 한글 활자가 작고 스캔 퀄리티가 떨어질 수록 인식률은 떨어질 수밖에 없다. OCR AI 덕분에 무식한 노가다는 면하게 됐지만, 결국 노가다를 피할 수 없다는 얘기다. 100시간 걸릴 게 10시간 걸리는 정도로 줄었다고나 할까.


밤새 이 오류를 고치고 수정하느라 시간을 보내야 했다. 한 문서의 경우 그 엑셀 행 수가 700개가 됐다. 손으로 일일이 적지 않아 다행이긴 했지만 일일이 대조하느라 눈알이 빠지는 줄 알았다. 최종 관리감독의 역할은 결국 인간이 할 수 밖에 없다는 점이다.


그래도 웬만한 스캔 이미지 OCR은 성공적으로 인식한다고 볼 수 있다. PDF로 작업할 일이 많은 이들에게는 꽤 유용할 수 있다.


6. 총평


10년전 유튜브에서 제공하던 자동자막이나 기계번역 품질이 ‘별로’였는데 최근 3~4년 사이 급속도로 좋아진 것을 알 수 있다. 딥러닝 기술이 보편화되고 여기에 쓰이는 데이터가 축적되고 컴퓨팅 비용이 저렴해진 데 있을 것이다. 확실히 어떤 임계점을 지나면 발전 속도가 폭발적으로 늘어나는 것을 알 수 있다. OCR 기술도 아마 그런 과정을 겪지 않을까 싶다.


아직은 ‘알아서 해석해주고 봐주는’ 정도의 수준은 안 온 것 같다. 물론 더 나은 서비스가 있는데 찾지 못 한 경우가 있는 이유도 있을 것이다. 그래도 일반 사용자가 쓰기에는 아직 넘지 못한 벽 같은 게 있어 보인다. 개인적인 의견일지라도.


혹, PDF 파일에 대한 요약, 압축을 하면서 OCR 기능을 사용해보고 싶다면 써도 꽤 괜찮은 프로그램이 UPDF라고 본다.


매거진의 이전글 아이패드 10세대를 샀다
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari