옛날 책을 e-book으로 보고 싶었을 뿐이다.
e-pub파일을 만들기 위한 재료
무엇보다 가장 중요한 것은 텍스트. 책이란 무엇인가라는 정의를 먼저 내려보고자 했다. 책은 먼저 내용과 형식으로 나눌 수 있다. 지금 중요한 것은 '형식'이다. 인류의 지적 유산이나 철학, 깊은 성찰이 담긴 내용은 일단 무시하기로 했다. 책을 물리적으로 분리해 본다면 종이와 잉크, 포맷으로 구분해 본다면 표지, 목차, 내용. 구성요소로 나누면 글자, 이미지, 여백. 지금 필요한 것은 글(text)과 이미지다.
종이책에서 어떻게 디지털 파일로 된 '글(text)'와 '이미지'를 추출해 낼 수 있을까? 스캔이란 작업 자체가 아날로그(종이)를 디지털(파일)로 바꿔주는 것이다. 디지털 파일은 바로 '이미지 파일'을 의미한다. 이 이미지들을 하나의 파일 형식으로 묶은 것이 PDF. 그럼 이미지 추출은 이미 가능하다는 의미다. 북스캔을 함과 동시에 이미지 파일은 확보됐다. 이제 텍스트를 추출하면 된다. 고맙게도 기술자들이 만들어 놨다. 기술을 모르는 현대인은 고마운 마음을 표하며 잘 이용하면 된다. 앞에서 얘기했던 북스캔 업체의 옵션 중에 두 가지를 설명할 때가 되었다.
정확히 레티나가 의미하는 바는 모른다. 그냥 편하게 받아들이면, '레티나' 옵션을 주면 글씨가 더 또렷하게 스캔이 된다. '또렷'이란 말이 중요하다. OCR을 위한 든든한 우군이기 때문이다. 옛날 책일수록 '레티나'옵션을 주는 것이 텍스트 추출에 유리하다. 그러니 옛날 책이라면 진지하게 옵션 선택을 고민해 볼 만하다. 옛날 책일수록 폰트가 읽기 편하지 않았고, 인쇄용지나 품질이 좋지 않았기 때문에 번진 글자처럼 보인다. 흔하게 사용하는 스마트폰 사진 보정 기능 중 '선명하게'라는 것과 비슷한 것이라 생각하면 된다.
OCR은 중요한 단어라 검색해 봤다. Optical character reader/recognition. 역시 어렵다. 한국말로 해석한 뜻도 '광학적 문자 판독장치'라는 어려운 말이다. 종이에 쓰인 글자를 텍스트(디지털 파일)로 바꿔주는 것. 또 다른 말로 '텍스트 추출기'라고 생각하면 무리 없을 것 같다. OCR은 이미지에 쓰인 문자들을 판독한 후에 텍스트로 바꿔준다. PDF 파일에 OCR을 적용하면 PDF 파일에 쓰인 글자들을 복사할 수 있게 된다. 원하는 부분을 마우스로 주욱 긁은 후 복사해서 다른 곳에 붙여 넣기 할 수 있다. 그러면 내가 눈으로 봤던 글자 이미지들이 디지털 텍스트로 빨려 나온다. 보통 OCR을 적용할 때는 '입힌다'는 표현을 쓴다. 왜냐하면, 먼저 아날로그 종이를 디지털 이미지로 만든 다음에 디지털 이미지 위에 OCR로 뽑아낸 텍스트를 덧 씌우기 때문이다. 옛날에는 OCR 기능 자체가 널리 퍼지지 않아 활용하기 어려운 기술이었으나 요즘은 스마트폰 app에서도 지원할 정도로 범용적인 기술이다. 나중에 텍스트를 별도로 추출해서 사용할 생각이 있다면 북스캔 할 때 꼭 OCR옵션을 선택해야 한다.
다행히 북스캔 할 때 OCR옵션과 레티나 옵션을 추가했다. 스스로의 결정에 칭찬을 해줬다. PDF 파일을 열고 텍스트를 뽑아내 봤다.
위쪽이 책을 스캔한 그대로의 이미지이고, 아래쪽은 위의 이미지에서 긁어낸 텍스트다.
OCR의 기술력이란! 한자까지 읽어냈다. 100%는 아니지만 상당한 글자를 다 읽어냈다. 100%가 아닌 비율이 아쉽다. 일부 잘못된 글자를 인간지능으로 교정하며 읽기에는 부족하다. 인식률을 높이려면 OCR 프로그램을 정교하게 발전시켜야 할터인데 기술 업그레이드는 전문가의 영역이다. 기술 전문가만 필요한 것이 아니라 기술을 발전시키는 동안 돈을 벌어야 한다. 기술을 사업화는 사람도 필요하다. 우리나라에서는 현재 기대하기 쉽지 않다. OCR도 사람과 비슷하게 언어별로 인식률이 달라진다. 영어기반 프로그램이라면 영어를 아주 잘 인식하겠지만, 한글의 인식률은 좀 더 떨어진다. 우리나라에서 OCR을 개발했을 리 없고 영어기반의 프로그램을 한글에 맞게 고쳤을 테니 아무래도 한글은 좀 더 인식률이 낮다. 그리고 OCR을 쓰는 사람이 아주 많지 않을 테니 누군가 돈 들여서 발전시켰을 가능성도 낮다.
두 가지의 문제점이 더 있다. 옛날 책은 '한자'가 간간히 포함된다. 우리나라 글자도 잘 못 읽는데 복잡한 한자를 제대로 읽기는 어려울 것이다. 한자를 잘 읽으려면 중국이나 일본에서 만든 OCR 프로그램이 더 나을 것이다.
또한, 옛날 폰트는 조악하다. 인쇄술이 그만큼 떨어지는 수준이기도 하고, 알다시피 우리나라에서 폰트에 관심 가진 것이 오래되지 않았다. 그래서 또 인식률이 낮아진다. 종이가 오래되면서 글자가 뭉개지기도 한다. 이래저래 옛날 책은 인식률이 떨어질 수밖에 없다. 결국 정리하면 100개의 텍스트 중에 약 70개의 텍스트는 확보할 수 있지만 30개의 텍스트는 알 수 없다는 뜻이다.
100% 인식할 OCR이 없다고 한탄만 할 수는 없다. 잘못한 대통령도 추운 겨울에 촛불 하나 들고 수백만의 사람이 모아 내려오게 만든 나라의 당당한 국민이다. 나에게는 비록 노후하였으나 엄연히 글씨를 판독할 눈과 한자를 찾아낼 지식과 수정할 손가락의 힘이 있으니 어찌 좌절하리오. 내 직접 수정하며 만들어 낼터요! 인간의 땀과 혼이 담긴 텍스트 파일을 만들어 낼 용감한 여정이 시작된다.