배경
아니 왜 이걸 손으로 한 땀 한 땀 하고 있어요?
이거 고객이 보낸 PDF 이미지인데, 보이는 테이블에서 자동으로 텍스트 추출해서 엑셀시트로 변환가능할까요?
그럼요. 당연히 가능하죠! 안 되는 건 없어요.
비용과 시간의 문제만 있는 거죠 ㅎㅎ
실제 회사에서 상황이 발생했습니다. 의외로 아직 많은 분들이 내가 하고 있는 일이 더 쉽고 빠르게 자동화할 수 있다는 생각조차 하지 않고 무지성으로, 해온 대로 노가다를 반복하고 있죠. 이번에도 그런 상황이었습니다.
원하는 자동화
고객이 보낸 PDF 이미지 내 테이블 텍스트를 읽어서 원하는 엑셀 파일로 전달받고 싶어 했다.
WORKFLOW 설계
1. Form 제출 - 대상파일, 결과물 전달받을 이메일
2. form trigger 작동
3. 임시 업로드 및 url 추출
4. 페이지별 분할
5. 한 페이지씩 순회하며, 페이지 AI 인식 및 텍스트 추출
6. 결과 값파싱
7. 엑셀 파일 생성
8. 엑셀 파일 이메일 송부
후기
정보의 형식 변환은 굉장히 광범위적이고 범용적인 요구사항이자 시장일 것이다. 하나의 동일한 데이터라도 관리주체인 조직이 선택한 형식의 불일치는 언제 어디서든 빈번하게 일어나기 때문이다.
역시 n8n으로 작업했는데, 한글, 표라는 특수성이 생각보다 신뢰도 있는 결과물을 도출하도록 설계하는 게 시행착오와 시간이 좀 걸렸다.
OCR 기술 자체가 불완전한 기술이고, 이를 AI 프롬프트와 잘 조합해서 최적화하는 게 키포인트였다.
시중에 일정 비용을 내고 사용가능한 패키징 상품이 있었지만 한글 인식에서 아주 취약했다.
아무튼 즐거웠다. 이번에도 하나 배워서~!!