brunch

You can make anything
by writing

C.S.Lewis

by Vintage appMaker Mar 14. 2023

기대되는  AI 서비스 교육 #1 PDF 인식

개발자의 생각 #45


최근의 ai 제품군들은 검색, 문서작성, 요약을 대량으로 빠르게 할 수 있는 툴로써 유용한 것들이 많다. 특히 문서 요약기능을 탑재한 제품군들이 많이나오고 있는 데 대표적으로 chatPDF 같은 것이 있다. 


https://www.chatpdf.com/




일단 실행부터


1. 수비드 관련 문서를 다운로드 받는다.

https://foodcontrolplan.com/FoodAct/FCP/korean/8.4-sous_vide.pdf


2. 내용을 읽어본다. 

3. chatPDF에 업로드한다. 

4. 몇 개는 핵심적인 내용을 질문하고 몇개는 도표나 그림의 내용을 질문한다. 

"수비드 공법이란?", "가금류 고기는 60C이하에서 가공해도 되는가?, "60도 이하에서 가금류 고기를 제외한 육류시간은?" 같은 질문을 던졌을 경우 위와 같은 답변을 얻었다. 


일단, 텍스트 형태로 되어 있는 정보는 큰 오류가 없이 원하는 목적으로 요약이 되었다. 그러나 도표나 이미지 형태로 되어 있는 텍스트의 경우, 잘못된 정보를 표기했는데 이유는 OCR 인식의 문제라기 보다는 분과 숫자에 대한 해석의 근거가 부족했다는 점일 것이다. 


결론적으로 말해서 "pdf 요약"은 완벽하지 않다. 


그럼에도 사람들이 눈을 부릅뜨고 처다보는 이유는 심플하다. 


1. 어설프더라도 문서요약은 생산성을 향상시킨다. 

2. 교육 비지니스 모델로 괜찮다. 


이다. 특히 2번인 교육쪽에서는 나름 기대하는 바가 크다. 아래와 같은 내용으로 강의사업을 하는 친구에게 말을 해주었더니 단번에 이해하고 바로 강의교재를 만들었다. 생산성으로 따지자면 3~4시간 걸릴 것이 30분만에 제작된 것으로 판단된다. 


교육자료로 가능. 오답을 통한 학습정리.

학습 pdf 정리해서 업로드

핵심질문 10여개

학생은 ai가 말한 진위에 대해 ox 처리미션

틀렸으면 틀린 이후 기술.

맞았으면 왜 맞았는 지, 문서를 참고하여  기술.
 

AI와 OCR의 만남

대한민국에서 OCR 기술을 이용해 브랜드를 확고히 하는 서비스가 무엇이 있을까? 3초도 걸리지 않고 생각한 서비스는 vFlat과 리멤버이다. vFlat은 대한민국 엔지니어라면 반드시 사용해야 할 필수어플로 문서스캔 부분에서는 독보적인 서비스를 제공하고 있다. 그리고 이 서비스에서도 스캔한 문서에서 문자를 인식하는 OCR 기능을 제공한다. 


https://www.vflat.com/


그리고 리멤버는 대한민국 비지니스맨 이라면 한 번쯤 설치한 앱이라고 생각한다. 스타트업 얼라이언스 출신스타트업 중 대표적인 성공기업으로 명함을 스캔해서 개인정보를 등록해주는 서비스이다. 관공서의 기관장이나 역량있는 회사의 비지니스맨치고 리멤버를 설치하지 않은 사람을 보기 힘들 정도이다. 


많이 사용하는 이유는 단순하다. "직장정보가 바뀌면 바로 notification(알림)이 날라온다". 축하 메시지 던지면서 빠르게 응대하기 좋다. 그리고 업계 흐름도 파악이 가능하다(=저 인간이 왜 저길 갔지?). 


https://rememberapp.co.kr/home#/


그러나 두 서비스 모두 AI와는 상관이 없다. 아니 없었다. 사회 분위기가 이 정도(?)가 되면 어쩔 수 없이 조만간 LLM(Large Language Model) 기반으로 챗봇하나 들여놓아야 할 것이다. 이런 생각을 하니 내부 개발자들의 비명소리가 들리는 듯하다. 


최근 며칠 동안 OCR + AI라는 키워드로 가장 핫하게 치고 들어오는 솔루션은 AskUP(아숙업: 왜 이렇게 이름을 지었지?)이다. 

OCR은 흔한 기술이라서 언급안한거니?


이 서비스의 장점은 "카톡채널"이라는 것이다. 아무래도 새롭게 앱을 설치하는 번거로움도 없고 대한민국 일반인들에게 가장 친숙한 카톡이라는 UX를 사용하다보니 진입장벽이 거의없다. 그리고 개인적으로 만족하는 것이 카톡을 통한 OCR 인식인데 이는 누군가 수기로 된 필기메모를 보내거나 명함 또는 광고전단지를 보냈을 때에, 바로 전화번호나 중요정보를 문자로 복사해 사용할 수 있다는 장점이 있다.

한글과 영문인식에 있어서는 LR(Left to Right)일 경우 문제가 되지 않지만 TB(Top to Bottom)일 경우는 인식오류가 발생하기도 한다.
 也会说中文?


그러나 이미지가 문서외의 다른 Object가 있을 시, 상당히 불안전한 정보를 전달한다. 세로쓰기와 꽃그림을 보고 중국어로 오인한 것이 아닌가라는 근거없는 생각을 해본다. 여하튼, 지금까지의 AI는 생산성 향상을 위한 도구일 뿐이다. 도구를 어떻게 사용할 지에 대한 몫은 사용자들에게 달려있다. 

매거진의 이전글 발빠른 AI 교육사업 - 노코드, 데이터 리터러시
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari