brunch

You can make anything
by writing

C.S.Lewis

by Andy Nov 04. 2024

Claude 3.5, PDF의 이미지도 분석

대용량의 문서처리가 안되는 AI라면 아무데도 쓸데가 없어요.

Anthropic은 Claude 3.5 Sonnet의 AI 모델에 PDF 지원 기능을 추가해서, PDF 문서의 텍스트와 시각적 요소를 모두 처리할 수 있게 되었습니다. 이 기능은 기존 텍스트 분석을 넘어 데이터 시각화 및 복잡한 문서 구조를 이해하는 Claude의 핵심 기능이 될 듯 해요. 이미 Google의 Gemini나 Azure의 AI Search 등에서 제공하는 Vision AI 기능은 OCR을 이용한 문서와 PDF, PPT를 비롯한 다양한 데이터 형식을 인식하여 입력받을 수 있는 기능을 제공해 왔습니다. Claude에서 데이터 추출과, 파일 분석, 대규모 데이터 관리 작업 등의 비즈니스 목적에서의 한계로 인해 대형 AI 모델(너네도 작지는 않지만)들과 경쟁에서 뒤떨어진 측면이 있었는데, 이걸 극복할 수 있는 시작이 될 듯 해요. 


결론만 얘기하자면, 아마존의 Bedrock과 구글의 Vertex AI (아마 모델 가든에 추가되겠지만)에 대한 지원이 추가된다고 하는데, 이미 제공되는 Vision AI들과 제대로 경쟁할 수 있을지가 주목됩니다. Gemini에 300페이지 문서를 업로드하고, 챗봇을 순식간에 만들어 보고 나서는, 이 정도 안되는건 무조건 안쓴다는 원칙이 생기더란 말이죠.  

 


PDF 문서부터 시작이지만, 다른 데이터 파일 액세스도 확대해야 하는 과제가 있다. (Anthropic)



Claude 3.5 PDF 분석 기능의 주요 장점  


1. 텍스트 및 시각 데이터 통합 분석: Claude는 PDF 파일에 포함된 텍스트뿐 아니라 차트, 그래프와 같은 시각적 요소도 분석해, 기존 텍스트만 처리하는 도구 대비 더 폭넓은 이해가 가능합니다. 이는 복잡한 데이터 문서와 여러 구성요소를 갖춘 파일을 다룰 때 큰 강점으로 작용합니다.


2. 비용 효율성과 자동화: Claude의 PDF 처리 기능은 정확한 데이터 추출 및 컨텍스트 기반 해석을 지원하면서도 프롬프트 캐싱 등을 통해 적절한 비용 관리를 가능하게 합니다. 비용 효율을 유지하면서 필요한 데이터를 신속히 처리할 수 있도록 일괄(Batch) 처리 등으로 대용량 문서 처리가 가능하고, 실시간 의사결정이 중요한 금융 및 법률 분야에서 특히 유용할 수 있습니다.


3. 통합 및 유연성: Claude의 API를 사용하면 PDF 분석 기능을 기존 워크플로우나 시스템에 쉽게 통합할 수 있습니다. 특히 특정 문서 기반 자동화 작업이나 AI 지원 앱 구축에서 유연하게 활용 가능해, 데이터 관리와 문서 해석 업무의 효율을 대폭 개선할 수 있습니다. 



조금 더 몇가지를 특징적으로 살펴 보면, PDF 파일의 크기는 32메가 바이트를 넘을 수 없고, 최대 페이지수는 100페이지를 넘을 수 없습니다. 또한 암호화된 DRM 문서 등은 읽어들일 수 없고, Claude의 Vision 기능과 동일한 제약사항이 적용 됩니다. 비용 효율성을 제공하는 면에서 보면 실제 예상 토큰을 OpenAI와 비교해 보는 것이 직관적이겠죠? GPT-4 Vision을 이용한 OpenAI의 PDF 판독의 경우에는 이미지 타일의 크기(1개 타일은 512x512로 구성)별로 170개 토큰을 사용하여 인식합니다. A4 1장 정도라면 4개 타일 정도로 680개 토큰을 사용한다고 생각할 수 있죠. Claude는 이미지 기반의 계산 방법을 적용하면 1,400토큰 정도를 동일한 사이즈에서 인식하는데 사용하지만, 콘텐츠의 밀도와 복잡성에 따라 3,000개까지도 토큰을 사용합니다. 물론, 토큰이 얼마나 소모될 지 카운트하는 방법도 있지만, 실제 문서처리에 필요한 토큰량은 실행해봐야 알 수 있겠죠. PDF 처리를 위한 초과 비용은 없다고 하지만, 그래도 비용 경쟁력 측면에서는 뛰어나다고 하기엔 다소 부족해 보입니다. 



PDF 분석 성능을 위한 준수 사항

Anthropic은 문서를 명확하게 읽을 수 있는 텍스트와 적절하게 정렬된 페이지가 있는지를 확인하도록 권장합니다. API를 사용해서 문서처리를 요청할 경우에는 텍스트보다 PDF를 먼저 포함하도록 하고, 특정 섹션을 참조하도록 할 때는 페이지 번호(PDF뷰어에서 보여지는 번호)를 사용해야 합니다. 표준 글꼴을 사용하는 것이 좋고, 만약 사이즈를 넘어가는 문서라면 PDF를 RAG처럼 작은 청크로 분할해서 분석하도록 권장합니다. 


특히, 동일한 문서를 반복 분석 해야하는 경우가 발생할 수 있기 때문에 Anthropic은 프롬프트 캐싱을 사용해서 비용을 절감하고, 응답속도를 높이는 것을 권장하고 있죠. 이런 방식은 이미 GPT-4에서도 적용되어 있어 1,024토큰 이상의 프롬프트가 입력되면 자동으로 캐싱을 시작하고, 공통된 프롬프트는 128토큰 단위로 저장해서 50% 이상의 비용을 절감할 수 있습니다. Claude의 경우에는 초기 캐시를 만들때는 요금의 125%가 적용되지만, 이후 캐시된 입력을 사용하면 90% 이상의 비용을 절감하고, 응답속도도 85% 이상 빨라집니다. 따라서, 비슷한 형태의 문서를 반복해서 입력받는 경우라면 효율화된 청구서를 받을 가능성도 있죠. 


자세한 PDF 지원 사항에 대한 내용은 PDF 지원(베타) - Anthropic 에서 확인하실 수 있고, 관련해서 읽어드릴 수 있는 문서들은 여기서 확인해 볼 수 있습니다.  

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari