대용량의 문서처리가 안되는 AI라면 아무데도 쓸데가 없어요.
Anthropic은 Claude 3.5 Sonnet의 AI 모델에 PDF 지원 기능을 추가해서, PDF 문서의 텍스트와 시각적 요소를 모두 처리할 수 있게 되었습니다. 이 기능은 기존 텍스트 분석을 넘어 데이터 시각화 및 복잡한 문서 구조를 이해하는 Claude의 핵심 기능이 될 듯 해요. 이미 Google의 Gemini나 Azure의 AI Search 등에서 제공하는 Vision AI 기능은 OCR을 이용한 문서와 PDF, PPT를 비롯한 다양한 데이터 형식을 인식하여 입력받을 수 있는 기능을 제공해 왔습니다. Claude에서 데이터 추출과, 파일 분석, 대규모 데이터 관리 작업 등의 비즈니스 목적에서의 한계로 인해 대형 AI 모델(너네도 작지는 않지만)들과 경쟁에서 뒤떨어진 측면이 있었는데, 이걸 극복할 수 있는 시작이 될 듯 해요.
결론만 얘기하자면, 아마존의 Bedrock과 구글의 Vertex AI (아마 모델 가든에 추가되겠지만)에 대한 지원이 추가된다고 하는데, 이미 제공되는 Vision AI들과 제대로 경쟁할 수 있을지가 주목됩니다. Gemini에 300페이지 문서를 업로드하고, 챗봇을 순식간에 만들어 보고 나서는, 이 정도 안되는건 무조건 안쓴다는 원칙이 생기더란 말이죠.
1. 텍스트 및 시각 데이터 통합 분석: Claude는 PDF 파일에 포함된 텍스트뿐 아니라 차트, 그래프와 같은 시각적 요소도 분석해, 기존 텍스트만 처리하는 도구 대비 더 폭넓은 이해가 가능합니다. 이는 복잡한 데이터 문서와 여러 구성요소를 갖춘 파일을 다룰 때 큰 강점으로 작용합니다.
2. 비용 효율성과 자동화: Claude의 PDF 처리 기능은 정확한 데이터 추출 및 컨텍스트 기반 해석을 지원하면서도 프롬프트 캐싱 등을 통해 적절한 비용 관리를 가능하게 합니다. 비용 효율을 유지하면서 필요한 데이터를 신속히 처리할 수 있도록 일괄(Batch) 처리 등으로 대용량 문서 처리가 가능하고, 실시간 의사결정이 중요한 금융 및 법률 분야에서 특히 유용할 수 있습니다.
3. 통합 및 유연성: Claude의 API를 사용하면 PDF 분석 기능을 기존 워크플로우나 시스템에 쉽게 통합할 수 있습니다. 특히 특정 문서 기반 자동화 작업이나 AI 지원 앱 구축에서 유연하게 활용 가능해, 데이터 관리와 문서 해석 업무의 효율을 대폭 개선할 수 있습니다.
조금 더 몇가지를 특징적으로 살펴 보면, PDF 파일의 크기는 32메가 바이트를 넘을 수 없고, 최대 페이지수는 100페이지를 넘을 수 없습니다. 또한 암호화된 DRM 문서 등은 읽어들일 수 없고, Claude의 Vision 기능과 동일한 제약사항이 적용 됩니다. 비용 효율성을 제공하는 면에서 보면 실제 예상 토큰을 OpenAI와 비교해 보는 것이 직관적이겠죠? GPT-4 Vision을 이용한 OpenAI의 PDF 판독의 경우에는 이미지 타일의 크기(1개 타일은 512x512로 구성)별로 170개 토큰을 사용하여 인식합니다. A4 1장 정도라면 4개 타일 정도로 680개 토큰을 사용한다고 생각할 수 있죠. Claude는 이미지 기반의 계산 방법을 적용하면 1,400토큰 정도를 동일한 사이즈에서 인식하는데 사용하지만, 콘텐츠의 밀도와 복잡성에 따라 3,000개까지도 토큰을 사용합니다. 물론, 토큰이 얼마나 소모될 지 카운트하는 방법도 있지만, 실제 문서처리에 필요한 토큰량은 실행해봐야 알 수 있겠죠. PDF 처리를 위한 초과 비용은 없다고 하지만, 그래도 비용 경쟁력 측면에서는 뛰어나다고 하기엔 다소 부족해 보입니다.
Anthropic은 문서를 명확하게 읽을 수 있는 텍스트와 적절하게 정렬된 페이지가 있는지를 확인하도록 권장합니다. API를 사용해서 문서처리를 요청할 경우에는 텍스트보다 PDF를 먼저 포함하도록 하고, 특정 섹션을 참조하도록 할 때는 페이지 번호(PDF뷰어에서 보여지는 번호)를 사용해야 합니다. 표준 글꼴을 사용하는 것이 좋고, 만약 사이즈를 넘어가는 문서라면 PDF를 RAG처럼 작은 청크로 분할해서 분석하도록 권장합니다.
특히, 동일한 문서를 반복 분석 해야하는 경우가 발생할 수 있기 때문에 Anthropic은 프롬프트 캐싱을 사용해서 비용을 절감하고, 응답속도를 높이는 것을 권장하고 있죠. 이런 방식은 이미 GPT-4에서도 적용되어 있어 1,024토큰 이상의 프롬프트가 입력되면 자동으로 캐싱을 시작하고, 공통된 프롬프트는 128토큰 단위로 저장해서 50% 이상의 비용을 절감할 수 있습니다. Claude의 경우에는 초기 캐시를 만들때는 요금의 125%가 적용되지만, 이후 캐시된 입력을 사용하면 90% 이상의 비용을 절감하고, 응답속도도 85% 이상 빨라집니다. 따라서, 비슷한 형태의 문서를 반복해서 입력받는 경우라면 효율화된 청구서를 받을 가능성도 있죠.
자세한 PDF 지원 사항에 대한 내용은 PDF 지원(베타) - Anthropic 에서 확인하실 수 있고, 관련해서 읽어드릴 수 있는 문서들은 여기서 확인해 볼 수 있습니다.