brunch

You can make anything
by writing

C.S.Lewis

by 코아 Jun 01. 2024

업스테이지! 문자 인식, Solar LLM으로 혁신 중

업스테이지(Upstage) 기업 소개

인공지능(AI)은 단순한 기술 트렌드를 넘어 우리 일상과 산업 전반을 혁신하는 핵심 동력으로 자리잡고 있습니다. 대한민국의 많은 AI 기업들이 혁신적인 솔루션을 제공하고 산업의 패러다임을 바꾸기 위해 노력하고 있으며, AI 기술을 통해 문제를 해결하고 새로운 기회를 창출하는 데 주력하고 있습니다. 이번 글에서는 고유의 기술력과 비전을 바탕으로 문서 처리, 챗봇, 번역 등 분야에서 두각을 나타내고 있는 업스테이지 회사 및 서비스에 대해 살펴보겠습니다. 



업스테이지(Upstage)는 2020년에 설립된 AI 스타트업으로 Document AI, Solar LLM 서비스를 제공하고 있습니다. AI 분야에서 뛰어난 경력을 쌓아온 전문가 김성훈(CEO), 이활석(CTO), 박은정(CSO) 세분이 창립했습니다. 




비전과 목표


업스테이지는 "Making AI Beneficial"이라는 미션을 가지고 있습니다. 김성훈 대표는 네이버에서 일하며 많은 기업들이 AI 비즈니스에 대한 경험 부족으로 어려움을 겪는 것을 보았고, 이를 해결하고자 업스테이지를 설립했습니다. 기업들이 AI 기술을 효과적으로 도입할 수 있도록 지원하며, AI를 통해 세상을 더욱 이롭게 만드는 것을 목표로 합니다.


Document AI - 문서 처리 솔루션


Document AI는 인공지능 기반의 문서 처리 솔루션으로 레이아웃 분석, 문서 OCR, 주요 정보 추출의 세 가지 핵심 기능을 제공합니다. 각 기능은 문서 처리의 특정 부분에서 강력한 도구로 작용하여, 기업의 문서 관리와 정보 추출을 자동화하고 효율성을 높이는 데 크게 기여합니다.


1. 레이아웃 분석 (Layout Analysis)

레이아웃 분석 기능은 문서 내 페이지 요소를 추출하고 정렬하는 작업을 담당합니다. 이 기능은 다음과 같은 세부 작업을 통해 문서의 구조적 이해를 돕습니다.


페이지 요소 추출: 문서 내의 테이블, 도표, 단락 등 다양한 페이지 요소를 자동으로 식별하고 추출합니다. 이는 사람이 수동으로 하는 작업을 대체하여 시간과 비용을 절감할 수 있습니다.


읽기 순서 기반 직렬화: 추출된 요소들을 사람이 문서를 읽는 순서에 맞게 정렬하여, 논리적이고 자연스러운 흐름을 제공합니다. 이를 통해 문서의 가독성을 높이고, 독자가 문서를 더 쉽게 이해할 수 있게 합니다.


HTML로 변환: 추출된 데이터를 HTML 형식으로 변환하여, 웹 기반의 문서 관리 및 배포를 용이하게 합니다. 이는 문서의 디지털화와 접근성을 높이는 데 중요한 역할을 합니다.


2. 문서 OCR (Document OCR)

문서 OCR 기능은 고성능 문자 인식 기술을 사용하여 문서 내의 모든 텍스트를 정확하게 추출합니다. 주요 특징은 다음과 같습니다.


OCR(Optical Character Recognition)은 광학 문자 인식의 약자로, 이미지나 문서에 포함된 텍스트를 컴퓨터가 이해할 수 있는 텍스트로 변환하는 기술을 말합니다. 


고성능 문자 인식: 최신 OCR 기술을 통해 문서 내의 글자를 고해상도로 인식하여 정확하게 추출합니다. 이는 이미지나 PDF 형식의 문서에서도 높은 인식률을 보장합니다.


문서 처리에 최적화: 다양한 문서 형식과 레이아웃에 최적화되어, 문서의 구조에 관계없이 안정적인 성능을 제공합니다. 이는 복잡한 레이아웃을 가진 문서에서도 높은 정확도를 유지합니다.


실세계의 도전 과제에 대한 강건성: 다양한 실제 환경에서 발생할 수 있는 문제들, 예를 들어 흐릿한 이미지, 왜곡된 텍스트 등에도 강한 성능을 발휘합니다. 이는 실사용 환경에서의 활용도를 높입니다.


3. 주요 정보 추출 (Key Information Extraction)

주요 정보 추출 기능은 AI 기반 엔진을 사용하여 특정 문서에서 중요한 정보를 자동으로 추출합니다. 이 기능의 주요 특징은 다음과 같습니다:


사전 정의된 템플릿 없음: 고정된 템플릿이 필요 없이 다양한 문서에서 유연하게 정보를 추출할 수 있습니다. 이는 다양한 형식의 문서에서 일관된 성능을 제공합니다.


높은 정확도: AI 기반의 높은 정확도로 중요한 정보를 식별하여, 업무 자동화를 지원합니다. 이를 통해 반복적이고 시간이 많이 소요되는 작업을 줄일 수 있습니다.


데이터 내보내기: 추출된 데이터를 CSV, JSON 또는 원하는 데이터베이스 형식으로 내보내어 다양한 응용 프로그램에서 활용할 수 있습니다. 이는 추출된 정보를 효과적으로 관리하고 분석하는 데 도움이 됩니다.


위의 세 가지 주요 기능을 통해 문서 처리의 효율성을 크게 향상시킵니다. 특히, 대량의 문서를 처리해야 하는 기업에서는 Document AI를 통해 수작업의 부담을 줄이고, 중요한 정보를 빠르고 정확하게 추출하여 업무 효율성을 극대화할 수 있습니다.




Solar LLM


Solor LLM은 대화, 번역, 데이터 분석 등 다양한 작업을 지원하는 대형 언어 모델입니다. 이 모델은 Task API와 Expert API 목록을 제공하며, 각각의 API가 제공하는 서비스를 통해 더 구체적으로 살펴보겠습니다. 


Task APIs

1. Chat (채팅)

Solor LLM의 Chat API는 간단한 대화형 에이전트를 만드는 데 사용됩니다. 이 API는 Function Calling을 지원하여 외부 도구와의 연계를 통해 더욱 풍부한 대화를 가능하게 합니다. 예를 들어, 사용자는 Solor LLM을 통해 고객 지원 챗봇을 구축하고, 이 챗봇이 실시간으로 데이터베이스에 접근하여 고객의 질문에 정확하게 답변하도록 할 수 있습니다.


2. Embeddings

Embeddings API는 텍스트를 임베딩 벡터로 변환합니다. 이 임베딩 벡터는 정보 검색 및 분류 작업에 활용될 수 있습니다. 예를 들어, 방대한 양의 문서를 효과적으로 검색하거나, 텍스트 분류 알고리즘을 통해 사용자 리뷰를 긍정적, 부정적으로 자동 분류할 수 있습니다.

(임베딩은 고차원 텍스트 데이터를 의미적 유사성을 반영한 저차원 벡터로 변환하는 기법입니다.) 


3. Translation (번역)

Translation API는 문맥을 고려한 영어-한국어 번역을 제공합니다. 이전 대화를 고려하여 일관성과 연속성을 보장하는 번역을 제공하므로, 번역의 정확성과 자연스러움이 크게 향상됩니다. 이는 특히 다국어 고객 지원이나 국제적인 협업 환경에서 유용합니다.


4. Groundedness Check (근거 확인)

Groundedness Check API는 사용자의 질문과 검색 결과를 기반으로 LLM이 제공하는 답변이 적절한지 검증합니다. 이는 LLM의 답변의 신뢰성을 높이는 데 중요한 역할을 하며, 잘못된 정보 제공을 최소화할 수 있습니다.


5. Text-to-SQL (텍스트를 SQL로 변환)

Text-to-SQL API는 자연어 질의를 SQL로 변환하여 사용자가 SQL을 작성할 필요 없이 데이터베이스 정보를 쉽게 접근할 수 있도록 합니다. 이는 비전문가도 데이터베이스에서 필요한 정보를 손쉽게 얻을 수 있게 해주며, 기업 내 데이터 활용도를 극대화합니다.


Expert APIs

1. Healthcare (의료)

Healthcare API는 의료 분야에서의 특화된 지능을 제공합니다. 이 API는 의료 데이터 분석, 진단 지원, 환자 기록 관리 등 다양한 용도로 활용될 수 있습니다. 예를 들어, Solor LLM을 통해 의료 전문가들이 환자의 증상에 맞는 진단을 더 신속하고 정확하게 내릴 수 있습니다.


2. Finance (금융)

Finance API는 금융 분야에서의 특화된 지능을 제공합니다. 이는 시장 분석, 투자 전략 개발, 금융 리포트 생성 등 다양한 금융 관련 작업을 지원합니다. Solor LLM을 통해 금융 분석가들은 더 빠르고 정확한 데이터를 바탕으로 의사 결정을 내릴 수 있습니다.


3. Law (법률)

Law API는 법률 분야에서의 특화된 지능을 제공합니다. 이 API는 법률 문서 분석, 계약서 작성 지원, 법률 상담 등 다양한 법률 관련 작업을 지원합니다. Solor LLM을 통해 법률 전문가들은 복잡한 법률 문서를 빠르게 분석하고, 필요한 정보를 효율적으로 추출할 수 있습니다.


Solor LLM은 다양한 API를 통해 많은 산업 분야에서 활용 가능할 것으로 보이네요. 



지금까지 고유의 기술력과 비전을 바탕으로 문서 처리, 챗봇, 번역 등 분야에서 두각을 나타내고 있는 업스테이지의 서비스에 대해 살펴보았는데요. 아래는 최신 기사로 부터 기업의 비즈니스 방향에 대해 탐구하고자 합니다. 



기사 내용 요약

최근 AI 분야에서 주목받는 업스테이지는 광학문자인식(OCR) 기술을 기반으로 대형언어모델(LLM)을 구축하여 데이터 학습과 인식 속도를 극대화하는 '풀스택 LLM' 개발에 도전하고 있습니다. 이 기술은 특히 금융, 물류, 무역 등 다양한 산업에서 활용될 가능성이 높습니다. OCR 기술을 고도화하여 다양한 문서를 더욱 빠르고 정확하게 처리할 수 있으며, 다국어 지원 확대와 데이터 수집 및 학습의 효율성 향상에 집중하고 있습니다. 글로벌 시장으로의 확장과 다양한 산업과의 협력도 활발히 진행 중입니다.


OCR 기술의 진화와 기업의 강점

OCR 기술은 전통적인 룰 기반, 템플릿 기반 시스템에서 딥러닝을 이용한 고도화된 기술로 진화해왔습니다. 이러한 변화의 중심에 있으며, 특히 다음과 같은 점에서 강점을 보유하고 있습니다.


기술적 진보: 3세대 AI OCR 솔루션을 통해 문서를 빠르고 정확하게 처리할 수 있는 능력을 보유하고 있으며, 4세대 기술로의 진입을 앞두고 있습니다. 이 과정에서 딥러닝 기반의 기술적 혁신이 돋보입니다.


다양한 응용 가능성: 금융, 물류, 무역 등 여러 산업 분야에서 OCR 기술의 응용 가능성을 모색하고 있으며, 특히 복잡한 문서 처리와 데이터 정리에 큰 도움이 될 수 있습니다.


글로벌 확장: 다국어 지원 확대를 통해 글로벌 시장으로의 진출을 꾀하고 있으며, 이는 다양한 언어와 문서 형식을 처리하는 데 필수적입니다.


도전 과제와 개선점

업스테이지는 뛰어난 기술력을 보유하고 있지만, 몇 가지 도전 과제와 개선할 점도 존재합니다.


다국어 지원 강화: 현재 한국어, 영어, 일본어만 지원하고 있어, 더 많은 언어를 지원하는 것이 필요합니다. 이는 글로벌 시장에서의 경쟁력을 강화하는 데 중요합니다.


데이터 수집 및 학습의 효율성: OCR과 LLM을 통합하는 과정에서 데이터 수집과 학습의 효율성을 높이는 것이 중요합니다. 데이터 수집 및 처리 과정을 최적화하는 연구가 필요합니다.


정확도 향상: 현재 OCR의 정확도를 95%까지 끌어올렸지만, 더 높은 정확도를 목표로 계속 노력해야 합니다. 이는 다양한 환경과 문서 형식에서 일관된 성능을 제공하는 데 필수적입니다.


산업 간 협력 강화: 글로벌 확장과 더불어 의료, 법률 등 다양한 산업과의 협력을 강화하는 것이 중요합니다. 이를 통해 더 많은 영역에서의 응용 가능성을 탐색할 수 있습니다.


AI 트렌드 관점에서 본 기업의 미래

OCR 기술과 LLM의 결합은 AI의 새로운 가능성을 열어주고 있습니다. 업스테이지가 추구하는 풀스택 LLM은 데이터 처리 속도와 정확도를 혁신적으로 향상시킬 수 있습니다. 특히 비정형 데이터를 구조화하여 LLM 학습 데이터로 사용할 수 있다는 점에서 큰 장점을 지니고 있습니다.


성공적으로 글로벌 시장에 진출하고 다양한 산업과 협력할 수 있다면, 이 회사의 기술은 더 많은 분야에서 혁신을 이끌어낼 수 있을 것입니다. 다만, 이 과정에서 데이터 보안과 개인정보 보호에 대한 철저한 관리가 필요하며, 지속적인 기술 혁신을 통해 변화하는 시장 요구에 대응해야 할 것입니다.


OCR 기술의 발전은 AI와의 시너지 효과를 극대화할 수 있는 잠재력을 지니고 있습니다. 이러한 기술적 진보를 통해 새로운 비즈니스 기회를 창출하고, 다양한 산업에서의 효율성 향상에 기여할 것으로 기대됩니다. 앞으로도 기업의 동향을 주목하며, AI와 OCR 기술의 발전이 가져올 변화를 기대해 봅니다.


#AI기업 #업스테이지  #Upstage  #OCR기술  #광학문자인식  #Solar  #AI기술


참고 문서 : Upstage

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari