IT의 재발견, 기업혁신 그리고 AI
IT의 재발견, 기업혁신 그리고 AI
현재 2024년도에 많은 곳들이 기존 LLM에 회사별 데이터를 활용하기 위해 RAG(검색증강생성)를 사용해보고 느꼈던 부분과 2024년 트렌드를 되돌아보고 2025년도 RAG기술에 대한 전망을 해봅니다.
결론부터 말하자면, RAG(검색증강생성)는 2025년에도 변함없이 유행할 것으로 예상합니다.
우선 내년에는 그 어느 때보다 응답 정밀도가 향상되는 것은 틀림없습니다. 그 이유는 LLM의 비용 하락 추세와 입력할 수 있는 컨텍스트 증가 추세가 계속될 것이기 때문입니다. 또한, LLM이 '시각/음성' 입력 수단을 확보한 점, 벡터DB외 DB 활용 트렌드도 RAG정확도 향상에 기여할 것입니다.
또한 'AI Agent + RAG'아키텍처와 작은언어모델(SLM)의 RAG활용에 대해서도 가속도가 붙을 것으로 예상합니다.
X(구 트위터)에서 'RAG 유행은 지나갔다'라는 식의 담론을 자주 볼 수 있습니다. 실제로 필자의 느낌으로는 'RAG는 종말이 아니다'라는 것이 사용자 기업들에게도 인식되기 시작했다는 것을 느꼈습니다.
RAG(검색증강생성)에 대한 거부감의 큰 원인은 '답변 정확도가 낮다'라는 것입니다.
하지만, 2024년의 기술발전을 보면, RAG 파이프라인의 모든 측면에서 정확도를 획기적으로 개선할 수 있는 가능성을 엿볼 수 있습니다. 이를 감안할 때, 2025년에는 RAG의 응답 정확도가 더욱 높아질 것으로 보입니다. 그리고 이를 통해 더 많은 사용 사례를 찾을 수 있기 때문에 RAG의 유행은 계속될 것이라고 생각합니다.
RAG의 정확성을 고려할 때, LLM 성능은 매우 중요한 요소입니다. 2024년에는 LLM에 입력할 수 있는 문자수(컨텍스트창)가 늘어나고, LLM 이용료가 저렴해지는 기술 트렌드가 있었습니다.
입력할 수 있는 문자수에 대해 말하자면, Gemini는 2M, Qwen은 1M까지 확장됩니다. 전제조건으로 컨텍스트창이 아무리 길어도 그 자체로 RAG를 대체할 수 있는 것은 아닙니다.(참고) 하지만 길어질수록 더 많은 문장을 LLM에 전달할 수 있기 때문에 답변의 정확도가 높아지기 쉽습니다.
LLM의 이용비용도 인하되고 있는 추세에 있습니다. 특히 증류나 가지치기처럼 고가의 모델을 저렴하게 재현하기 위한 기법은 앞으로 활발하게 활용될 것이며, 구글브레인 창업자 Andrew도 '가격 인하를 전제로 서비스를 만들어도 문제가 없다'고 말했습니다.
비용이 저렴해진다는 것은 LLM에 대해 많은 것들을 여러번, 생각하게 할 수 있다는 것을 의미합니다. 이는 RAG의 정확도 향상을 위한 선택의 폭이 넓어집니다.
2024년에는 '멀터모달 RAG'가 등장했습니다. 멀티모달 RAG는 파일내에 포함된 이미지, 도표등에 대해서도 RAG(검색증강생성)로 답변할 수 있도록 하는 구조입니다. (실제로 필자도 최근 프로젝트에서 RAG서비스에서도 업데으트했습니다)
하지만, 2025년에는 여기에 그치지 않고 더욱더 멀티모달화가 진행될 것으로 예상됩니다. '멀티모달 RAG 2.0'이라고 할 수 있는데 2025년 RAG에서는 음성으로 LLM에 입력하거나 상시 화면공유를 할 수 있는 경험을 할 수 있을 것입니다. 이를 통해 LLM은 더 깊은 '맥락'을 얻게 될 것입니다.
이 '맥락의 획득'은 RAG의 정확도 향상으로 이어질 것입니다. 지금까지 RAG가 정확도를 높이지 못하는 가장 큰 원인으로 '사용자의 의도를 파악하지 못하는 것'을 꼽을 수 있습니다. 그래서 DIVA와 같은 최신 기버법에서는 사용자의 '잡다한 질문'을 처리하여 정확도를 높였습니다.
이것이 앞으로 예를 들어, '상담에 동석하여 모든 내용을 듣고 있는 RAG', '사용자 화면에 상주하여 오류에 이르는 과정을 지켜보는 RAG'로 진호한다면 어떨까요? 아마 지금보다 훨씬 더 정확한 답변이 나올 수 있을 것입니다.
문맥이 더 많이 공유되고, 사용자의 질문의도를 더 쉽게 파악할 수 있다면, RAG의 응답 정확도는 더 높아질 것입니다. 예를 들어, 구글의 'Project Mariner'는 이런 추세의 '한가운데'에 있는 서비스라고 할 수 있습니다.
2024년에는 벡터DB가 필요없는 접근방식에 대한 논문이 많이 나왔는데, GraphRAG와 같은 그래프DB를 이용한 방법이나 RDB를 이요한 방법입니다.
벡터DB는 상당히 주목을 받았지만, 한계도 많이 드러나고 있습니다. 그래서 LLM자체적으로 데이터베이스를 구분하는 기법이나 여러가지 DB를 병용하는 기법이 등장하면서 벡터DB이외의 데이터베이스를 활용하는 트렌드가 등장하고 있습니다.
이런 추세는 더욱 강화되고 확산될 것입니다. 실제로 기업에서 보관하고 있는 데이터를 보면 RDB나 엑셀과 같은 반구조화된 데이터로 쌓여있는 경우가 많습니다. 이러한 데이터를 잘 활용할 수 있는 RAG기법은 앞으로도 계속 나올 것으로 보입니다.
OpenAI에서 'o3'라는 최신 LLM이 발표되었습니다. 아직은 이용할 수 없지만, 'o3 mini'가 2025년 1월말부터 이용가능하다고 발표되었습니다.
솔직히 o1, o3와 같은 '깊이 생각하기'시리즈가 RAG에 어느정도까지 활용될 수 있을지는 아직은 알 수 없으며, OpenAI 공식문서에는 'o1을 RAG에 사용하려면 정말 관련성이 높은 문서만 전달해 달라'라는 주의사항만 명시되어 있습니다.
하지만 2025년에는 o1, o3를 RAG에 잘 활용할 수 있는 방법이 등장할 수 있습니다. 그렇게 되면 GPT시리즈에 비해 강점인 '메타인지능력'을 활용해 RAG 응답 정확도를 높이는 식의 방식이 될 것입니다. 예를 들어, 틀린 것을 스스로 인지하거나 사용자의 의도를 되묻는등보다 유연하게 움직일 수 있게 될 것입니다.
2024년의 AI에이전트는 다소 '환멸기'에 접어든 것 같습니다. 예를 들어, 'Agentless'나 'REAPER'와 같이 에이전트가 아닌 방식이 등장하고 있습니다.
비에이전트 방식이란, 요컨대 LLM이 다음 행동을 결정하지 않는 유형의 방식입니다. 일반적으로 편리하고 빠르기 때문에 2025년에도 비슷한 방식이 계속 등장할 것으로 보입니다. 한편, AI 에이전트에 대해서도 2025년도에는 비즈니스 활용에 있어서도 정착하지 않을까라는 예상을 해봅니다. 에이전트에 대한 환멸을 느끼는 이유는 '이상한 곳에서 헤맨 결과, 오래 고민했는데 엉뚱한 답변이 나온다'라는 경험때문입니다.
하지만, 이미 살펴본 바와 같이, 더 많은 컨텍스트를 공유할 수 있고, 메타인지력이 높아진다면, AI에이전트와 RAG의 경계가 사라지고, 엉뚱한 답변도 즐어들 것입니다. 앞으로는 이런 경계가 거의 사라지면서 정착해 나갈 것으로 예상합니다.
필자는 가끔 거래처 사람들에게 현재 AI Agent를 납품하지만 "몇 년 후를 생각하면 AI에이전트가 아니라, 몇 년 후를 생각해야 합니다"라고 말을 꼭 합니다.
AI 에이전트에 대해 OpenAI의 샘 알트만(Sam Altman)은 아래와 같은 말을 했습니다.
"우리 아이들 세대에는 모든 과목과 언어에 대해 아이의 속도에 맞춰 최적의 지도를 할 수 있는 가상 가정교사가 보편화될 것입니다."
OpenAI가 메모리기능, 프로젝트 기능등 소박하고 버즈에 취약한 기능을 강화하는 이유도 이런 개인용 AI를 위한 '컨텍스트 확보'를 위한 것입니다. 2025년에는 '대중화'는 아니더라도 단순한 채팅경험에 국한되지 않는 개인용 AI(RAG 에이전트)가 더 많이 등장할 것으로 예상됩니다.
마지막으로 SLM(Small Language Model)에 대해 언급하자면, 2024년에는 구글 Gemma, 애플 OpenELM과 같은 소형모델이 등장했습니다.
SLM은 빠르고 저렴하기 때문에 최신 RAG 기법 (Speculative RAG, GNN-RAG)에서도 자주 나옵니다.
Phi-4의 기술보고서에 따르면, GPT-4로 최고 품질의 데이터를 생성하여 학습시킴으로써 작은 학습 데이터로도 고성능 모델을 구축할 수 있었다고 하는데, 2025년에는 구글이나 Anthropic이 비슷한 기법을 사용하여 더 높은 성능의 SLM을 내놓을 가능성이 높습니다.
또한, SLM은 로컬에서 실행할 수 있다는 점도 장점이며, 보안적인 요구도 충족시킬 수 있습니다. 하지만, 이 점은 RAG에서는 별로 상관없는 이야기일수도 있는데, Salesforce를 비롯해 기업들이 클라우드 서비스를 계속이용하는 것은 변하지 않을 것이기 때문에 결국 해답 원천은 클라우드에 계속 있을 것입니다. 따라서 편리한 RAG를 사용하고 싶다면, SLM의 이 기능은 그다지 메리트가 없을 것 같습니다.
이상으로 RAG(검색증강생성)는 답변의 정확도가 높아짐에 따라, 2025년 점점 더 주목받지 않을까라는 예측을 해보았습니다. 근거가 약한 부분도 있지만, 가급적 현재의 기술트렌드와 현장에서 느껴지는 것들을 바탕으로 가설을 세웠습니다.
독자 여러분들이 업무에서 생성형 AI 시스템을 구축할 때에도 참고가 되었으면 좋겠습니다. 앞으로도 생성형 AI와 RAG의 답변 정확도를 높이기 위한 노력과 연구에 대해 글로 작성해 보도록 하겠습니다.
© 2024 ZeR0, Hand-crafted & made with Damon JW Kim.
Profile: https://gaebal.site
강의 및 개발, 컨설팅 문의: https://talk.naver.com/ct/w5umt5