대규모언어모델 vs 검색증강생성
검색증강생성에 대해 정보를 수집하다 보니, 대규모 언어모델은 비슷하면서도 다른점이 있어 해당 글을 찾게되었습니다. 정리가 잘되어 있어 공유드려요!
(더 쉬운 이해를 위해 글의 흐름은 조금 수정했습니다.)
검색증강생성(RAG)에 대해 궁금하신 분들께는 아래 글이 조금이나마 도움이 되었으면 좋겠습니다.
https://brunch.co.kr/@chorong92/22
거대언어모델(LLMs)과 검색증강생성(RAG)는 모두 자연어처리 기술을 활용한다는 점에서 비슷하지만, 접근방식이나 응용하는 방식에서 꽤 큰 차이가 있습니다. 어떤 차이가 있는지 알아보겠습니다.
✔️ LLMs(거대언어모델)은 외부데이터에 대한 실시간 접근 없이 훈련과저에서 학습한 패턴을 기반으로 텍스트를 생성하는 독립형 생성모델로, 광범위한 맥락에서 인간과 같은 텍스트를 생성하는 것이 주된 강점입니다.
✔️ RAG(검색증강생성)는 LLM의 성능을 향상시키는 방법으로, 최신의 외부 데이터를 적절히 검색해 생성과정에 반영하는 검색메커니즘을 통합(융합)한 형태입니다. 정확한 정보가 중요한 시나리오에 쓰일 수 있습니다.
1. LLMs의 핵심특징
LLMs의 핵심 특징으로는 3가지가 있습니다.
첫째, 학습데이터입니다. 특정하지 않은 다양한 출처에서 비롯된 방대한 양의 말뭉치(corpora)를 학습하여 언어의 패턴이나 구문, 문맥 등을 학습합니다.
둘째, LLMs은 생성적입니다. 입력을 받은 프롬프트에 대해 논리적이고 적절한 문맥의 답변을 생성합니다.
셋째, LLMs은 완전하고 독립된 모델입니다. 한 번 학습한 후에는 응답을 생성하기 위에 외부 데이터베이스나 정보에 대한 추가적인 접근을 하지 않습니다.
2. RAG의 핵심특징
RAG는 언어모델과 검색 메커니즘(원리 혹은 과정)이 합쳐진 것으로, 외부 지식 베이스에 접근하여 답을 생성하기 위해 적절하고 최신의 정보를 제공합니다.
RAG의 핵심 특징 역시 3가지로 추려볼 수 있습니다.
첫째, RAG는 '검색컴포넌트'입니다. 입력된 값(쿼리)를 기반으로 거대한 말뭉치나 데이터베이스로부터 적절한 문서 및 정보의 일부를 가져오기 위해 검색시스템을 사용합니다.
둘째, RAG는 '생성컴포넌트'입니다. 검색된 정보를 활용해 일관되고 적절한 맥락의 응답을 생성합니다.
셋째, RAG는 '동적인 지식의 융합'입니다. 외부 출처의 최신 정보를 수집하고, 통합하여 응답이 최신이고 정확한지 확인할 수 있습니다.
1. LLMs의 강점
2. LLMs의 한계
첫째, '지식의 차단'입니다. 가장 마지막으로 학습한 시점의 정보만 가지고 있기에 학습한 이후의 최신정보에 대해서는 알 수 없습니다.
둘째, '크기와 리소스'입니다. 학습 및 추론 시, 상당한 연산 비용이 요구됩니다. (단, 얼마 전 중국에서 훨씬 낮은 비용의 하드웨어와 컴퓨터 자원을 사용하면서도 고성능의 Deepseek R1이 발표된 이후, 해당 내용에 대해서는 변화가 있을 것 같습니다.)
셋째, '할루시네이션', 바로 거짓정보입니다. 그럴듯하게 들리지만(plausible sounding) 사실은 정확하지 않은 정보를 생성합니다.
따라서 LLMs은 일반적으로 텍스트 생성이나 요약, 번역, 질의답변과 같은 과제(task)를 주로 수행합니다.
3. RAG의 강점
RAG의 강점으로는 '최신정보', '정확성', '확장성'을 들 수 있습니다.
LLMs와는 달리 외부 데이터에 접근하여 정보를 가져오므로 가장 최신의 정보를 받을 수 있습니다. 또한, 검색을 기반으로 하기에 답변 생성 시, 할루시네이션(환각현상)을 줄일 수 있습니다.
대규모 지식(large knowledge)을 기반으로 효율적으로 확장하여 접근할 수 있는 정보의 폭이 넓습니다.
따라서 RAG는 보통 고객문의를 해결하기 위해 기업별 지식 기반과 생성모델을 결함하여 활용하거나 연구관련 분야에서 활용합니다.
4. RAG의 한계
먼저 '복잡성'입니다. LLMs에 비해 검색/생성 구성요소(컴포넌트) 등 시스템의 복잡성이 높아질 수 있습니다.
둘째, '검색 퀄리티의 의존성'입니다. 생성된 응답의 품질은 검색된 정보의 관련성과 정확성에 크게 좌우됩니다.
마지막으로 '대기시간'입니다. 외부 정보를 검색하고 처리하는 것은 독립된 LLMs에 비해 대기시간이 필요할 수 있습니다.
[출처] 'Difference between LLM&RAG', Chanchala Gorale.
https://cgorale111.medium.com/difference-between-llm-rag-d960ec942b88