brunch

You can make anything
by writing

C.S.Lewis

by delight Jan 06. 2024

RAG, LLM 문제 해결책이었는데 벌써 종말론?

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 미디엄에 올라온 Eric Risco의 글을 정리한 것입니다.

검색 증강 생성(RAG)은 복잡한 지식 기반 작업을 위한 거대 언어 모델(LLM)을 향상시키는 데 초석이 돼 왔다. RAG는 벡터 데이터베이스에서 관련 데이터를 가져와 사실에 근거한 LLM을 강화함으로써 조작된 정보 사례를 크게 줄였다. 하지만 이것이 RAG가 가는 길의 마지막일까?

핵심 한계 극복하기: 미래를 엿보다

RAG 필요성은 현재 LLM이 갖는 근본적인 제약에서 비롯된다. 이들 모델은 인상적인 학습 능력에도 불구하고 사전 학습된 인터넷 텍스트로만 지식을 습득하기 때문에 실제 세계에 대한 인식이 부족하고 사실적 추론에 어려움을 겪는다. 따라서 RAG는 동적인 외부 지식을 주입해 지식 집약적인 프롬프트에 대한 LLM 응답 정확도를 향상시키는 데 중요한 역할을 해왔다.

하지만 RAG에도 결함이 없는 것은 아니다. 적절한 임베딩, 벡터 데이터베이스, 순위 알고리즘을 선택하는 과정은 섬세한 작업으로 결과의 효과에 영향을 미친다. 본질적으로 RAG는 LLM이 갖는 보다 뿌리 깊은 문제들에 대한 취약한 해결책이었다.

새로운 아키텍처와 확장의 여명기

모델 아키텍처와 확장이 급속한 발전하는 것은 잠재적인 변화를 의미한다. 특히 두 가지 핵심 영역이 주목할 만하다.

1. 어텐션 메커니즘 속도 향상:

- 스파스(sparse), 리니어(linear), 플래시 어텐션(Flash Attention)과 같은 혁신은 시퀀스 길이에 따라 계산을 2진법으로 확장하는 데 한계가 있는 기존 트랜스포머 어텐션 메커니즘을 재정의하고 있다.

- 기술이 발전함에 따라 최대 20만개 토큰까지 컨텍스트 크기를 지원하는 Yarn, GPT-4-Turbo, Claude 2.1과 같은 LLM들이 나오고 있다. 이러한 컨텍스트 크기 확장을 통해 LLM은 더 광범위한 지식 기반을 흡수할 수 있게 돼 RAG 외부 지식 검색을 불필요하게 만들 수도 있다.

2. 트랜스포머를 넘어서:

- 맘바(Mamba)와 RWKV 같은 새로운 아키텍처가 트랜스포머 패러다임에 도전하고 있다. 이들 모델은 선형 어텐션 메커니즘( linear attention mechanisms)을 사용해 트랜스포머에서 셀프 어텐션(self-attention)이 갖는 이차 계산 및 메모리 복잡성을 해결한다.

- RWKV는 RNN과 트랜스포머 강점을 결합해 효율적인 메모리 사용과 병렬화된 트레이닝을 제공한다. 반면 맘바는 구조화된 상태 공간 모델을 위한 선택 메커니즘을 도입해 선형 확장성과 컨텍스트에 따른 추론을 가능하게 한다.

3. RAG: 틈새용으로 필요하다?

이같은 발전으로 인해 RAG가 당장 쓸모없어지지는 않겠지만, 변화는 불가피하다. 1~2년 안에 RAG는 핵심 구성 요소에서 틈새 최적화 도구로 바뀔 수 있다. 이들 모델이 본질적으로 컨텍스트 길이를 무제한으로 확장할 수 있기 때문에 LLM 한계를 보강하기 위한 벡터 데이터베이스 필요성은 줄어들 것이다.

LLM과 RAG의 미래

진화하는 환경은 우리가 알고 있는 RAG가 과거의 유물이 될 수 있는 미래를 예고한다. LLM은 벡터 데이터베이스와 텍스트 청킹(text chunking. 청킹은 말의 덩어리가 '의미를 가질 수 있도록 묶는 것을 의미)이 포함된 전체 RAG 아키텍처를 불필요하게 만들 정도로 방대한 지식 저장소를 갖춘 현실을 향해 꾸준히 나아가고 있다. 그러나 컨텍스트를 채우기 위해 어떤 형태 검색 시스템은 여전히 필수적으로 남아있을 수 있다.

예고된 RAG의 종말

요약하자면, RAG의 등장은 일시적인 한계에 대한 창의적인 해결책이었다. 더 큰 컨텍스트 용량과 더 효율적인 아키텍처로 진화하는 LLM을 보면서 RAG에 대한 의존도는 줄어들고 결국에는 구식이 될 것이다. 앞으로는 단순히 지식이 더 풍부할 뿐만 아니라 본질적으로 방대한 인간 지식을 처리할 수 있는 능력이 더 뛰어난 LLM이 나올 것이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari