brunch

REFRAG: RAG 디코딩을 혁신한 흥미로운 이야기!

빠르게, 더 빠르게 탐색하기

by 미미니

오늘 소개할 논문은 대형 언어 모델(LLM)의 RAG(Retrieval-Augmented Generation) 시스템을 더 빠르고 효율적으로 만드는 혁신적인 방법, REFRAG: Rethinking RAG based Decoding​에 관한 이야기입니다. 이 논문은 2025년 9월에 공개되었으며, Meta Superintelligence Labs, 싱가포르 국립대학교(NUS), 라이스 대학교의 뛰어난 연구자들이 공동으로 작성했습니다. 이들은 AI의 ‘지식 검색 + 생성’ 과정에서 발생하는 속도 병목 문제를 해결한 영리한 접근법을 제안했어요.


문제: RAG가 왜 ‘느린 거북이’일까요?


상상해보세요. LLM은 마치 무한 도서관의 사서처럼, 외부에서 지식을 검색해 답변을 생성하는 RAG 시스템을 사용합니다. 예를 들어, “기후 변화에 대한 최신 연구는?” 같은 질문에 웹 문서를 가져와 요약하죠. 하지만 검색된 문서가 길어질수록 AI의 처리 속도가 급격히 느려집니다. 이는 다음과 같은 이유 때문이에요.


TTFT(Time-to-First-Token) 지연: 첫 단어를 출력하기까지 시간이 오래 걸려요. 문서 길이가 길어지면 KV 캐시(키-밸류 메모리)는 선형적으로, 주의(attention) 메커니즘은 제곱으로 계산량이 증가합니다. 실시간 응답이 중요한 앱에선 큰 문제죠!

RAG의 특성: 검색된 문서는 비슷한 주제를 다루지만, 세부 정보는 ’희소(sparse)’합니다. 마치 파티에서 특정 그룹끼리만 대화하는 것처럼, 모든 문서를 전부 계산할 필요는 없어요.

기존 한계: 지금까지의 연구는 LLM 전체를 최적화하려 했지만, RAG 특유의 문제를 해결하지 못했어요. 이 논문은 “RAG만의 약점을 공략해야 한다!“고 강조합니다.


REFRAG: 디코딩의 ‘부스터’ 등장!


REFRAG는 LLM의 아키텍처를 건드리지 않고, 디코딩(생성) 과정만 개선한 프레임워크입니다. 이름은 ’Re(다시) + Frag(조각)’에서 왔어요. 문서를 조각내어 효율적으로 처리하는 방식이죠. 세 가지 핵심 단계로 설명하고 있어요.


1. 압축(Compression): ‘작게 접는’ 마법

긴 문서를 고정 크기의 ’청크(chunk)’로 나누고, RoBERTa 같은 가벼운 인코더로 각 청크를 단일 임베딩으로 압축합니다. 압축률은 16~32배나 되죠. 예를 들어, 1000토큰 문서가 30~60토큰으로 줄어들죠. 마치 옷을 지퍼백에 압축 포장하듯, 대화 중 새 문서가 추가되어도 바로 적용 가능해요. 멀티턴 채팅이나 에이전트 앱에 최적입니다.


2. 감지(Sensing): ‘스마트 레이더’ 작동

압축된 청크를 강화학습(RL) 정책으로 분석해 “이 청크가 다음 답변에 필요할까?“를 판단합니다. 혼란도(perplexity)를 보상으로 사용해요. 중요하지 않으면 압축 상태로 두고, 중요하면 ‘확장 신호’를 보냅니다. 놀라운 점은, 단순 휴리스틱(난이도 기반)이 아닌 학습된 정책으로 선택적 확장을 해요. 마치 AI가 “이 부분은 핵심 정보야!“라고 포스트잇을 붙이는 셈이죠. 계산량을 90% 이상 줄이는 비결입니다.


3. 확장(Expansion): ‘펼치기’ 순간

선택된 청크만 원래 토큰으로 복원해 LLM에 주입합니다. 인코더와 디코더를 조화롭게 맞추기 위해 ’지속 사전 훈련(Continual Pre-Training)’과 커리큘럼 학습으로 미세 조정했어요. 재미있는 점은, 압축된 ‘미니맵’을 훑다가 보물 상자(중요 청크)를 발견하면 풀 오픈하여 속도를 높이면서도 정확도를 유지해요.

REFRAG는 자동 회귀(autoregressive) 디코딩을 유지해 기존 LLM에 플러그인처럼 쉽게 적용 가능합니다. 훈련 데이터로는 SlimPajama(200억 토큰의 책/논문 데이터)를, 평가엔 PG19, Proof-Pile 같은 긴 문서 데이터셋을 사용했어요.


‘속도 광란’의 증거!


실험 결과는 REFRAG의 위력을 보여줍니다.

TTFT 가속: LLaMA-7B 대비 30.85배 빠른 속도를 기록했어요 (기존 최고 CEPE보다 3.75배 개선). 압축률 k=16일 때 16.53배 빨라졌고, 혼란도(perplexity)도 9.3% 향상되었다 해요.

컨텍스트 확장: 16배 긴 문서를 처리 가능하대요. RAG 검색, 멀티턴 대화, 긴 문서 요약에서 탁월한 결과를 냈어요.

비교 우위: REPLUG, CEPE 같은 기존 방법을 압도. RL 정책 덕에 휴리스틱보다 2배 효율적이에요. (표 21의 ROUGE 점수로 요약 태스크 1위)

놀라운 점: 압축률이 높아도 정확도가 유지돼요. 느린 RAG가 ‘번개 같은 토끼’로 변신하는 놀라운 결과를 논문에서 보여주고 있어요.


마무리: 왜 이 논문이 주목받을까요?


저자들은 “RAG의 미래는 효율적 디코딩에 있다!“고 단언합니다. REFRAG는 LLM의 ‘장거리 마라톤’ 능력을 업그레이드해, 검색 엔진, 챗봇, 문서 요약 같은 실생활 앱에서 처리량(throughput)을 폭발적으로 늘릴 거예요. AI가 백 페이지 논문을 1초 만에 요약해주는 세상을 향해 나아가고 있네요.

이 논문은 AI 효율성 연구의 꽤나 괜찮은 시도 같아 보입니다. REFRAG 구현을 시도해볼 만하고, 연구자라면 RL 정책이나 압축 기법을 더 파볼 만하죠.

기획자의 입장에서 보면 이런 기술이 얼른 상용화되어 사용가능하면 이래저래 해 볼 것이 많을 것 같다고 기대하게 됩니다. 논문 말고 서비스를 주세요!

keyword
매거진의 이전글AI도 성격이 있다? MBTI로 더 똑똑해진 AI