지식을 ‘알고’ ‘활용’하는 똑똑한 AI의 탄생
혹시 이런 경험 있으신가요? 시험공부를 하다 보면 책에 나온 개념은 다 외웠는데, 막상 문제를 풀 때는 “이걸 어디다 써야 하지?”라며 머리를 쥐어짜는 순간! 대형 언어 모델(LLM)도 비슷한 문제를 겪고 있었어요. 아무리 방대한 지식을 검색해서 가져와도, 그 지식을 어떻게 적용해야 할지 몰라서 허둥대는 경우가 많았죠. 여기서 등장한 게 바로 RAG+라는 신박한 기술! 논문 RAG+: Enhancing Retrieval-Augmented Generation with Application-Aware Reasoning은 LLM이 단순히 지식을 ‘아는’ 것을 넘어, 그것을 ‘활용’하는 똑똑한 방법을 제안합니다. 자, 이 논문의 재미있는 핵심을 함께 파헤쳐 볼까요?
RAG(Retrieval-Augmented Generation)는 LLM이 외부 데이터베이스에서 필요한 정보를 검색(retrieve)해서 답변을 생성(generate)하는 기술이에요. 예를 들어, “최신 스마트폰 트렌드는?” 같은 질문이 들어오면, 모델은 최신 기사를 검색해서 답변을 만들어내죠. 하지만 기존 RAG는 한계가 있었어요. 마치 공기놀이를 하다 첫 판에서 멈춘 느낌? 검색한 정보는 많지만, 그걸 어떻게 문제 해결에 연결해야 할지 몰라서 답답한 거예요.
RAG+는 이 문제를 해결하기 위해 등장한 업그레이드 버전! 단순히 지식을 검색하는 데 그치지 않고, 그 지식을 어떻게 적용해야 하는지를 함께 알려주는 ‘사용 설명서’를 제공해요. RAG+는 지식(knowledge)과 그 지식을 실제로 사용한 응용 사례(application examples)를 쌍으로 저장한 뒤, 질문이 들어오면 둘 다 함께 검색해서 모델에게 제공합니다. 이 덕분에 모델은 “아, 이 지식은 이렇게 쓰는 거구나!” 하고 깨달음을 얻으며 더 정확한 답변을 내놓죠.
RAG+의 작동 원리는 간단하면서도 영리해요. 두 단계로 나눠서 설명할게요:
1. 준비 단계 (Construction Stage)
RAG+는 먼저 지식 코퍼스(knowledge corpus)와 응용 코퍼스(application corpus)를 만듭니다. 지식 코퍼스는 우리가 아는 평범한 데이터베이스예요. 예를 들어, 수학 문제라면 “라그랑주 보간법: 여러 점을 지나는 다항식을 구하는 방법” 같은 정보가 들어가죠. 여기에 한 발짝 더 나아가, 각 지식에 맞는 응용 사례를 추가해요. 이 사례는 “라그랑주 보간법을 사용해 (1,2), (3,4) 점을 지나는 다항식을 구하라” 같은 구체적인 문제 풀이 과정이에요. 이런 응용 사례는 사람이 직접 만들거나, 강력한 LLM을 활용해 자동으로 생성할 수 있어요. 이렇게 지식과 응용 사례가 짝을 이루면, 모델이 문제를 풀 때 참고할 ‘레시피’가 생기는 셈이죠.
2. 실전 단계 (Inference Stage)
질문이 들어오면 RAG+는 지식 코퍼스에서 관련 정보를 검색하고, 그에 맞는 응용 사례도 함께 가져옵니다. 예를 들어, “(2,5), (4,7) 점을 지나는 다항식을 구하라”는 질문이 들어오면, 라그랑주 보간법의 정의와 함께 그 방법을 적용한 비슷한 문제의 풀이 과정을 제공해요. 이걸 보고 모델은 “오, 이렇게 풀면 되겠네!” 하며 정확한 답을 내놓죠.
이 과정은 기존 RAG에 비해 한 단계 더 깊이 들어가는 거예요. 마치 요리책에서 재료 목록만 보는 게 아니라, 실제 요리 과정을 같이 보는 느낌? 덕분에 모델은 단순히 정보를 나열하는 데 그치지 않고, 논리적이고 체계적인 추론을 할 수 있게 됩니다.
논문에서는 RAG+를 수학, 법률, 의학이라는 세 가지 까다로운 도메인에서 테스트했어요. 결과는? 압도적! 기존 RAG보다 평균 3~5% 성능이 향상되었고, 복잡한 시나리오에서는 최대 7.5%까지 올라갔어요. 몇 가지 하이라이트를 소개할게요:
• 수학 (MathQA): Qwen2.5-14B 모델이 Rerank RAG+를 썼을 때, 정확도가 71.4%에서 78.9%로 껑충! DS-Qwen-7B 같은 작은 모델도 6.5% 향상된 33.7%를 기록했어요. 수학은 단순히 공식을 아는 걸 넘어, 그 공식을 문제에 맞게 적용해야 하잖아요. RAG+는 이런 ‘적용’ 능력을 키워줬죠.
• 법률 (Sentencing Prediction): Qwen2.5-72B 모델이 Rerank RAG+로 87.5% 정확도를 달성하며, 기존 RAG(76.5%)를 10%나 앞질렀어요. 법률은 판례와 법조문을 정확히 연결해야 하는데, RAG+는 판례 적용 사례를 제공해 모델이 더 똑똑한 판단을 내리게 했어요.
• 의학 (MedQA): LLaMA3.3-70B 모델이 Rerank RAG+로 85.6% 정확도를 기록하며, 기존 RAG(81%)를 넘어섰어요. 의학은 지식뿐 아니라 임상적 추론이 중요한데, RAG+는 실제 사례를 통해 모델의 추론 능력을 강화했죠.
특히 놀라운 건, 모델 크기와 상관없이 RAG+가 효과를 발휘했다는 점이에요. 작은 모델(7B)부터 거대한 모델(72B)까지 모두 성능 향상을 보였으니, RAG+는 진짜 ‘만능 키’라고 할 만하죠.
RAG+의 성공 비결은 인간의 학습 방식에서 영감을 받은 데 있어요. 교육 심리학의 블룸의 분류학(Bloom’s Taxonomy)에 따르면, 지식을 단순히 ‘기억’하는 것과 그것을 ‘적용’하는 건 전혀 다른 단계예요. 또 ACT-R 이론은 인간이 사실적 지식(declarative memory)과 절차적 지식(procedural memory)을 함께 사용할 때 더 잘 학습한다고 말하죠. RAG+는 이런 인지 과학 원리를 AI에 적용한 거예요.
예를 들어, 수학 시험을 준비한다고 해볼게요. 공식만 외우는 친구 vs 공식을 외우고 비슷한 문제를 풀어본 친구. 누가 시험에서 더 잘할까요? 당연히 후자죠! RAG+는 모델에게 ‘문제 풀이 연습’을 시켜주는 셈이에요. 이 덕분에 모델은 지식을 단순히 나열하는 데 그치지 않고, 문제 해결에 필요한 논리적 흐름을 따라갈 수 있죠.
1. 모듈형 설계: RAG+는 기존 RAG 파이프라인에 바로 붙일 수 있는 플러그 앤 플레이 방식이에요. 모델 구조를 바꾸거나 추가 학습을 할 필요 없이, 그냥 응용 코퍼스만 추가하면 끝!
2. 검색 방식 자유로움: RAG+는 어떤 검색 방법(예: dense retrieval, reranking)과도 잘 어울려요. 유연한 조커 같은 존재죠.
3. 확장성: 응용 코퍼스 생성은 한 번만 하면 되니까, 시간이 지나도 효율적으로 업데이트 가능해요. 논문에 따르면 법률 코퍼스(528KB)를 만드는 데 8개의 64GB NPU로 6시간 걸렸다고 하니, 꽤 실용적이죠.
RAG+가 멋지긴 하지만, 완벽하진 않아요. 논문에서도 몇 가지 한계를 솔직히 밝혔어요:
• 코퍼스 만들기 부담: 고품질 응용 코퍼스를 만드는 건 시간과 자원이 꽤 들어요. 특히 데이터가 부족한 도메인에서는 LLM이 잘못된 사례를 만들어낼 수도 있죠.
• 지식-응용 짝꿍 문제: 지식과 응용 사례가 딱 맞아떨어져야 하는데, 검색된 지식이 엉뚱하거나 불완전하면 잘못된 추론으로 이어질 수 있어요.
• 검색 품질 의존: RAG+는 검색 품질을 직접 개선하진 않아요. 검색이 엉망이면 응용 사례를 아무리 잘 줘도 소용없죠.
미래에는 검색과 응용 생성을 동시에 최적화하거나, 불확실한 정보에 더 잘 대처하는 RAG+ 2.0이 나올지도 몰라요!
RAG+는 단순히 기술적 업그레이드를 넘어, AI가 더 인간답게 사고할 수 있는 길을 열어줬어요. 지식을 검색하고, 그걸 문제 해결에 적용하는 과정은 우리가 일상에서 배우고 성장하는 방식과 닮았죠. 수학, 법률, 의학 같은 복잡한 도메인에서 보여준 성능은 RAG+가 단순한 QA를 넘어 논리적 추론이 필요한 분야에서도 빛을 발할 수 있음을 보여줍니다.
이 논문을 읽으며 든 생각은, RAG+는 AI에게 ‘생각하는 응용력’을 가르쳐주는 스승 같은 존재라는 거예요. 앞으로 RAG+가 더 발전해서, AI가 우리 곁에서 더 똑똑하고 믿음직한 조력자가 된다면 얼마나 멋질까요? 여러분도 이 논문 읽어보고, AI의 ‘응용력’이 어디까지 갈지 상상해 보세요!