brunch

Graph-R1: 똑똑한 지식 탐색 방법

하이퍼그래프와 강화학습의 하모니

by 미미니

수십억 권의 책이 가득한 거대한 도서관에서 길을 잃고, 까다로운 질문에 딱 맞는 정보를 찾아야 한다고 상상해보세요. 어마어마하게 느껴지죠? 이제, 모든 책의 위치를 알고 있을 뿐만 아니라 책들 사이의 아이디어를 연결하고, 단계적으로 생각하며, 완벽한 답변을 내놓는 초지능 사서를 떠올려보세요. 바로 Graph-R1​이 그런 역할을 합니다! 왜 이 논문​이 게임 체인저인지 재미있고 알기 쉽게 풀어볼게요!


문제: 대형 언어 모델은 망각하고, 때론 헛소리를 한다


대형 언어 모델(LLM), 즉 챗봇을 구동하는 모델들은 엄청난 능력을 갖고 있지만, “환각(hallucination)”이라는 골칫거리가 있어요. 모르는 답을 지어내버리는 거죠! 이를 해결하기 위해 연구자들은 검색 증강 생성(RAG, Retrieval-Augmented Generation)을 개발했어요. 이 방법은 위키피디아 같은 외부 지식을 끌어와 사실에 기반한 답변을 만들게 해줍니다. 하지만 기존 RAG에는 한계가 있어요. 지식을 연결되지 않은 텍스트 덩어리로 취급하다 보니, 아이디어 간의 복잡한 연결을 놓치죠. 퍼즐 조각의 절반이 흩어진 상태로 퍼즐을 맞추려는 것과 비슷해요.

여기서 GraphRAG가 등장합니다. 지식을 그래프(노드가 개념이고, 엣지가 관계인 네트워크)로 정리해 더 나은 성능을 보여주죠. 하지만 여전히 문제는 남아있어요:

• 비싼 구축 비용: 지식 그래프를 만드는 데 엄청난 컴퓨팅 자원이 필요해요.

• 일회성 검색: 한 번만 정보를 가져와 복잡한 질문에 충분하지 않을 때가 많죠.

• 대형 모델 의존: 그래프를 해석하려면 거대한 LLM이 필요하고, 질문 표현 방식에 따라 답변 품질이 달라져요.

Graph-R1은 강화학습(RL)새로운 그래프 접근 방식을 결합해 이 문제들을 해결하는 찰떡 같은 프레임워크예요. 하나씩 살펴볼게요!


Graph-R1이 왜 이렇게 좋은가?


Graph-R1은 LLM에 뇌 업그레이드를 선사해, 지식을 탐색하는 똑똑한 에이전트로 바꿔줍니다. 어떻게 작동하는지 보죠.


1. 가벼운 지식 하이퍼그래프:

• Graph-R1은 복잡한 그래프 대신 하이퍼그래프를 사용해요. 이는 여러 아이디어를 한 번에 연결할 수 있는 3D 마인드맵 같은 구조죠!

”가볍다”는 건 텍스트에서 관계를 추출하는 과정을 간소화해 시간과 컴퓨팅 자원을 절약한다는 뜻이에요. 기존 GraphRAG보다 훨씬 효율적이죠.


2. 다중 턴 검색 작업:

• 기존 RAG가 한 번에 정보를 가져오고 끝낸다면, Graph-R1은 호기심 많은 탐정처럼 행동해요. 생각하고, 하이퍼그래프에 질문을 던지고, 정보를 가져오고, 다시 생각하고, 이 과정을 답에 확신이 생길 때까지 반복하죠.

이 다중 턴 과정은 대화에서 후속 질문을 던져 진실에 가까워지는 것과 비슷해요. “2019년 최우수 작품상을 받은 영화의 감독은 누구고, 그 감독은 언제 태어났지?” 같은 복잡한 질문에 딱 맞죠.


3. 강화학습의 초능력:

• Graph-R1은 엔드투엔드 강화학습(특히 Group Relative Policy Optimization, GRPO라는 기술)을 사용해 모델을 더 똑똑한 사고자로 훈련시켜요. 모델은 다음에 대해 보상을 받습니다:

명확한 사고 구조 준수: 답변 전에 생각하는 과정
정확한 답변 제공: 정답과 얼마나 가까운지를 기준으로
시간이 지나면서 모델은 하이퍼그래프를 전문가처럼 탐색하며, 탐색(더 깊이 파고들기)과 정확성(정답 맞추기)을 균형 있게 다루는 법을 배워요.


4. 결과 중심의 똑똑함:

• 모델은 과정뿐 아니라 최종 결과에 집중하도록 훈련돼요. 요리사가 레시피만 따르는 게 아니라 맛있는 요리를 만드는 데 집중하는 것과 같죠. 덕분에 Graph-R1의 답변은 더 정확하고 관련성이 높아요.


왜 신경 써야 할까? 결과가 다 말해준다!


연구자들은 Graph-R1을 HotpotQA, TriviaQA 등 여섯 개의 까다로운 데이터셋에서 테스트하고, 표준 RAG, GraphRAG, RL 기반 RAG 등과 비교했어요. Graph-R1이 왜 돋보였는지 보죠.


더 높은 정확도: 2WikiMultiHopQA 같은 데이터셋에서 Graph-R1은 7B 파라미터 모델로 F1 65.04를 기록하며, HyperGraphRAG(F1 21.14)와 표준 RAG(F1 22.31)를 압도했어요.

더 빠르고 저렴: 하이퍼그래프 구축에 1,000 토큰당 5.69초, 100만 토큰당 2.81달러가 들며, GraphRAG(8.04초, 3.35달러)나 HyperGraphRAG(6.76초, 4.14달러)보다 효율적이에요. 답변 생성은 쿼리당 7초에 비용 0달러로, HyperGraphRAG(9.6초, 8.76달러)를 앞질렀죠!

똑똑한 검색: 평균 2.3~2.5턴의 다중 턴 상호작용으로 적당한 양(1200~1500 토큰)의 정보를 가져와, 과부하 없이 정확도를 극대화했어요.

고품질 답변: 정확도 86.9, 관련성 95.2로, GPT-4o-mini 기반 방법과도 경쟁할 만한 성능을 보여줬어요.

어디서나 통한다: 학습하지 않은 “분포 외” 데이터셋에서도 성능이 85% 이상 유지되며, 일부는 90%를 넘었어요. 적응력이 뛰어나죠!

요컨대, Graph-R1은 정확하고, 효율적이며, 적응력 높은 지식 탐색 기계예요.


실제 사례: 영화 미스터리 해결하기


“2019년 최우수 작품상을 받은 영화의 감독은 누구고, 그 감독은 언제 태어났지?”라는 질문을 던져보죠. Graph-R1이 어떻게 해결하는지 볼게요:

1. 생각: “2019년 최우수 작품상 영화, 그 감독, 그리고 감독의 생일을 찾아야 해. 먼저 영화부터 시작하자.”

2. 질문: 하이퍼그래프에 “2019년 최우수 작품상” 검색.

3. 검색: 기생충이 2019년 최우수 작품상을 받았다는 걸 찾음.

4. 다시 생각: “이제 기생충의 감독을 찾아야 해.”

5. 다시 질문: “기생충의 감독” 검색.

6. 검색: 봉준호가 감독임을 알아냄.

7. 다시 생각: “마지막으로 봉준호의 생일을 찾아야 해.”

8. 다시 질문: “봉준호 생일” 검색.

9. 검색: 1969년 9월 14일에 태어났음을 찾음.

10. 답변: “2019년 최우수 작품상을 받은 기생충은 봉준호 감독의 작품이며, 그는 1969년 9월 14일에 태어났습니다.”

이 단계별 과정은 Graph-R1이 추측하거나 환각하지 않고 퍼즐을 조립하듯 답변을 만들어가는 모습이에요.


Graph-R1의 다음 단계는?


Graph-R1은 이미 인상적이지만, 연구자들은 개선할 여지가 있다고 봐요.

비용 졸라매기: 하이퍼그래프 생성 비용을 더 줄여, 심지어 “제로 비용”으로 만들 방법을 탐구할 거예요.

더 똑똑한 검색: 그래프 신경망(GNN)을 추가해 그래프 구조를 더 깊이 이해하도록 할 수 있어요.

멀티모달 매직: 텍스트뿐 아니라 이미지, 비디오, 오디오를 처리하도록 확장하면, “이 그림의 스타일은 뭐지?” 같은 질문에도 답할 수 있죠.

실세계 영향력: 의료, 법률, 금융 같은 지식 집약적 분야에 Graph-R1을 적용해 정확하고 해석 가능한 답변을 제공할 계획이에요.


이 논문을 꼭 읽어야 하는 이유


Graph-R1은 AI를 더 똑똑하고, 빠르고, 신뢰할 수 있게 만들고 싶은 이들에게 보내는 러브레터 같은 논문이에요. 그래프 기반 지식(구조적이고 연결된), 다중 턴 사고(사려 깊고 반복적), 강화학습(목표 지향적이고 적응력 있는)을 결합해 AI의 미래를 보여줍니다. 연구자, 개발자, 또는 테크에 호기심 많은 분이라면, 이 논문은 실용적이면서도 영감을 주는 통찰을 제공해요.

게다가 코드가 https://github.com/LHRLAB/Graph-R1​에서 공개되어 있으니 직접 확인해볼 수 있어요! 논문을 읽으며 Graph-R1이 AI를 더 나은 지식 탐험가로 만드는 과정을 즐겨보세요.

연구자들은 Graph-R1을 GPT-4o-mini나 Qwen2.5 같은 모델과 비교했는데, 많은 경우 더 작은 모델로도 뛰어난 성능을 냈어요. 하이퍼그래프를 무기로 다윗이 골리앗을 이긴 셈이죠!
keyword
매거진의 이전글TTD-DR:인간처럼 연구하는 AI의 놀라운 혁신