#LLM @LRM
글쓰기를 한동안 하지 못하였습니다. 한번 펜을 놓으니 오랫동안 놓게되는 것 같습니다. 그래서 다시 시작하려고 연구와 관련된 논문을 정리하려고 합니다. 내용이 도움이 되는 분들이 있으면 좋겠지만, 다시한번 브런치 활동을 하려는 마음으로 논문을 정리해보려고 합니다~
저자 : evanth Rameshkumar1, Jimson Huang2 (1University of Washington, 2Purdue University)
발행일 : 25 Oct 2025
대규모 언어 모델(LLMs)은 최근 몇 년 동안 추론 작업에서 상당한 발전을 이루었으나, 복잡한 문제에 대한 성능 저하가 문제로 지적되고 있다. 이러한 한계를 극복하기 위해 본 연구에서는 대규모 추론 모델(LRMs)을 제안하며, 이 모델은 단계별 논증과 자기 검증을 위한 인센티브로 파인튜닝된 LLM이다. LRM은 NLGraph와 같은 그래프 및 추론 벤치마크에서 뛰어난 성능을 보이는 것으로 알려져 있으며, 수학, 물리학, 의학, 법률 등 다양한 분야에서 일반화된 추론 가능성을 주장하고 있다.
그러나 기존 연구에서 사용된 벤치마크는 실제로 제한된 복잡성을 가지고 있음을 발견하였다. 이를 해결하기 위해 본 연구에서는 새로운 데이터셋인 Deep Reasoning Dataset(DeepRD)을 개발하고, 이 데이터셋을 통해 무한한 복잡도의 예제를 생성할 수 있는 프로세스를 제안한다. DeepRD를 활용하여 LRM의 성능을 그래프 연결성과 자연어 증명 계획에서 평가한 결과, 성능이 충분한 복잡도에서 급격히 떨어지며 일반화되지 않는 경향을 보였다.
또한, LRM의 성능을 대규모 실제 지식 그래프 및 증명 데이터셋의 복잡성 분포와 연관지어 분석한 결과, 대부분의 실제 예제가 LRM의 성공 영역에 속하지만 긴 꼬리 부분에서 상당한 실패 가능성을 드러내었다. 이러한 분석은 LRM의 단기적인 유용성을 강조하는 동시에, 훈련 데이터의 복잡성을 넘어서는 일반화 능력의 부족을 지적한다. 따라서, 향후 연구에서는 이러한 한계를 극복할 수 있는 새로운 방법론의 필요성이 강조된다.
본 연구는 LRM의 성능을 평가하고 그 한계를 명확히 하여, 향후 연구의 방향성을 제시하는 데 중요한 기여를 한다. LRM의 성능 한계를 이해하고 이를 극복하기 위한 지속적인 노력이 필요함을 시사한다.
대규모 언어 모델(LLM)은 추론 작업에서 상당한 발전을 보여주었습니다. 그러나 최근 연구에 따르면 트랜스포머와 LLM은 추론 문제가 적당한 복잡성을 초과할 경우 치명적으로 실패합니다. 우리는 단계별 논증 및 자기 검증을 위한 인센티브로 파인튜닝된 대규모 추론 모델(LRM)의 관점에서 이러한 발견을 재조명합니다. NLGraph와 같은 그래프 및 추론 벤치마크에서 LRM의 성능은 비범해 보이며, 일부는 수학, 물리학, 의학 및 법률과 같은 추론 집약적인 분야에서 일반화된 추론 및 혁신이 가능하다고 주장합니다. 그러나 추론 문제의 복잡성을 보다 신중하게 조정함으로써 기존 벤치마크가 실제로는 제한된 복잡성을 가지고 있음을 보여줍니다. 우리는 무한한 복잡성의 예제를 생성하기 위한 생성 프로세스와 함께 새로운 데이터셋인 Deep Reasoning Dataset(DeepRD)을 개발합니다. 이 데이터셋을 사용하여 그래프 연결성과 자연어 증명 계획에 대한 모델 성능을 평가합니다. 우리는 LRM의 성능이 충분한 복잡성에서 급격히 감소하고 일반화되지 않음을 발견합니다. 또한 LRM 결과를 대규모 실제 지식 그래프, 상호작용 그래프 및 증명 데이터셋의 복잡성 분포와 관련짓습니다. 우리는 대부분의 실제 사례가 LRM의 성공 영역 내에 있지만, 긴 꼬리는 상당한 실패 가능성을 드러낸다는 것을 발견합니다. 우리의 분석은 LRM의 단기 유용성을 강조하면서도 훈련 분포의 예제 복잡성을 넘어 일반화할 수 있는 새로운 방법의 필요성을 강조합니다.
출처 : [2510.22371] Reasoning Models Reason Well, Until They Don't