애플이 생각하는 AI 추론 모델

The Illusion of Thinking

by 송동훈 Hoon Song

The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity


Apple 연구진이 최근 AI 추론 모델들(o1, Claude thinking, DeepSeek-R1 등)의 실제 추론 능력을 체계적으로 분석한 결과, 놀라운 사실들이 드러났다.


1. 복잡도에 따른 3가지 성능 구간


낮은 복잡도: 일반 LLM이 오히려 더 효율적이고 정확함

중간 복잡도: thinking 모델이 우위를 보임

높은 복잡도: 둘 다 완전히 무너짐


이는 기존 인식과 다르다. thinking 모델이 항상 우수하다고 생각했는데, 실제로는 문제 복잡도에 따라 성능이 극명하게 갈린다.


2. 역설적인 추론 패턴


가장 흥미로운 발견은 복잡한 문제에 직면했을 때 AI가 오히려 '덜 생각한다'는 점이다. 문제가 어려워질수록 추론 토큰을 줄여버린다. 마치 어려운 문제 앞에서 포기하는 것처럼.


3. 알고리즘 제공해도 소용없음


연구진이 하노이 탑 문제의 정확한 알고리즘을 제공했음에도 성능 개선이 전혀 없었다. 이는 AI가 단순히 '문제 해결 방법을 모르는' 것이 아니라, 논리적 단계를 일관되게 실행하는 능력 자체에 한계가 있음을 의미한다.


4. 퍼즐별 상이한 실패 패턴


같은 AI라도 퍼즐 종류에 따라 완전히 다른 실패 양상을 보인다. 하노이 탑에서는 100단계까지 성공하다가 River Crossing에서는 5단계만에 실패하는 식이다.


실무적 시사점


이 연구는 현재 AI 추론 모델들이 겉보기와 달리 진정한 일반화된 추론 능력을 갖추지 못했음을 보여준다. 특정 복잡도를 넘어서면 예측 불가능하게 무너지는 '취성 파괴' 현상이 일어난다.


따라서 AI를 활용할 때는 문제의 복잡도를 정확히 파악하고, 해당 AI의 한계점을 미리 테스트해보는 것이 중요하다. 맹목적으로 thinking 모델을 사용하기보다는, 문제 특성에 맞는 적절한 모델을 선택하는 것이 더 현명한 접근법이라 생각한다.

keyword
작가의 이전글양자컴퓨터 시대, 정말 우리 코앞에 와 있는 걸까?