LLM의 추론능력에 숨겨진 비밀
일반인공지능(AGI)은 인간처럼 생각하고 스스로 판단할 줄 아는 인공지능을 뜻합니다. 산업용 이미지 분류 모델이나 물류 피킹 로봇과 같이 한정된 종류의 테스크에만 특화되어 있는 약인공지능(Weak AI)의 반대편에 서있는 개념으로, 흔히 강인공지능(Strong AI)이라고도 불리죠.
그러나 사실 AGI에 대한 엄밀한 정의는 아직까지도 존재하지 않습니다. 일론 머스크나 샘 올트먼 같은 사업가들은 마치 AGI의 시대가 수 년 안에 도래할 것처럼 호들갑을 떨고 있지만, 깊게 들어가 보면 그들의 말처럼 그리 간단한 문제는 아닙니다. AGI의 실현 가능성 여부를 놓고도 인공지능 학계의 대가들은 아직까지 논쟁을 이어가고 있을 뿐 아니라, 여전히 사람처럼 생각하고 행동하는 인공지능은 등장하지 않았습니다. 불과 수 년 전까지만 해도 AGI는 실존하는 개념이라기보다는 공상과학 속에만 존재하는 개념에 가까웠습니다.
그런데 2022년 말 챗GPT의 등장 이후 상황이 완전히 바뀌었습니다. 생성형 AI 기술의 발전과 함께 LLM과 AGI 사이의 관계가 주목받으면서 이 분야에 대한 연구는 거의 모든 AI 연구자와 엔지니어들의 관심사가 되었다고 해도 과언이 아닙니다.
그도 그럴 것이 모델의 사이즈 즉 매개변수(parameter)를 수천억 개(100B)에서 수조 개(1000B)로, 늘리면 늘릴수록 LLM은 텍스트, 이미지, 코드 등 방대한 양의 사전학습(pre-training) 데이터 속에서 스스로 패턴을 찾아낼 뿐 아니라 알려준 적 없는 사실에 대해 일정 수준의 '추론(Inference)'까지 할 수 있는 것처럼 보였기 때문이죠. 이를 우리는 스케일의 법칙(The Scaling Law)이라고 부릅니다.
생각하는 기계를 향한 인간의 오랜 욕망이 LLM과 함께 머지않아 실현될 것이라는 시각이 많습니다. 그런데 LLM을 둘러싼 연구 결과들은 우리의 직관과는 정 반대를 가리키고 있습니다.
LLM은 정말로 생각할 수 있을까요? 최근 애플의 연구진이 발표한 논문 "Illusion of Thinking"은 이 질문에 대해 매우 신중하면서도 도발적인 답을 제시합니다. 겉보기에 인간처럼 추론하고 사고하는 듯 보이는 대형언어모델들이 실제로는 '생각'을 하고 있는 것이 아니라, 단지 훈련 데이터 속 패턴을 복제하고 있을 뿐이라는 것이 이 논문의 핵심 주장입니다.
논문은 특히 LLM이 고정된 알고리즘적 문제들 — 예컨대 하노이의 탑, 체커 점프, 강 건너기 문제처럼 규칙이 명확하고 구조가 반복되는 퍼즐 — 에서조차 일반화된 문제 해결 능력을 보여주지 못한다는 점을 지적합니다. 하노이의 탑 문제에서 고리의 수를 점점 늘려가면, 모델은 초기 몇 단계까지는 그럴듯하게 풀어내지만, 문제 크기가 학습된 범위를 넘어서는 순간 정확도가 급격히 떨어지며, 결국 제로(0)에 수렴하게 됩니다.
더 충격적인 것은, 문제 해결을 위한 알고리즘을 명시적으로 알려준 경우와 그렇지 않은 경우 모두에서 성능에 큰 차이가 없다는 점입니다. 이는 곧 LLM이 문제를 ‘이해’하거나 ‘추론’하는 것이 아니라, 단지 익숙한 패턴을 재현하고 있을 가능성이 크다는 것을 시사하죠.
게다가 모델의 성능은 단순히 문제의 난이도에 비례해서 나빠지는 것이 아닙니다. 오히려, 중간 수준 난이도의 문제에서만 성능이 상승하는 특정 구간이 존재하는데, 이는 아마도 그 수준의 문제들이 학습 데이터에서 자주 등장했던 것과 관련이 있을 것으로 보입니다.
일을 하면서 최근 각광받고 있는 에이전틱 AI나 AI 에이전트 역시 진정한 의미의 '스스로' 생각할 줄 아는 LLM이 필수라는 생각에는 변함이 없습니다. 결국 촘스키가 말했던 확률론적 앵무새와 같은 LLM 만으로는 진정한 의미의 '자율적'인 AI 에이전트를 만들 수 없기 때문입니다. 그런데 논문에서 제시하는 실험 결과는 LLM이 마치 인간처럼 ‘생각’하는 것처럼 보이는 현상이 실상은 착시(illusion)에 가깝다는 점을 명확히 보여줍니다.
우리는 이러한 LLM의 현주소를 직시해야 합니다. 그러나 우리가 이룬 기술의 진보가 결코 무의미한 것은 아닙니다. AI 엔지니어로서 저는 여전히 LLM이 갖는 실용성과 잠재력을 매우 높게 평가합니다. LLM은 복잡도가 낮은 다수의 작업에 대해 놀라운 정확도와 효율성을 보이며, 실제로 많은 산업적 가치를 창출하고 있다는 사실은 분명하기 때문입니다.
하지만, 이 논문이 말하듯이 “LLM의 크기를 키우기만 하면 결국 AGI가 될 것”이라는 식의 낙관론은 이제 재고해야 할 시점입니다. 순수한 호기심을 바탕으로 진정한 의미의 AGI를 만들어 내기 위해서는 이보 전진을 위한 일보 후퇴가 필수이기 때문입니다.