GPT-5는 벽에 부딪혔는가?

AI 스케일링의 두 가지 그림자

by Yameh

안녕하세요.

이전에 사비네 호센펠더와 데이브 파리나 간의 유튜브상의 논쟁을 다룬 적이 있었는데요.

오늘 유튜브에 올라온 사비네 호센펠더의 "GPT-5: Have We Finally Hit The AI Scaling Wall?" 영상은 현재 AI가 마주한 한계에 대해 흥미로운 질문을 던집니다. 이 영상을 바탕으로 해당 내용을 요약해 한 번 설명 드려볼까 합니다. (원본 영상 링크는 글 하단에 첨부했습니다.)


지난 8월 7일 OpenAI는 AI의 아이콘, GPT 시리즈의 차기작 'GPT-5'의 등장시키며 세상을 떠들썩하게 했습니다. GPT-4가 보여준 경이로운 성능을 뛰어넘어, 마침내 인간과 구별할 수 없는 수준의 지능(AGI), 혹은 그 이상의 무언가를 보여줄 것이라는 기대감이 실리콘밸리를 감돌았고. 우리는 또 한 번의 거대한 기술적 도약을 목격할 채비를 마치고 있었습니다.

하지만 화려한 스포트라이트 뒤편, AI의 심장부에서는 미세하지만 분명한 '삐걱거리는 소리'가 들려오고 있었습니다. 최근 발표된 두 편의 비판적인 연구는 우리가 굳게 믿어온 AI 발전의 황금률, '스케일링 법칙(Scaling Law)'에 어두운 그림자를 드리웁니다. 어쩌면 거인의 진격은 우리가 생각했던 것보다 훨씬 더 큰 벽에 부딪혔을지도 모릅니다.


스케일링 법칙이란 간단히 말해, AI 모델의 규모(파라미터 수), 학습 데이터의 양, 그리고 이를 뒷받침하는 컴퓨팅 파워를 일정 비율 이상으로 늘리면, AI의 성능이 예측 가능하게 향상된다는 경험적 규칙입니다. 마치 운동선수가 훈련량을 늘리면 기록이 좋아지는 것처럼, AI도 더 많이 공부하고 덩치를 키우면 더 똑똑해진다는 믿음이었죠. 지난 몇 년간 AI 산업을 이끌어온 가장 강력한 성공 공식이었습니다.


첫 번째 그림자: 계산의 벽 (The Wall of Computation)

P.V. Coveney와 S. Succi가 발표한 '거대 언어 모델이 마주한 벽(The wall confronting large language models)'이라는 논문은 AI의 '신뢰성' 문제에 의문을 제기합니다. (이 논문은 아직 동료 심사(peer review)를 거치지 않은 사전 공개 버전입니다)

현재의 LLM은 놀랍도록 유능하지만, 종종 틀린 정보를 사실처럼 말하는 '환각(Hallucination)' 현상을 보입니다. 이 오류를 줄여 과학 연구나 의료 진단에 사용할 수 있을 만큼 신뢰도를 높이려면 얼마나 많은 컴퓨팅 파워가 필요할까요?

연구진은 오류를 없애는 과정에 '극단적으로 긴 계산의 꼬리(extremely long computational tail)'가 존재한다고 말합니다. 연구의 결론은 충격적입니다. 오류율을 10분의 1로 줄이는(one order of magnitude) 데 필요한 계산 비용이 10의 10제곱에서 10의 20제곱 배 더 필요할 수 있다는 것입니다. 이는 영상의 표현을 빌리자면 '은하 크기의 태양광 발전소'를 소유하고 있어야 감당할 수 있는 수준이라는 것입니다.

이는 스케일링에 명확한 물리적 '벽'은 없지만, 인류가 감당할 수 없는 수준의 비용과 에너지라는 '경제적 벽'이 사실상 눈앞에 다가왔음을 의미합니다.


두 번째 그림자: 추론의 환상 (The Illusion of Reasoning)

'LLM의 사고 연쇄 추론은 신기루인가? 데이터 분포의 렌즈로 보다(Is Chain-of Thought Reasoning of LLMs a Mirage? A Data Distribution Lens)'라는 제목의 또 다른 연구는 더 근본적인 질문을 던집니다.


"LLM은 정말 '생각'을 하는 것일까, 아니면 정교한 앵무새일까?"


연구진은 소규모 언어 모델에 '사고의 연쇄(Chain-of-Thought)' 기법을 적용하여 추론 능력이 개선되는지를 분석했습니다. 그 결과, LLM의 추론 능력은 훈련 데이터라는 울타리를 벗어나지 못하며, 논문의 표현을 빌리자면 '대체로 깨지기 쉬운 신기루(largely a brittle mirage)'일 수 있다는 결론에 도달했습니다.

즉, LLM은 논리적 원리를 이해하여 새로운 문제를 푸는 진정한 '추론자'가 아니라, 훈련 과정에서 학습한 수많은 패턴을 정교하게 모방하여 그럴듯한 답을 내놓는 '정교한 추론 텍스트의 시뮬레이터(sophisticated simulators of reasoning-like text)'에 가깝다는 것입니다. 만약 이 주장이 사실이라면, 단순히 모델을 키우는 것만으로는 AI가 어느 날 갑자기 진정한 논리를 깨우치고 새로운 속성을 개발할 것이라는 기대는 비현실적입니다.


벽 너머의 희미한 빛: 월드 모델

그렇다면 대안은 없는 걸까? 두 개의 그림자가 짙어지는 가운데, 연구자들은 다른 길을 모색하고 있습니다.

언어 데이터의 한계를 넘어, 실제 또는 가상 세계와의 상호작용을 통해 세상을 배우는 방식이 그것입니다. 구글 딥마인드가 선보인 '지니(Genie) 3'는 비디오 게임을 보고 그 세계의 물리 법칙을 학습하여 직접 플레이 가능한 가상 세계를 만들어냈습니다. 이는 언어가 아닌, '세계 모델(World Model)'을 통해 지능에 접근하는 새로운 가능성을 보여주었습니다.


두 개의 엔진을 탐사해야 하는 이유

결국 우리는 AI의 미래를 두고 거대한 질문 앞에 서있습니다. 계산의 벽과 추론의 환상이라는 그림자는 우리에게 묻습니다. 현재의 길, 즉 스케일링이라는 '진화'만으로 충분한가? 아니면 '월드 모델'과 같이 완전히 새로운 길을 찾는 '혁명'이 필요한가?


이 거대한 질문에 답하기 위해, 저는 AI의 미래를 이끄는 '두 개의 엔진'을 깊이 탐사하는 여정을 시작해볼 예정입니다.

현재의 패러다임을 극한까지 밀어붙이는 '진화의 엔진'과, 모든 규칙을 새로 쓰는 '혁명의 엔진'. 두 엔진의 작동 원리와 그들이 마주한 한계, 그리고 마침내 두 엔진이 충돌하고 융합할 때 어떤 미래가 펼쳐질 것인가에 대하여.



[시리즈 예고]: 곧 연재될 <AI의 미래, 두 개의 엔진> 시리즈에서 그 거대한 서사의 막을 올릴 예정입니다.


원본 영상 출처:

Sabine Hossenfelder, "GPT-5: Have We Finally Hit The AI Scaling Wall?"


#AI #인공지능 #GPT5 #스케일링법칙 #AGI #월드모델 #두개의엔진 #미래기술 #티저

keyword
작가의 이전글팝 컬처 속 AI의 정체