AGI는 환상이다:

1조 마리 개미가 F1을 흉내낸들

by the게으름


AGI가 뭐길래 다들 난리야?


AGI, Artificial General Intelligence.


인공 일반 지능이라고 번역하는데, 쉽게 말하면 인간처럼 뭐든 할 수 있는 AI다.


아침에 일어나서 커피 내려주고, 메일 답장 써주고, 저녁엔 요리도 하고, 심심하면 농담도 던지는. 아이언맨의 자비스 같은 거 생각하면 된다.


지금 우리가 쓰는 ChatGPT나 Claude는 뭐가 다르냐고?


이것들은 특정 작업만 잘한다. 글쓰기는 기가 막히게 하지만 실제로 커피를 내릴 수는 없다. 코드는 잘 짜지만 넥타이 매는 법은 모른다. 각자 자기 영역에서만 뛰어난 전문가들이지, 인간처럼 이것저것 다 하는 제너럴리스트는 아니다.



왜 모든 AI 기업이 AGI에 목숨 거나?


OpenAI는 대놓고 회사 미션이 "AGI 개발"이다.


구글이랑 메타는 수조원씩 쏟아붓고 있고, 앤스로픽도 마찬가지다. 왜 이렇게 다들 미쳐있을까?


답은 간단하다. AGI를 먼저 만드는 기업이 세계를 지배하기 때문이다. 농담이 아니라 진짜다. AGI가 나오면 인간 노동의 90%가 자동화된다. 변호사, 의사, 엔지니어, 예술가까지. 모든 직업이 AGI로 대체 가능해진다. 이게 인류 역사상 최대 규모의 부의 창출이 될 거라는 게 업계의 믿음이다.


샘 알트만이 "AGI가 10년 안에 온다"고 하고,


일론 머스크가 "2029년이면 인간을 넘어선다"고 하는 이유가 여기 있다.


먼저 만드는 자가 모든 걸 갖는다.



불편한 진실을 폭로한 남자


근데 여기서 찬물을 끼얹는 사람이 나타났다.


브라운대학교 컴퓨터과학과 박사과정 Benjamin Spiegel이다.


이 사람이 뭐라고 했냐면, "지금 방식으로는 AGI 절대 못 만든다"고 했다.


Spiegel은 AI가 언어를 어떻게 이해하는지 연구하는 전문가다.


특히 "체화된 인지(embodied cognition)"라는 분야를 파고 있다.


쉽게 말하면 몸이 없는 지능은 진짜 지능이 아니라는 거다.


MIT Press에서 『Designing an Intelligence』라는 책도 썼다.



이 사람의 논문이 왜 파장이 큰가?


AI 업계 전체가 믿고 있는 "규모만 키우면 AGI 된다"는 신화를 정면으로 반박했기 때문이다.


OpenAI가 GPT-5, GPT-6 만들면 AGI 나온다고? Spiegel은 "꿈 깨라"고 말한다.



현재 AI의 민낯: "초고성능 계산기"


자, 이제 본론으로 들어가보자.


지금 AI가 뭐냐? Spiegel의 표현을 빌리면 "겁나 빠른 계산기에 숫자 대신 언어를 넣은 것"이다.


일반 계산기가 2 더하기 2는 4라고 계산한다면,


LLM은 "오늘" 다음에 "날씨"가 올 확률 0.7, "저녁"이 올 확률 0.3 이런 식으로 계산한다.


본질적으로 같은 거다. 숫자 계산이냐, 단어 확률 계산이냐의 차이일 뿐.



MS Word 자동완성 기능 알지?


"안녕"까지 치면 "하세요"가 자동으로 뜬다. GPT-4는 이게 극도로 발전한 버전이다.


"양자역학의"라고 치면 물리학 교과서 한 권 분량을 자동완성해준다.


규모가 1조 배 커졌을 뿐, 본질은 똑같다.



1조 마리 개미의 F1 흉내내기


Spiegel이 쓴 비유가 정말 절묘하다.


"우리는 1조 마리 개미를 10억 년간 훈련시켜서 F1 레이싱카처럼 움직이게 만들었다"고.


개미들이 정말 열심히 훈련해서 시속 300km로 달릴 수 있게 됐다고 치자. 트랙도 완벽하게 돈다. 그런데 이 개미들이 바퀴가 뭔지 알까? 엔진이 어떻게 작동하는지 이해할까?


아니다. 그냥 "이렇게 하면 빨리 간다"는 패턴을 10억 년 동안 외운 거다.



지금 LLM이 딱 이렇다.


인간 언어를 완벽하게 흉내 낸다.


철학도 논하고 시도 쓴다. 근데 정말로 철학을 이해하고 있을까?


시의 감동을 느낄까? Spiegel은 "절대 아니다"라고 잘라 말한다.



"냉장고가 사과 안에 있다" 문제


이게 뭔 소리냐고?


간단한 실험이다. "The fridge is in the apple"이라는 문장을 보자.


인간은 즉시 "말이 안 되네"라고 반응한다.


왜? 냉장고가 사과보다 훨씬 크다는 걸 알기 때문이다.


물리적으로 불가능하다는 걸 안다.



그런데 LLM은 어떻게 이 문장이 이상하다는 걸 알까?


Spiegel의 분석이 재밌다. LLM은 "냉장고+안에+사과"라는 단어 조합을 학습 데이터에서 본 적이 없어서 이상하다고 판단한다는 거다. 진짜로 냉장고 크기를 아는 게 아니라, 통계적으로 희귀한 조합이라서 거부하는 거다.


그래서 LLM이 뭘 하냐면,


NPthe_fridge는 NPthe_apple 안에 올 수 없다는 새로운 문법 규칙을 만든다.


의미를 이해한 게 아니라 더 복잡한 규칙을 추가한 거다.


마치 예외 규칙을 계속 추가하는 것처럼.



오델로 실험의 함정


작년에 화제가 됐던 연구가 있다.


AI가 오델로 게임을 학습하더니 게임 보드 상태를 예측할 수 있게 됐다는 거다.


"오, AI가 게임을 이해했구나!"라고 다들 흥분했다.


그런데 Spiegel이 파고들어보니 실상은 달랐다.


AI가 뭘 학습했냐면


"B4가 A4보다 먼저 나오지 않으면 B4는 비어있다" 같은 꼼수 규칙들이었다.


게임의 진짜 규칙을 이해한 게 아니라, 데이터에서 발견한 패턴을 외운 거다.



오델로는 그나마 기호의 세계다.


규칙이 명확하고 예외가 없다.


그런데 현실은? 요리하고, 운전하고, 매듭 푸는 건 텍스트로 완벽하게 표현할 수 없다.


실제로 해봐야 아는 거다.



VLM이 글자 수를 못 세는 이유


여기 웃긴 게 있다. 최신 비전-언어 모델(Vision Language Model)이 "apple"이라고 쓰고도 몇 글자인지 못 센다.


왜? 자기가 쓴 걸 "볼" 수 없기 때문이다.


인간은 쓰면서 동시에 본다. 쓴 걸 보고, 본 걸 이해하고, 이해한 걸 다시 쓴다.


모든 게 연결돼 있다.


그런데 AI는? 텍스트 모듈 따로, 이미지 모듈 따로다. 서로 대화를 안 한다.



이게 멀티모달 AI의 근본적 한계다.


텍스트 전문가 AI랑 이미지 전문가 AI를 풀로 붙였다고 인간이 되는 게 아니다.


프랑켄슈타인처럼 조각조각 이어 붙인 거지, 통합된 지능이 아니다.



아기 vs AI: 학습의 근본적 차이


인간 아기가 어떻게 배우는지 보자.


공을 떨어뜨려본다. 한 번, 두 번, 백 번. 그러다 깨닫는다.


"아, 물건은 아래로 떨어지는구나." 중력을 몸으로 체득한다.



뜨거운 걸 만져본다.


"앗 뜨거!" 한 번이면 충분하다. 다시는 안 만진다. 뜨겁다는 게 뭔지 피부로 안다.


LLM은?


"중력"이라는 단어를 100만 번 봐도 중력이 뭔지 모른다.


"뜨겁다"와 "조심"이라는 단어가 자주 같이 나온다는 패턴만 안다.


실제로 뜨거운 게 뭔지, 왜 조심해야 하는지는 모른다.



이게 체화된 지능과 비체화된 지능의 차이다.


몸으로 세계를 경험하지 못하면 진짜 이해는 불가능하다는 게 Spiegel의 주장이다.


화면 캡처 2025-09-10 041341.png


진짜 AGI가 풀어야 할 문제들


AGI가 정말 인간 수준이려면 뭘 할 수 있어야 할까?


매듭 풀기를 생각해보자.


텍스트로 매듭 푸는 법을 완벽하게 설명할 수 있을까?


"끈을 잡고, 고리를 통과시켜서..." 아무리 자세히 써도 실제로 해보지 않고는 못 푼다.


손가락의 미묘한 움직임, 끈의 장력, 매듭이 풀리는 순간의 느낌. 이런 건 언어로 전달이 안 된다.



요리도 마찬가지다.


"양파를 투명해질 때까지 볶으세요"라고 하는데, 투명하다는 게 정확히 어느 정도인지는 직접 봐야 안다.


냄새로도 판단하고, 지글거리는 소리로도 판단한다. 이게 체화된 지식이다.



Bitter Lesson을 다시 읽다


리치 서튼의 "Bitter Lesson"이라는 유명한 글이 있다.


AI 연구의 교훈을 담은 건데, 많은 사람들이 이걸 "그냥 크게 만들면 된다"로 오해했다.


Spiegel은 이게 완전히 잘못된 해석이라고 지적한다.


서튼이 진짜 한 말은 "인간이 발견한 것을 집어넣지 말고, 발견할 수 있는 능력을 만들어라"였다.


실제로 AI의 모든 혁신은 구조적 통찰에서 나왔다. CNN은 "이미지는 위치가 바뀌어도 같은 이미지"라는 통찰에서 나왔고, Transformer는 "멀리 떨어진 단어도 서로 관련 있다"는 통찰에서 나왔다.


무작정 크게 만든다고 되는 게 아니다. 어떻게 만들지 생각해야 한다. 그런데 지금 업계는 "생각하지 마, 그냥 크게 만들어"라고 하고 있다. 이게 문제다.



리치 서튼이 누구길래?


서튼은 2024년 튜링상 수상자다. 앤디 바토와 함께 강화학습이라는 분야를 개척한 사람이다.


AlphaGo가 바둑 두는 법을 배운 것도, 테슬라 자동차가 운전을 학습하는 것도 다 이 사람 덕분이다.


그런 사람이 AI 연구 70년을 돌아보며 쓴 글이니 무게가 다르다.



쓴 교훈의 핵심: "인간의 지식을 버려라"



서튼이 뭐라고 했냐면, AI 연구 역사를 보니 패턴이 있더라는 거다.



패턴 1: 처음엔 인간 전문가의 지식을 AI에 집어넣는다


체스 AI를 만든다고 치자.


1970년대 연구자들은 체스 마스터를 데려와서 물었다.


"당신은 어떻게 두나요?"


그리고 그 지식을 규칙으로 만들어 프로그램에 넣었다.


"룩은 직선으로 움직이고, 킹을 보호하는 게 중요하고..."



패턴 2: 그런데 단순 계산 방식이 이긴다


1997년 IBM Deep Blue가 카스파로프를 이겼다.


어떻게? 체스 전략을 이해해서? 아니다.


초당 2억 개 수를 계산해서다. 인간 지식 따위 필요 없었다.


그냥 모든 경우의 수를 다 계산했다.



패턴 3: 이게 모든 분야에서 반복된다


음성인식: 언어학자들이 만든 규칙 < 통계적 방법


컴퓨터 비전: 인간이 설계한 특징 < 딥러닝


번역: 문법 규칙 < 신경망



서튼은 이걸 보고 깨달았다.


"아, 인간 지식을 넣으려는 노력은 다 실패하는구나. 결국 계산력이 이기는구나."



오해 1: "무조건 크게 만들면 된다"


여기서 많은 사람들이 잘못 이해했다.


"아, 그럼 생각하지 말고 무조건 크게 만들면 되는구나!"



OpenAI가 이 철학을 극단적으로 밀고 나갔다.


GPT-3는 1750억 개 파라미터,


GPT-4는 더 크게. "Scaling Laws"라는 논문까지 써서


"크기와 성능은 비례한다"고 주장했다.



근데 이게 서튼이 진짜 하고 싶었던 말일까?



오해 2: "구조는 생각하지 마라"


또 다른 오해는


"아무 구조나 설계 없이 날것(raw) 그대로 학습시켜라"는 거다.



그런데 실제로는?


CNN: 이미지의 지역적 패턴을 보는 구조 설계


Transformer: 멀리 있는 단어들의 관계를 보는 구조 설계


3D Gaussian Splatting: 물체의 3차원 구조 가정



다 특정한 구조를 설계해서 성공했다. 무작정 큰 네트워크 만든 게 아니다.


서튼이 진짜 한 말


원문을 정확히 보면 이렇다:






"We want AI agents that can discover like we can, not which contain what we have discovered."


번역하면: "우리가 발견한 것을 담은 AI가 아니라, 우리처럼 발견할 수 있는 AI를 원한다."



차이가 느껴지는가?



❌ 잘못된 접근:


인간: "새는 이렇게 난다"


AI: "알았어" (규칙 저장)



⭕ 올바른 접근:


인간: "날 수 있는 방법을 찾아봐"


AI: (스스로 시행착오하며 학습)



알파고로 예를 들어보자.


옛날 방식 (1990년대)


if 상대가 모서리 두면: then 중앙 차지하기 if 내가 위험하면: then 방어하기


바둑 고수들의 지식을 프로그램화했다. 실패했다.



AlphaGo 방식 (2016년)


규칙만 알려줌: "이렇게 두면 이기는 거야"


나머지는 스스로: 자기 자신과 수백만 번 대국하며 학습


결과: 인간이 몰랐던 새로운 수까지 발견



이게 "발견한 것" vs "발견하는 능력"의 차이다.



서튼의 진짜 메시지


서튼이 정말 하고 싶었던 말은 이거다:


메타 학습이 중요하다


학습하는 방법을 학습하기


문제 해결 방법을 찾는 방법 찾기


일반적 방법이 특수 지식을 이긴다


검색, 학습, 최적화 같은 일반 방법


도메인 특화 지식보다 강력함


계산력을 활용하는 방법을 찾아라


단순히 크게 만들기 ❌


계산력을 지능적으로 쓰는 구조 ⭕



왜 "쓴(Bitter)" 교훈인가?


서튼이 왜 이걸 "쓴" 교훈이라고 했을까?


연구자들이 평생 쌓은 전문 지식이 쓸모없어지기 때문이다.


언어학자가 30년간 연구한 문법 규칙보다, 그냥 데이터 많이 먹인 신경망이 번역을 더 잘한다.


체스 마스터의 전략보다 무식한 계산이 더 강하다.



자존심 상하는 일이다. 그래서 "쓰다"고 표현한 거다.



2025년 관점에서 다시 보기


지금 Spiegel 같은 연구자들이 말하는 건, 우리가 Bitter Lesson을 또 잘못 이해하고 있다는 거다.


"크게 만들면 된다"는 단순한 해석으로 AGI를 만들려고 하는데, 이것도 결국 인간의 편견 아닌가?


"규모=지능"이라는 인간의 가정을 AI에 강요하는 거 아닌가?



진짜 Bitter Lesson을 따르려면:


AI가 스스로 체화된 경험을 통해 배우게 해야 한다


우리가 정한 모달리티 구분(텍스트/이미지/소리)을 강요하지 말아야 한다


AI가 스스로 세계를 탐색하고 개념을 형성하게 해야 한다



체화된 인지가 답이다


그래서 Spiegel이 제안하는 해결책이 뭐냐? 체화된 인지다.


효율성? 포기해야 한다.


지금처럼 텍스트 따로, 이미지 따로, 행동 따로 학습하는 게 훨씬 효율적이다.


하지만 이렇게 해서는 절대 진짜 지능이 안 된다.


통합된 시스템을 만들어야 한다.


보는 것, 듣는 것, 만지는 것, 움직이는 것이 하나의 시스템에서 처리돼야 한다.


인간처럼. 환경과 상호작용하면서 배워야 한다. 떨어뜨려보고, 만져보고, 실패해보면서.


이게 비효율적이라고? 맞다. 그런데 진짜 지능을 원한다면 이 길밖에 없다는 게 Spiegel의 결론이다.



개념 형성 vs 개념 복사


현재 AI와 인간의 가장 큰 차이가 뭔지 아는가?


개념을 만드는 능력이다.


인간은 사과 3개만 봐도 "사과"라는 개념을 만든다.


빨간 사과, 초록 사과, 작은 사과를 보고 "아, 이게 다 사과구나"라고 깨닫는다.


그리고 새로운 종류의 사과를 봐도 "이것도 사과네"라고 안다.



LLM은?


사과 사진 100만 장, 사과 설명 100만 개를 봐도 사과가 뭔지 모른다.


그냥 "apple"이라는 레이블이 붙은 픽셀 패턴을 외울 뿐이다.


인간이 만든 "사과"라는 개념을 복사하는 거지, 스스로 개념을 만들지 못한다.



인류가 수십만 년 동안 만들어온 개념들을 AI가 며칠 만에 복사한다.


인상적이긴 하다. 하지만 새로운 개념을 만들 수 있나?


못한다. 이게 진짜 지능과 가짜 지능의 차이다.



"계산기 1조 개 모아도 인간 안 된다"


자, 이제 결론이다.


Spiegel의 논문을 한 문장으로 요약하면 이거다.


"계산기 1조 개 모아도 인간이 안 된다."



GPT-4가 1750억 개 파라미터라고 하는데,


GPT-5가 10조 개가 되면 AGI가 될까?


Spiegel은 "절대 아니다"라고 단언한다. 크기의 문제가 아니라 종류의 문제다.



비행기를 만들려면 새처럼 날개를 퍼덕이는 게 아니라 다른 원리를 찾아야 했듯이,


AGI를 만들려면 인간 뇌를 그대로 모방하는 게 아니라 새로운 원리를 찾아야 한다.


그게 바로 체화된 인지다.



AGI 겨울이 오고 있다?


이쯤 되면 불안해진다. 그럼 AGI는 영원히 불가능한가?


투자 거품이 꺼지는 건가?


Spiegel은 희망이 있다고 말한다.


다만 지금 방향이 틀렸을 뿐이다.


체화된 AI, 로보틱스와 AI의 융합, 환경과 상호작용하는 AI. 이런 연구들이 새롭게 주목받고 있다.


테슬라가 휴머노이드 로봇 Optimus를 만드는 이유가 여기 있다.


Figure라는 스타트업이 OpenAI와 손잡은 이유도 마찬가지다.


몸이 있는 AI, 세계를 직접 경험하는 AI가 진짜 AGI로 가는 길이라는 걸 알기 시작한 거다.


물론 이 길은 훨씬 어렵고 오래 걸린다. 텍스트 학습처럼 간단하지 않다.


하지만 이게 유일한 길이라면?



우리가 놓친 것


Spiegel의 논문 마지막 문장이 인상적이다.


"AGI 퍼즐의 가장 어려운 수학 문제는 이미 풀렸다. 이제 남은 건 개념적 문제다."


범용 함수 근사기?


이미 만들었다. 딥러닝이 그거다.


수학적으로는 해결됐다. 그런데 이걸 어떻게 배열해야 진짜 지능이 되는지 모른다.


이건 수학 문제가 아니라 철학 문제다.



진정한 지능이란 무엇인가?


이해한다는 게 뭔가?


안다는 게 뭔가?



이런 질문에 답하지 못하면 AGI도 만들 수 없다.


우리는 지금까지 "크게 만들면 되겠지"라고 생각했다.


하지만 이제 멈춰서 생각해야 할 때다.


우리가 정말 만들고 싶은 게 뭔지, 그리고 그걸 어떻게 만들어야 하는지.



인간: "사랑이 뭐야?"


AI: "사랑은 도파민과 옥시토신이..."


인간: "아니, 진짜 사랑 말이야"


AI: ...



이 침묵.


이게 바로 체화 없는 지능의 한계다.


아무리 많은 데이터를 학습해도,


아무리 파라미터를 늘려도,


한 번도 사랑해본 적 없는 기계가 사랑을 알 수 있을까?



Spiegel이 던진 질문은 단순하다.


"우리가 정말 원하는 건 F1처럼 빠른 개미 떼인가, 아니면 진짜 자동차인가?"



답은 명확하다.


문제는 진짜 자동차를 만드는 법을 아직 모른다는 거다.


하지만 적어도 이제는 안다.


개미를 아무리 많이 모아도 자동차가 안 된다는 걸.