20와트의 지능

얀 르쿤이 다시 묻는 인공지능의 본질

by 아이스핫초코

인공지능은 지금까지 꽤 성실한 학생이었다.

도서관 하나를 통째로 외우듯 수조 개의 문장을 학습했고, 질문이 오면 가장 그럴듯한 문장을 골라 대답했다. 우리는 그것을 ‘지능’이라 불렀다.


하지만 얀 르쿤은 오래전부터 이 방식에 고개를 저어 왔다.
그는 딥러닝의 개척자이자, 동시에 현재 인공지능 패러다임의 가장 집요한 비판자다. 그리고 최근, 메타를 떠나 AMI(Advanced Machine Intelligence) Labs라는 새로운 연구소를 세웠다. 이 스타트업은 설립 직후 수십억 달러의 가치를 인정받았다.


604790958_26425816370352293_3875648630040263868_n.jpg


시장이 주목한 것은 성과가 아니라 질문이었다.
“지금 우리가 만드는 인공지능은 정말 지능인가?”


글을 잘 쓰는 기계의 그림자

대규모 언어 모델(LLM)은 분명 놀랍다.
그러나 그 본질은 여전히 확률적 선택기에 가깝다. 다음에 올 단어를 예측하고, 가장 자연스러운 문장을 고른다. 그 결과 우리는 유창한 답변을 얻지만, 동시에 ‘환각’이라는 구조적 문제도 함께 떠안는다.


더 큰 문제는 효율이다.
모델을 안정시키기 위해 파라미터는 계속 늘어나고, 이를 구동하기 위해 최신 가속기는 수백 와트의 전력을 소모한다. 냉각과 인프라 비용까지 고려하면, 이 방식은 필연적으로 비싸질 수밖에 없다.

르쿤은 여기서 인간을 떠올린다.
인간의 뇌는 약 20와트의 에너지로 사고하고 판단하며 문명을 만들어 왔다. 그렇다면 질문은 자연스럽다.


“왜 인공지능은 인간보다 수십 배의 에너지를 써야 하는가?”


세상을 이해하는 방식

르쿤이 제안한 해답은 ‘월드 모델(World Model)’이다.
지능은 문장을 많이 아는 것이 아니라, 세상이 어떻게 작동하는지 이해하는 능력이라는 주장이다.


이 생각은 뇌과학의 ‘베이지안 뇌 가설’과 닮아 있다.
우리의 뇌는 모든 자극에 반응하지 않는다. 대신 내부에 자신만의 세계를 만들고, 그 세계가 빗나갈 때만 수정한다. 예측이 틀릴 때에만 에너지를 쓰는 구조다.


르쿤의 월드 모델도 같은 방향을 지향한다.
인공지능은 세상을 직접 관찰하고, 그 안에서 규칙을 발견하며, 미래를 예측한다. 중요한 것은 디테일이 아니라 의미다.


생성하지 않는 예측, JEPA

이를 구현하기 위한 핵심 구조가 JEPA(Joint-Embedding Predictive Architecture)다.

JEPA 기반 인공지능은 텍스트 대신 영상과 환경을 본다.
벽에 부딪히는 공, 떨어지는 물체, 움직이는 사물들을 반복적으로 관찰하며 물리적 세계의 법칙을 학습한다.

흥미로운 점은 이 모델이 ‘생성하지 않는다’는 것이다.
낙엽의 모양, 구름의 세부 형태, 자동차 번호판 같은 정보는 과감히 버린다. 대신 행동에 필요한 핵심 의미만 남긴다.


“앞차가 감속한다 → 나도 감속해야 한다.”


이 정도의 이해면 충분하다.
모든 것을 그려내지 않기 때문에 연산은 줄고, 에너지 효율은 높아진다. 르쿤이 말하는 인간 수준의 지능 효율이 비로소 현실적인 목표가 된다.


지능에 몸을 입히다

월드 모델의 종착지는 피지컬 인공지능(Embodied AI)이다.
세상을 이해하는 지능이 신체를 갖고, 현실 세계와 직접 상호작용하는 존재다.


물론 길은 멀다.
지금의 GPU와는 다른 연산 구조, 소형화된 하드웨어, 장시간 작동 가능한 전력 관리 기술까지 해결해야 할 문제가 산적해 있다.

기술적 난관을 넘는다 해도, 또 하나의 질문이 남는다.
이 존재를 우리는 어디에 써야 할까?


안드로이드는 어디로 가야 하는가

수천만 원짜리 안드로이드를 설거지용으로 쓰는 것은 낭비다.
현실적으로 가장 먼저 적용될 곳은 공공성과 위험성이 높은 영역일 것이다.

청소와 환경 관리, 고령자 돌봄, 위험한 의료 현장, 재난 대응과 건설 현장. 인간에게 부담이 크고 반복적인 노동부터 대체될 가능성이 크다.

지능의 진보는 곧 사회적 선택의 문제가 된다.


두 개의 지능, 두 개의 미래

앞으로 인공지능은 하나의 모습으로 수렴하지 않을 것이다.

LLM은 계속해서 사무 환경의 핵심 도구이자, 가장 효율적인 ‘글쓰기 기계’로 진화할 것이다.

반면 르쿤의 월드 모델은 물리적 세계를 이해하고 행동하는 지능, 즉 로봇과 자율 시스템의 뇌가 될 가능성이 크다.


우리는 지금, 인공지능이 문장을 배울 것인가, 세상을 배울 것인가라는 갈림길에 서 있다.

그 질문을 가장 오래 붙들고 있는 사람, 여전히 얀 르쿤이다.


그리고 이 선택의 결과를 지켜보는 일은, 꽤 흥미로운 미래가 될 것 같다.



keyword
작가의 이전글AI 시대, 최고의 프로그래머조차