우리는 흔히 ‘몸보다 마음’, ‘육체보다 사고’가 더 정교하다고 믿는다. 철학도, 심리학도, 인공지능도 오랫동안 '생각하는 주체'에 집중해 왔다. 데카르트는 “나는 생각한다, 고로 존재한다”라고 말했고, 그 문장은 서구 문명의 인식론적 토대를 세웠다. 사고는 곧 인간성을 가늠하는 기준이 되었고, 지능은 계산과 논리, 추론과 판단으로 축소되었다. 이 전통 속에서 ‘몸’은 종종 부차적인 요소, 혹은 뇌의 지시를 따르는 단순한 수행자처럼 간주됐다. 그러나 인공지능의 발전과 함께, 우리는 그 전제를 근본적으로 의심하게 된다. 사고가 뇌에서만 이루어지는 것이라면, 왜 AI는 아직도 제대로 걷지 못하고, 쓰러지고, 균형을 잡지 못할까?
인공지능이 인간처럼 말하고, 글을 쓰며, 논리적 사고를 흉내 내는 시대다. GPT와 같은 대형 언어모델은 몇 문장 안에 독자의 감정을 건드릴 수 있고, 전문적인 설명도 매끄럽게 이어나간다. 언어는 인간 지능의 핵심이라 여겨졌기 때문에, 우리는 이 모델들을 ‘지능적’이라 부르게 되었다. 하지만 과연 언어는 사고의 전부일까? 언어 이전에, 우리는 이미 세계와 접촉하고 반응하는 존재다. 언어는 그 접촉의 결과를 서술할 수는 있지만, 그 자체로 접속은 아니다. 기호는 방향을 제시할 수는 있지만, 그 방향의 질감이나 무게는 전달할 수 없다. 인간은 단지 기호를 해석하는 존재가 아니라, 감각하고 움직이는 존재다.
‘몸을 움직인다’는 일은 단순한 반복 명령이 아니다. 로봇에게 조깅을 시켜보면 그 난이도가 단숨에 드러난다. 그 단순해 보이는 동작 속에는, 지면의 마찰과 발의 각도, 팔의 흔들림, 중심 이동, 근육 간 조화가 실시간으로 맞물려 있다. 우리는 이 과정을 너무 당연하게 수행하기 때문에, 그 복잡성을 인식하지 못한다. 하지만 인공지능 연구자들은 안다. 간단한 잡기 동작조차도 로봇에게는 수백 개의 조건과 예외 처리가 필요한 고난도 연산이라는 것을. 손가락 하나를 뻗는 데에도, 감각 센서와 모터, 거리 계산, 미끄러짐에 대한 예측까지 복합적으로 작동해야 한다. 인간은 걸으며 생각하지만, AI는 걷는 것 자체가 ‘생각’이다.
인간의 몸은 수백만 년에 걸친 진화의 결과다. 눈은 빛을 받아들이는 동시에 공간의 원근을 감지하고, 귀는 소리를 듣는 동시에 방향을 파악한다. 손은 물체를 쥐는 동시에 그것의 온도와 질감을 감지한다. 이는 단지 생물학적 기능이 아니라, 계산적으로도 정교한 구조다. 감각기관과 신경망, 근육과 골격은 끊임없이 피드백 루프를 형성하며, 매 순간 환경에 적응한다. 몸은 정보를 수집하고 처리하며, 판단하고 실행하는 종합적 시스템이다. 생각은 뇌에서만 일어나는 것이 아니라, 몸 전체의 리듬과 반응 속에서 생성된다. 몸은 단지 이동을 위한 수단이 아니라, 사고의 기반이기도 하다.
이런 관점에서 보면, 몸은 단지 ‘조종되는 대상’이 아니라 ‘스스로 사고하는 단위’처럼 작동한다. 반사 신경은 뇌의 지시 없이도 위협에 반응하고, 자세를 유지하는 근육은 무의식적으로 작동하며 균형을 조절한다. 오히려 우리는 뇌가 관여하기 전에 이미 몸이 먼저 반응하고, 그 반응을 통해 생각을 구성하기도 한다. 달리는 중에 균형을 잃으면, 생각보다 먼저 몸이 반응하고, 그 반응 이후에 우리는 상황을 인식한다. 이처럼 사고는 움직임보다 늦게 따라온다. 움직임이 먼저고 느낌이 그다음이며, 사고는 맨 마지막에야 비로소 따라온다. 체화된 인지 이론은 이 순서를 강조하며, 사고가 몸에서 출발한다고 주장한다.
그러나 현재의 인공지능 기술은 이 몸의 복잡성을 제대로 구현하지 못한다. 특히 피지컬 AI는 현실 환경에서 예외와 변수를 처리하는 데 어려움을 겪는다. 클라우드 기반의 언어 모델은 수 초의 지연이 허용되지만, 움직이는 로봇은 수 밀리초 안에 반응해야 한다. 반응 속도가 느리면 충돌하거나 넘어지고, 그 결과는 물리적 손상으로 이어진다. 따라서, 피지컬 AI에는 반드시 온디바이스(on-device) 연산이 필요하다. 기기 자체에서 모든 계산이 이뤄져야 하고, 외부 서버에 의존하는 방식은 한계를 가진다. 또한 센서의 정밀도, 에너지 효율, 데이터 처리 속도까지 동시적으로 최적화되어야 한다. 이처럼 피지컬 AI는 단순한 소프트웨어 문제가 아니라, 하드웨어와 환경 전체가 얽힌 총체적 과제다.
더욱 어려운 문제는 현실 세계 자체가 너무도 복잡하고 불확정하다는 점이다. 언어는 일정한 규칙과 문법을 따르지만, 현실은 규칙을 갖지 않는다. 똑같은 물건도 조명이나 표면 질감, 위치에 따라 전혀 다르게 인식된다. 인간은 이러한 차이를 감각적으로 조절하지만, AI는 모든 경우의 수를 미리 입력하지 않으면 제대로 반응하지 못한다. 단순한 컵 하나를 집는 데에도, 수백 번의 실패와 반복 학습이 필요하다. 우리가 너무도 쉽게 해내는 동작 하나하나가, 알고 보면 엄청난 계산을 내포하고 있는 것이다.
결국 우리는 이 질문 앞에 다시 선다. 지능은 어디에서 시작되는가? 언어와 기호의 체계 속에서 탄생하는가, 아니면 감각과 운동의 리듬 속에서 발생하는가? 인간은 책상 앞에서만 사유하는 존재가 아니다. 우리는 걷고, 부딪히고, 균형을 잃고, 다시 일어서며 생각한다. 우리의 지능은 실패와 마찰, 실시간 반응 속에서 길어 올려진다. 그래서 진짜 지능은 계산보다 복잡하고, 언어보다 생생한 것이다. 생각은 마음에서만 일어나는 것이 아니라, 몸에서 시작해 세계로 나아가고, 다시 몸으로 되돌아오는 하나의 순환이다. 그리고 그 순환 속에야말로 지능이 깃든다.
생각은 늦고, 몸은 먼저 움직인다.
나는 그 어긋남을 이해하지 못했고,
이제는 그 어긋남 안에서
다시 나를 감각하려 한다.