우리는 컴퓨터가 글을 쓰고 그림을 그리고, 심지어 복잡한 질문에 척척 답변하는 것을 너무나 당연하게 받아들이는 시대에 살고 있습니다.
이런 AI의 지능은 인간지능과 얼마나 비슷할까요? 비록 인간지능이 궁극적으로 가장 우수한 지능의 형태라고 단정지을 수는 없지만, 현재의 AI와 인간지능 사이에는 분명한 차이점이 존재합니다.
AI와 인간지능의 가장 큰 차이점은 바로 '몸'의 존재입니다. 인간은 감각기관과 운동기관을 통해 스스로 탐색하고 물리적인 세상과 직접적으로 상호작용할 수 있습니다. 이를 통해 우리는 단순히 정보를 처리하는 것을 넘어, 실제 경험을 통해 학습하고 성장합니다. 그렇다면 AI에게도 '몸'이 있다면 어떨까요? 이번 포스팅은 최근 떠오르고 있는 Embodied AI에 관한 이야기입니다.
Embodied AI(구현된 AI, 체화된 AI)는 말 그대로 '몸을 가진 AI'를 의미합니다. 일반적으로 AI는 주로 텍스트나 이미지 같은 디지털 데이터를 처리하는 데 집중했다면, Embodied AI는 물리적 환경에서 직접 행동하고 상호작용할 수 있는 AI를 말합니다.
쉽게 말해, 컴퓨터 화면 안에서만 존재하던 AI가 로봇의 몸을 입고 현실 세계로 나온 것이라고 생각하면 됩니다. 물론 Embodied AI는 휴머노이드 로봇 같은 인간과 유사한 형태 뿐만 아니라 각각의 작업에 최적화된 다양한 형태로 구현될 수 있습니다.
이러한 Embodied AI의 철학적·기술적 기반을 다진 핵심 인물 중 한 명이 Rodney Brooks입니다. 그의 대표적인 논문 Intelligence Without Representation (1991)에서는 AI가 계산이나 명령 수행이 아닌, 몸을 가진 행위자(agent)로서 세상과 물리적으로 상호작용할 때 비로소 진정한 지능이 발생한다고 주장하였습니다.
그의 이러한 접근은 이후 로봇공학, 강화학습, 인지과학 등에 큰 영향을 주었고, 현대 Embodied AI 연구의 기초를 마련했습니다. (Rodney Brooks는 지금도 AI 기술의 흐름에 대해 많은 견해를 내고 있으니 그의 블로그도 참고해보시면 좋을 것 같습니다)
그의 이러한 접근은 이후 로봇공학, 강화학습, 인지과학 등에 큰 영향을 주었고, 현대 Embodied AI 연구의 기초를 마련했습니다. (Rodney Brooks는 지금도 AI 기술의 흐름에 대해 많은 견해를 내고 있으니 그의 블로그도 참고해보시면 좋을 것 같습니다)
사실 인터넷으로 얻을 수 있는 지식은 이미 어느 정도 고갈되었다고 합니다. 현재 대규모 언어 모델들은 인터넷상의 텍스트 데이터를 거의 모두 학습했고, 이제는 새로운 형태의 학습이 필요한 시점에 와 있습니다. 바로 현실 세계와 상호작용하며 직접 정보를 얻고 학습하는 것입니다.
생각해보면 우리가 "이해"한다는 것은 그저 텍스트로 된 지식을 받아들이는 것이 아닙니다. 여러 감각으로 다각적으로 대상을 관찰하고 경험한 종합적인 과정입니다.
예를 들어, '부드러움'이라는 개념을 이해하기 위해서는 솜을 만져보고, 고양이 털을 쓰다듬어보고, 따뜻한 담요에 몸을 맡겨본 수많은 촉각적 경험이 필요합니다. 아무리 많은 글로 부드러움을 설명해도, 직접 만져보지 않으면 진정한 이해는 불가능하죠. 이는 앞서 말씀드린 Rodney Brooks의 주장과도 상당부분 같은 맥락이라고 볼 수 있습니다.
따라서 AI가 몸을 갖게 되면서 가장 의미있는 변화는 능동적 학습이 가능해진다는 점입니다. 기존 AI가 인간이 미리 정해준 데이터를 수동적으로 학습했다면, Embodied AI는 스스로 세상을 탐색하며 궁금한 것을 발견하고 탐구할 수 있습니다.
이런 능동적 탐색을 통해 AI는 완전히 새로운 차원의 지능을 개발할 수 있습니다. 책에서 읽은 '무게'와 직접 들어본 '무게'는 완전히 다른 정보입니다. 텍스트로 학습한 '균형'과 실제로 넘어지지 않기 위해 몸을 조절하며 익힌 '균형'은 그 깊이가 비교할 수 없을 정도로 다릅니다.
결국 몸을 가진 AI는 텍스트 정보 처리기에서 벗어나 진정한 '학습자'가 됩니다. 세상에 대한 호기심을 가지고, 스스로 가설을 세우고, 실험을 통해 검증하며, 실패를 통해 배우는 존재로 진화하는 것입니다.
그렇다면 Embodied AI는 어떻게 구현될까요? 과거에는 일반적으로 로봇이나 자율주행 알고리즘을 인지, 판단, 제어라는 3요소로 분할하여 각각에 최적화된 알고리즘을 개발하고 연결하였습니다. 그러나 이렇게 휴리스틱하게 지능의 요소를 나누고 조합한 엔지니어링으로는 몇 가지 근본적인 문제점이 있었습니다. 각 모듈 간 정보 전달 과정에서 중요한 맥락이 손실되고, 실시간으로 변화하는 복잡한 상황에 유연하게 대응하기 어려웠으며, 전체적인 상황을 통합적으로 이해하고 판단하는 데 한계가 있었습니다.
최근에는 빠르게 발전한 멀티모달, 특히 Vision-Language 모델의 일반화 능력을 기반으로 Action 출력을 더한 VLA(Vision Language Action) 모델을 활용하여 Embodied AI를 개발하는 것이 보편화되고 있습니다. 이는 기존의 분할 정복 방식과는 완전히 다른 접근법입니다. 가장 놀라운 점은 이 모델들이 단지 인터넷상의 여러 텍스트, 이미지, 영상 정보를 학습했을 뿐인데도 물리 세계를 이해하고 어떻게 행동해야 하는지에 대한 지식을 일부 가지고 있다는 것입니다.
멀티모달 모델에서 이미지, 영상, 사운드 등 여러 정보를 모두 토큰화하였듯이, VLA 모델은 Action 출력까지도 토큰화하여 하나의 통합된 언어 모델처럼 학습합니다. 이를 통해 Scaling Law의 이점을 누리며, 더 많은 데이터와 더 큰 모델로 성능을 꾸준히 향상시킬 수 있어 큰 기대를 받고 있으며 최근 Embodied AI가 다시 주목받게 된 이유입니다.
Embodied AI에서 최근 가장 주목할 만한 흐름은 특정 작업에 최적화된 Specialist에서, 다양한 작업을 유연하게 수행할 수 있는 Generalist 모델로의 전환입니다.
기존에는 강화학습(RL)이나 파인튜닝을 통해 특정 환경이나 과제에 맞는 모델을 별도로 훈련시키는 방식이 주를 이뤘습니다. 예컨대 로봇 팔 조작, 자율주행, 게임 캐릭터 조종 등 각 작업마다 별도의 학습된 모델을 만들었습니다.
하지만 최근에는 거대한 언어 모델(LLM)이나 비전-언어 모델(VLM)처럼, 다양한 입력 데이터를 일반화하는 능력을 기반으로 한 멀티태스크 Generalist 모델이 점점 주목받고 있습니다. 예를 들어, 하나의 모델이 로봇 팔 조작, UI 제어, 게임 내 캐릭터 이동 등 여러 작업을 동시에 수행하면서도 높은 성능을 유지할 수 있다는 것이 실험적으로 입증되고 있습니다.
이러한 전환이 단지 실용성의 문제만은 아닙니다. 다양한 작업을 학습하면서 축적되는 범용적 표현과 추론 능력은 오히려 각 개별 작업의 성능 향상에도 기여할 수 있기 때문입니다. 즉, Generalist가 되는 길은 Specialist보다 더 나은 Specialist가 되는 길이기도 합니다.
다만, 진정한 Generalist를 구현하기 위해서는 모델 자체뿐 아니라 하드웨어에 대한 추상화도 중요합니다. 예를 들어, 팔이 2개인 로봇과 10개인 로봇, 바퀴로 움직이는 로봇과 다리로 걷는 로봇 모두를 유연하게 제어하려면, 다양한 형태의 액추에이터(actuator), 센서(sensor), 물리 환경에 대한 메타 학습(meta-learning) 혹은 시뮬레이션 기반 전이 학습 등의 기술이 필요합니다.
결국 Embodied AI가 Generalist로 진화한다는 것은 다양한 환경과 하드웨어에서도 유연하고 일관된 방식으로 세계를 인식하고 행동할 수 있는 인터페이스를 갖추는 방향을 의미합니다.
AI가 단순히 정보를 처리하는 도구에서 세상과 직접 상호작용하는 존재로 진화하는 것은 휴머노이드 로봇이나 자율주행과 같은 실용적 응용분야의 발전을 가져올 것이며, 앞으로 진정한 AI의 대중화와 시장 확장을 모두가 기대하고 있습니다.
그러나 한편으로는 단순히 실용성을 높이는 관점에서만 바라볼 것이 아니라, Embodied AI가 지능 자체에 대한 우리의 이해를 근본적으로 확장시킨다는 점에 주목해야 합니다. 몸을 통한 경험이 진정한 학습과 이해의 핵심이라는 인사이트는 AI뿐만 아니라 인간의 인지과정에 대해서도 새로운 시각을 제공합니다.
결국 Embodied AI의 등장은 기술의 발전을 넘어, '지능이란 무엇인가?'라는 근본적 질문에 대한 새로운 답을 찾아가는 시작점이 될 것입니다.