휴머노이드를 위한 LLM은 무엇이 다를까

말하는 AI에서 보고, 상상하고, 움직이는 로봇 지능으로

by 정연주 변리사

우리는 이미 LLM에 익숙하다. 질문을 던지면 답을 하고, 긴 문서를 요약하고, 글을 써준다. 그런데 휴머노이드에게 필요한 지능은 여기서 멈추지 않는다. 사람의 말을 이해하는 것만으로는 부족하다. 눈으로 상황을 읽고, 손과 팔과 몸을 움직여야 하며, 무엇보다 “이 행동을 하면 세상이 어떻게 바뀔까”를 미리 그려볼 수 있어야 한다.


사람에게 “식탁 좀 치워줘”라고 말하면, 우리는 별도의 설명 없이도 상황을 해석한다. 컵은 어디에 놓여 있는지, 먹다 남은 음식은 버려야 하는지, 접시는 겹쳐 쌓아야 하는지, 손에 너무 많은 물건을 들면 떨어뜨릴 수 있다는 점까지 자연스럽게 계산한다.

하지만 로봇에게는 이것이 하나의 거대한 난제다. 언어 이해, 시각 인식, 물체의 물리적 성질 파악, 연속적인 관절 제어가 한꺼번에 필요하기 때문이다. 그래서 휴머노이드를 위한 AI를 이야기할 때는 보통 세 층을 생각해야 한다.

첫째, 무슨 일을 해야 하는지 이해하는 층.

둘째, 그 일을 위해 어떤 중간 상태가 되어야 하는지 계획하는 층.

셋째, 실제로 팔과 손과 몸을 움직이는 층이다.

여기에 하나가 더 붙는다. 현실에서 무작정 배우기에는 비싸고 위험하니, 가상 세계에서 먼저 수천 번 연습하는 층이다. 이번에 살펴볼 세 논문은 각각 이 퍼즐의 중요한 조각에 해당한다.


1. π_0: A Vision-Language-Action Flow Model for General Robot Control

이 논문은 가장 먼저 로봇이 어떻게 실제로 움직일 것인가에 집중한다.

이 모델은 인터넷 규모의 시각·언어 지식을 가진 비전-언어 모델을 바탕으로, 로봇의 관절 상태와 행동 출력을 붙여 실제 제어가 가능한 범용 로봇 정책으로 확장한다. 쉽게 말하면, GPT가 글자를 이어 쓰듯이 π_0는 행동을 이어 쓴다. 다만 여기서 이어 써야 하는 것은 문장이 아니라 팔의 각도, 손목의 움직임, 손가락 힘 조절 같은 연속적인 모터 명령이다.


이 논문의 흥미로운 지점은, 로봇 제어를 단순한 명령 집합이 아니라 연속적인 흐름으로 다룬다는 데 있다. 컵을 집는 일만 해도 손을 곧장 내리누르는 게 아니라, 위치를 보고 접근하고, 속도를 줄이고, 접촉 순간 힘을 조절하고, 잡은 뒤 안정적으로 들어 올려야 한다. π_0는 이런 섬세한 동작을 위해 flow matching 기반의 액션 생성 방식을 사용한다. 로봇이 한 번에 정답 동작 하나를 찍는 것이 아니라, 부드럽고 자연스러운 움직임의 궤적을 만들어낸다는 뜻이다.


다시 말해, π_0의 핵심은 로봇 행동을 바로 찍어내지 않고, 노이즈에서 출발한 동작 초안을 조금씩 다듬어 자연스러운 행동 시퀀스로 만드는 데 있다. 이미지 생성 AI가 노이즈를 그림으로 바꾸듯, π_0는 노이즈를 실행 가능한 몸의 움직임으로 바꾼다

<π_0 관련 도면 예시>

위 도면은 다양한 실제 작업으로 확장되는 범용 로봇 정책의 방향을 보여준다. π_0가 보여주는 작업들은 빨래를 개고, 식탁을 치우고, 박스를 조립하고, 계란을 담고, 테이크아웃 용기에 음식을 담는 식의 작업이 등장한다. 이런 일들은 인간에게는 평범해 보이지만, 로봇에게는 매우 까다롭다. 옷은 흐물흐물하고, 박스는 접혀야 하고, 식탁 위 물건은 매번 다른 위치에 놓인다. 즉, 공장에서 늘 같은 부품을 집는 문제와는 차원이 다르다. π_0는 바로 이런 생활 세계의 복잡성을 로봇이 다뤄야 할 다음 과제로 끌어올린다.


이제 로봇 지능의 핵심은 얼마나 다양한 상황에서 몸을 안정적으로 움직일 수 있느냐로 옮겨가고 있다. 그리고 그 첫 문법을 만든 대표 사례가 π_0라고 할 수 있다.


2. CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

LLM이 더 좋아진 이유 중 하나는 정답만 바로 내놓게 하지 않고, 중간 사고 과정을 거치게 했기 때문이다.

이른바 Chain-of-Thought, 생각의 사슬이다. 그렇다면 로봇은 어떨까. 로봇도 보고 곧장 행동하기보다, 먼저 어떤 상태가 되어야 하는지 한 번 상상하면 더 잘하지 않을까. 이 논문은 이 질문에 매우 직관적인 답을 내놓는다.


핵심 아이디어는 단순하다. 로봇이 현재 장면과 텍스트 명령을 받으면, 바로 행동을 뽑아내는 대신 조금 뒤의 목표 장면을 이미지로 먼저 생성한다. 예를 들어 “가지를 냄비에 넣어”라는 지시를 받았을 때, 로봇은 먼저 가지가 냄비 안으로 옮겨진 상태를 머릿속 그림처럼 만든다. 그리고 그 상상된 장면을 목표로 삼아 현재 행동을 결정한다. 말하자면 행동 전에 시각적 생각을 한 번 더 하는 셈이다.

<기존 VLA와 CoT-VLA의 차이를 보여주는 핵심 도면>

CoT-VLA는 입력에서 바로 행동으로 가지 않고, 중간에 서브골 이미지를 생성한다. 이 접근이 중요한 이유는 두 가지다.

첫째, 로봇의 행동이 훨씬 이해하기 쉬워진다. 사람이 보기에도 “아, 이 로봇은 저 상태를 목표로 삼고 있구나”가 드러난다.

둘째, 로봇 행동 데이터가 부족한 문제를 우회할 수 있다. 기존 VLA는 주로 행동 라벨이 붙은 로봇 시연 데이터에 의존했지만, CoT-VLA는 행동 정보가 없는 일반 비디오 데이터도 중간 목표 이미지 학습에 활용할 수 있다. 즉, 인터넷과 영상에 쌓여 있는 방대한 장면 변화를 로봇의 사고 재료로 끌어올 수 있는 것이다.


이건 휴머노이드에게 특히 중요하다. 휴머노이드는 주방, 거실, 사무실처럼 복잡하고 변화 많은 환경에서 일해야 한다. 그런 곳에서는 정답 행동 하나를 외우는 것보다, 현재 상태와 목표 상태의 차이를 읽어내는 능력이 더 중요해진다. CoT-VLA는 그 차이를 픽셀 공간의 미래 장면으로 표현한다. 기술적으로는 시각적 chain-of-thought이고, 감각적으로는 로봇이 다음 장면을 먼저 그려본다는 이야기다.

<현재 장면, 모델이 상상한 중간 목표, 그리고 실제 성공 결과를 비교해 이해를 돕는 시각 자료>

결과도 설득력 있다. 논문에 따르면 CoT-VLA는 실제 로봇 조작 과제에서 기존 강력한 VLA보다 17% 높은 성능, 시뮬레이션 벤치마크에서는 6% 개선을 기록했다. 숫자보다 더 중요한 것은 이 결과가 보여주는 방향이다. 휴머노이드의 지능은 행동 전에 어떤 중간 사고 구조를 둘 것인가에서 크게 달라질 수 있다는 점이다.


3. World Simulation with Video Foundation Models for Physical AI

하지만 여기서 한 가지 질문이 남는다. 이렇게 똑똑한 모델을 어떻게 학습시킬 것인가. LLM은 웹의 텍스트를 읽으며 자랐다. 그렇다면 휴머노이드는 무엇을 먹고 자라야 할까. 아마 답은 세상의 움직임이 담긴 영상일 것이다. 인간이 문장을 읽고 세계를 배우듯, 로봇은 비디오를 통해 사물의 움직임과 상호작용을 배운다.


이 논문은 그 학습장을 만드는 연구다. 논문은 비디오 파운데이션 모델을 이용해, 로봇이 행동했을 때 세계가 어떻게 변하는지를 사실적으로 시뮬레이션하는 세계 모델을 제안한다. 이것은 단순히 멋진 영상을 생성하는 모델이 아니다. 로봇이 가상의 세계에서 움직여보고, 실패해보고, 다른 조명과 다른 배치, 다른 물체 색깔 속에서도 같은 일을 반복 훈련할 수 있게 하는 훈련용 우주에 가깝다.

<World Simulation 관련 대표 이미지>


위 이미지는 시뮬레이션과 현실 사이를 연결하는 비디오 기반 세계 모델의 방향을 보여준다.

왜 이게 중요할까. 이유는 의외로 단순하다. 현실에서 배우는 것은 너무 비싸고, 느리고, 위험하다. 휴머노이드는 무겁고 복잡하며 고가의 장비다. 새로운 제어 정책을 테스트하다 넘어지면 기계도 망가지고 주변 환경도 위험해질 수 있다. 반면 시뮬레이션 안에서는 수천 번 넘어져도 괜찮다. 더구나 현실에서는 매번 같은 집, 같은 부엌, 같은 조명에서만 데이터를 모으기 쉽지만, 세계 모델은 배경과 조명과 물체 배치를 끊임없이 바꾸며 학습의 다양성을 폭발적으로 늘릴 수 있다.


논문은 이런 방식이 실제 정책 성능 향상으로 이어질 수 있음을 보여준다. 예를 들어 Cosmos 기반 데이터 증강을 사용했을 때 새로운 환경에서의 pick-and-place 성공이 30회 중 24회로 향상되었다고 보고한다. 이 결과는 휴머노이드 연구에 중요한 시사점을 준다. 앞으로 로봇은 현실 한 번, 시뮬레이션 백 번의 비율로 학습하게 될 가능성이 높다. 즉, 물리적 몸을 가진 AI일수록 오히려 더 많이 가상의 경험을 먹고 자랄 수 있다는 뜻이다.


[시사점]

이 세 논문을 각각 따로 보면, 하나는 로봇 제어 이야기 같고, 하나는 시각적 추론 이야기 같고, 하나는 시뮬레이션 이야기처럼 보인다. 하지만 함께 놓고 보면 π_0는 몸을 움직이는 실행 엔진이고, CoT-VLA는 행동 전에 목표 장면을 상상하는 사고 과정이며, World Simulatio은 그 모든 것을 현실 투입 전에 대규모로 연습시키는 세계다.


다시 말해, π_0는 로봇의 근육과 손재주를 다듬고, CoT-VLA는 로봇의 머릿속 장면 전환 능력을 키우며, World Simulation은 로봇에게 경험의 양을 폭발적으로 공급한다. 지금까지의 LLM이 주로 언어 위에서 사고했다면, 휴머노이드용 LLM은 언어 위에 시각을 얹고, 시각 위에 행동을 얹고, 행동 위에 물리 세계의 피드백을 얹는다.


그래서 앞으로 휴머노이드 경쟁의 본질은 누가 더 잘 보고, 이해하고, 상상하고, 연습하고, 실행하게 만드느냐에서 벌어질 것이다. 이 점에서 휴머노이드를 위한 LLM은 단순히 LLM을 로봇에 꽂아 넣는 문제가 아니다. 그것은 언어 모델을 물리 세계의 지능으로 재구성하는 일에 가깝다.


특허의 무게중심도 하드웨어에서 지능 구조로 옮겨간다. 발명 포인트가 로봇 팔 그 자체가 아니라 로봇 지능의 전체 처리 파이프라인으로 넓혀졌기 때문이다. 그리고, 휴머노이드 경쟁력이 꼭 실제 로봇에서만 나오지 않는다. 가상 세계를 얼마나 정교하게 만들 수 있는지, 그리고 그 안에서 얼마나 다양한 데이터를 생성해 정책을 강하게 만들 수 있는지가 핵심 자산이 된다. 제어 알고리즘 뿐만 아니라, 시뮬레이션 생성 방식, 비디오 기반 world model, sim-to-real 데이터 증강 방식 자체가 중요한 특허·영업비밀 대상이 될 가능성이 높다.


작가의 이전글HBM 다음은 HBF: AI 시대, 낸드의 판이 바뀐다