로봇에게 심부름시킬 수 있는 기술을 향해

세계 모델 계층적 계획 능력 향상

Apr 11. 2026

최근 로봇 학계에서 가장 뜨거운 화두는 "로봇이 얼마나 사람처럼 앞날을 내다보고 행동할 수 있는가?"입니다. 이 질문에 대한 해답을 제시한 최신 논문 Hierarchical Planning with Latent World Models를 소개합니다.

로봇에게 닥친 시련, "앞날이 캄캄해“

로봇에게 "커피 한 잔 타 와"라고 시키면 로봇은 뇌정지에 빠집니다. 인간에겐 단순한 작업이지만, 로봇에게는 팔의 각도를 0.1도씩 조정하는 수만 번의 세밀한 동작이 모여야 하는 거대한 도전이기 때문입니다. 기존 AI는 너무 먼 미래를 예측하려다 오차가 쌓여 '망상'에 빠지거나, 계산량이 너무 많아 멈춰버리기 일쑤였습니다.

세계 모델, AI의 머릿속에 가상 세계를 짓다

이 문제를 해결하기 위해 도입된 것이 바로 세계 모델(World Model)입니다. 세계 모델은 AI가 직접 행동하기 전에, 머릿속으로 "내가 이렇게 움직이면 세상이 어떻게 변할까?"를 미리 시뮬레이션해 보는 가상의 엔진입니다.

현실에서 컵을 수천 번 깨뜨리는 대신, 머릿속(잠재 공간)에서 수만 번 시뮬레이션을 돌려보며 가장 안전하고 확실한 길을 찾아내는 것이죠. 하지만 이 '상상력'도 작업이 길어지면 초점이 흐려지는 한계가 있었습니다.

큰 그림은 천천히, 디테일은 빠르게

이번 논문은 세계 모델을 두 층으로 나누는 '계층적 구조'로 이 한계를 돌파했습니다.

• 상위 세계 모델: 숲을 봅니다. "일단 주방으로 이동한 뒤 컵을 집는다"는 굵직한 목표를 세우며 며칠 뒤, 몇 분 뒤의 미래를 큼직하게 예측합니다.

• 하위 세계 모델: 나무를 봅니다. 상위 모델이 준 목표에 맞춰 "지금 당장 손가락 마디를 3도 굽힌다"는 세밀한 동작을 아주 빠른 속도로 계획합니다.

이렇게 역할 분담을 하니, 로봇은 먼 미래를 내다보면서도(상위) 발밑의 장애물을 즉각 피하는(하위) 정교함을 동시에 갖게 되었습니다.

0%에서 70%로, 로봇 지능의 새로운 지평

결과는 놀라웠습니다. 기존 모델이 아예 실패했던 복잡한 물건 옮기기 작업에서 이 모델은 70%의 성공률을 기록했고, 계산 효율은 4배나 좋아졌습니다.

이제 로봇은 단순 반복 작업을 넘어, 복잡한 환경에서 스스로 전략을 짜고 실행하는 '생각하는 기계'에 한 걸음 더 다가섰습니다.

마무리: 세상을 이해하는 또다른 방식의 인공지능

로봇에게 숲과 나무를 동시에 보는 법을 가르쳐서, 훨씬 똑똑하고 빠르게 심부름을 완수하게 만들었다니 놀라울 따름입니다. 머지않아 우리가 "방 좀 치워줘"라고 말하면, 로봇이 머릿속으로 효율적인 청소 경로를 쓱 그려보고 완벽하게 수행하는 모습을 볼 수 있을까요?

이제 AI는 무엇이 정답인가를 맞히는 단계를 지나, 세상은 어떻게 돌아가는가를 스스로 시뮬레이션하는 단계로 진입했습니다. 이번 논문은 그 시뮬레이션 기능을 '계층화'해서 훨씬 더 정교하고 효율적으로 만든 이정표라고 할 수 있습니다.

keyword

매거진의 이전글AI가 똑똑해질수록, 인류는 멍청해질까?AI가 도메인 데이터 과학자를 대체할까?매거진의 다음글