세계 모델 계층적 계획 능력 향상
최근 로봇 학계에서 가장 뜨거운 화두는 "로봇이 얼마나 사람처럼 앞날을 내다보고 행동할 수 있는가?"입니다. 이 질문에 대한 해답을 제시한 최신 논문 Hierarchical Planning with Latent World Models를 소개합니다.
로봇에게 "커피 한 잔 타 와"라고 시키면 로봇은 뇌정지에 빠집니다. 인간에겐 단순한 작업이지만, 로봇에게는 팔의 각도를 0.1도씩 조정하는 수만 번의 세밀한 동작이 모여야 하는 거대한 도전이기 때문입니다. 기존 AI는 너무 먼 미래를 예측하려다 오차가 쌓여 '망상'에 빠지거나, 계산량이 너무 많아 멈춰버리기 일쑤였습니다.
이 문제를 해결하기 위해 도입된 것이 바로 세계 모델(World Model)입니다. 세계 모델은 AI가 직접 행동하기 전에, 머릿속으로 "내가 이렇게 움직이면 세상이 어떻게 변할까?"를 미리 시뮬레이션해 보는 가상의 엔진입니다.
현실에서 컵을 수천 번 깨뜨리는 대신, 머릿속(잠재 공간)에서 수만 번 시뮬레이션을 돌려보며 가장 안전하고 확실한 길을 찾아내는 것이죠. 하지만 이 '상상력'도 작업이 길어지면 초점이 흐려지는 한계가 있었습니다.
이번 논문은 세계 모델을 두 층으로 나누는 '계층적 구조'로 이 한계를 돌파했습니다.
• 상위 세계 모델: 숲을 봅니다. "일단 주방으로 이동한 뒤 컵을 집는다"는 굵직한 목표를 세우며 며칠 뒤, 몇 분 뒤의 미래를 큼직하게 예측합니다.
• 하위 세계 모델: 나무를 봅니다. 상위 모델이 준 목표에 맞춰 "지금 당장 손가락 마디를 3도 굽힌다"는 세밀한 동작을 아주 빠른 속도로 계획합니다.
이렇게 역할 분담을 하니, 로봇은 먼 미래를 내다보면서도(상위) 발밑의 장애물을 즉각 피하는(하위) 정교함을 동시에 갖게 되었습니다.
결과는 놀라웠습니다. 기존 모델이 아예 실패했던 복잡한 물건 옮기기 작업에서 이 모델은 70%의 성공률을 기록했고, 계산 효율은 4배나 좋아졌습니다.
이제 로봇은 단순 반복 작업을 넘어, 복잡한 환경에서 스스로 전략을 짜고 실행하는 '생각하는 기계'에 한 걸음 더 다가섰습니다.
로봇에게 숲과 나무를 동시에 보는 법을 가르쳐서, 훨씬 똑똑하고 빠르게 심부름을 완수하게 만들었다니 놀라울 따름입니다. 머지않아 우리가 "방 좀 치워줘"라고 말하면, 로봇이 머릿속으로 효율적인 청소 경로를 쓱 그려보고 완벽하게 수행하는 모습을 볼 수 있을까요?
이제 AI는 무엇이 정답인가를 맞히는 단계를 지나, 세상은 어떻게 돌아가는가를 스스로 시뮬레이션하는 단계로 진입했습니다. 이번 논문은 그 시뮬레이션 기능을 '계층화'해서 훨씬 더 정교하고 효율적으로 만든 이정표라고 할 수 있습니다.