7장 앞으로의 피지컬AI의 미래
지금까지의 설명을 보니, 파운데이션 모델이 로봇 인식, 제어 전체를 어떻게 바꿔놓고 있는지가 느낌이 오시는 독자가 있을 것입니다. 2021년까지만 해도, 상상도 못하던 기능들이 지금은 기본 옵션이 되었고, 로봇 시스템 자체가 완전히 다른 단계로 넘어가고 있습니다.
가정 및 생활환경 작업을 전제로 한 로봇 실력 시험 무대인 RoboCup@Home에는 로봇이 자연어 명령을 듣고, 환경을 이해해 이동하고 물체를 다루는 GPSR(General Purpose Service Robot)과제가 있습니다.
예전에 이게 정말 악명이 높은 난이도였습니다.
음성인식도 약했고, 자연어 이해도 약했고, 계획/조작까지 통합적으로 해결하는 팀이 거의 없었습니다. 그래서 웬만한 팀들은 점수를 거의 못냈습니다.
그런데, 2022년 이후 판이 완전히 달라졌습니다.
LLM/VLM 기반 파운데이션 모델이 로봇에 붙기 시작하더니 옛날엔 '극상급 난이도'였던 문제들이 갑자기 그냥 풀립니다. 그 결과는, 여러 팀이 GPSR에서 만점에 가까운 기록을 연달아 찍는 상황까지 와버렸습니다.
위 그림처럼, 사람(오퍼레이터)이 음성으로 간단히 명령하면, 로봇이 자연어를 해석 → 장면 인식 → 이동 및 조작까지 일괄 처리합니다. 이게 과거엔 몇 개 연구기관만 가능하던 수준이었는데, 지금은 대학팀들도 구현이 가능합니다.
단순히 "자연어 처리가 좋아져서"가 아닙니다. 진짜 터닝포인트는 아래 2가지입니다.
1. 파운데이션 모델이 오픈소스로 풀렸습니다.
2. 연구자들이 데이터를 공유하기 시작했습니다.
이 2가지가 터지는 순간, 연구 커뮤니티가 폭발적인 성장했습니다.
지금은 대학 학부 수준에서도 파운데이션 모델만 잘 붙이면 기존 로봇 연구실 몇년치 연구성과를 단번에 뛰어넘을 수 있는 시대입니다. 보통 논문이 나오고 몇 주뒤 오픈소스 재현이 되는 상황이라서 기술발전 속도도 2배 빠릅니다.
한국로봇학회는 잘 모르겠지만, 일본로봇학회는 2023년부터 '파운데이션 모델 실제 적용'세션을 신설하고 있고, Google Andy Zeng, Meta Chris Paxton이 참여한 Advanced Robotics특집호: '실세계 로봇을 위한 파운데이션 모델'을 발간하였습니다. Toyota HSR(Human Support Robot) 프로젝트도 기존 방식에서 파운데이션 모델 기반 기능 확정으로 노선 전환을 시작했습니다. 한국도 비슷한 흐름이 이미 시작하되고 있고, 서비스 로봇, 물류로봇, 조작로봇 분야 모두 파운데이션 모델 접목이 빨라질수밖에 없스빈다.
파운데이션 모델이 다루는 모달리티(입력 형태)는 요즘 말 그대로 하루가 다르게 늘어나고 있습니다. 초기 GPT계열은 텍스트만 처리했지만, 지금은 이미지/음성까지 다루고 있고, ImageBind는 언어/이미지/음성/깊이 영상/열영상(히트맵)/IMU센서값까지 한번에 다루는 멀티모달 모델로 확장되었습니다.
하지만 여기에는 아직 풀리지 않은 논점이 많습니다.
실제 환경에는 CO₂ 농도센서, 조도센서, 촉각센서, 미세진동센서 등 훨씬 더 다양한 센서가 존재합니다.
이 모든 센서를 파운데이션 모델에 다 연결할 필요는 없지만, "새로운 감각 채널을 얼마나 빠르게 추가/통합할 수 있느냐"가 앞으로 competitiveness를 좌우하게 될 가능성이 큽니다.
로봇 특유의 정보들에 대해 예를 들면,
관절 각도(joint angle)
모터 온도(motor temperature)
힘/토크 센서값(force/torque)
접촉 센서 값(contact sensor)
같은 신체 관련 정보는 아직 베이스 모델에 거의 반영되지 못하고 있습니다. 즉, 지금의 파운데이션 모델들은 로봇의 '신체성(embodiment)'을 충분히 이해하지 못하는 상태입니다. 여기에 더해, 모달리티가 많아질수록 성능이 자동으로 좋아지는 것도 아닙니다. 실제로는 반대로 정확도가 떨어지는 경우도 있습니다.
예시: ImageBind가 다루는 열영상/깊이 영상 같은 채널은 아직 실제 응용범위가 데이터품질이 제한적이고, 일정수준 이상의 신뢰도가 나오지 않으면 실서비스/실제 로봇 시스템에 바로 쓰기 어렵습니다.
결국 문제는 단순합니다.
"얼마나 많은 모달리티를 붙이느냐"가 아니라, "실제로 로봇에게 도움이 되는 감각들을, 높은 품질로 안정적으로 통합할 수 있느냐"입니다.
파운데이션 모델에서 아주 중요한 이슈 중 하나가 스킬(skill)을 얼마나 세분화해서 다룰 것인가입니다. 대부분의 최신 로봇 시스템은 LLM(Large Language Model)을 이용해 작업을 여러 개의 하위과제로 쪼개는 방식에서 출발합니다. 예를 들어, "냄비 안의 재료를 섞어"라는 명령을 생각해 봅시다.
인간 레벨 표현: "섞기"
로봇 내부 표현:
팔 각도를 어떻게 바꾸고
손목을 어느 방향을 돌리고
숟가락을 얼마나 깊이 넣고
몇 mm/몇 도 단위로 움직여야 하는지
까지 내려가야 합니다.
즉, 결국 문제는 이것입니다.
"스킬을 어느 해상도까지 나눠야 하는가?"
- 너무 조약하면 대충 움직이고, 너무 세밀하면 데이터도, 계산도 폭발한다.
현재 로봇 제어 연구의 한계는,
어떤 시스템은 인간동작을 너무 미세하게 그대로 따라하려다 비효율적이고, 또 어떤 시스템은 너무 거친 추상 동작만 학습해서 실제 물리환경에서 자꾸 실패합니다.
그래서 요즘 연구자들은,
"1개의 스킬이 어느정도 시간 및 공간 범위의 동작을 커버해야 적절한가?"
"언어에서 말하는 '섞어', '밀어', '당겨'와 같은 던어를 제어신호로 매핑할 때 어떤 중간 추상화 레벨이 맞는가?"
를 계속 실험하며 찾는 중입니다.
또 하나 중요한 포인트는 새로운 스킬을 어떻게 추가 및 성장시킬 것인가입니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠