brunch

로봇에게 말로 지시한다…

허깅페이스, 로봇을 음성으로 조종하는 파운데이션 모델 최초로 오픈 소스

by AI러 이채문

여기있는건 한번 봐보시면 후회하지 않습니다.




자연어 명령을 로봇의 물리적 동작으로 직접 변환하는 범용 로봇 파운데이션 모델이 등장했습니다. 사용자는 대형언어모델(LLM)이나 챗봇에 요청하듯이 로봇에게 원하는 작업을 자연스럽게 지시할 수 있으며, 이러한 모델이 오픈 소스로 공개된 것은 이번이 처음입니다.


main-b.webp



파이제로(Pi0)의 공개와 기술적 특징


허깅페이스와 피지컬 인텔리전스는 6일(현지시간) 자연어 명령을 로봇의 자율 행동으로 변환하는 비전-언어-행동(VLA) 모델인 ‘파이제로(Pi0)’를 오픈 소스로 출시했습니다.


파이제로는 기존 LLM과 달리 텍스트뿐만 아니라 이미지와 행동까지 처리할 수 있는 모델입니다. 로봇의 실제 경험을 학습하여 즉시 움직일 수 있는 모터 명령을 생성하며, 이를 위해 확산(diffusion) 모델의 변형인 '흐름 매칭(Flow Matching)' 기법을 사용합니다. 이 기법을 통해 비전-언어 모델(VLM)이 연속적인 행동을 출력할 수 있도록 확장하는 새로운 방법이 적용되었습니다.


31457_67753_613.jpg

파이제로의 학습 과정과 성능


파이제로는 로봇에서 수집한 데이터와 웹상의 텍스트 및 이미지로 사전 학습된 VLM의 의미적 지식과 시각적 이해 능력을 기반으로, 초당 최대 50회의 모터 명령을 생성하도록 훈련되었습니다. 이를 통해 자연어 명령을 직접 로봇의 물리적 동작으로 변환하는 기능을 갖추고 있습니다.


세탁물 접기와 같은 어려운 작업을 위해 모델을 고품질 데이터로 미세 조정(fine-tuning)하는 과정이 포함되어 있으며, 이는 대형언어모델(LLM) 설계자들이 사용하는 사후 학습(post-training) 과정과 유사합니다. 사전 학습을 통해 모델이 물리적 세계에 대한 이해를 확보하고, 미세 조정을 거쳐 특정 작업을 더욱 정밀하게 수행할 수 있도록 하는 방식입니다.




기존 모델과의 비교 및 차별성


‘오픈VLA(OpenVLA)’나 ‘옥토(Octo)’ 등 기존의 VLA 모델과 비교했을 때, 30억 개의 매개변수를 가진 파이제로는 모든 작업에서 가장 높은 성과를 기록했습니다. 또한, 9억3000만 개의 매개변수를 가진 파이제로-스몰 모델 역시 두 번째로 높은 성과를 보였습니다.


파운데이션 모델을 기반으로 한 로봇 음성 조작 기술은 이미 지난해 피규어 AI 등이 공개한 바 있지만, 오픈 소스로 공개된 것은 이번이 처음입니다. 이로 인해 연구자들과 개발자들이 자유롭게 모델을 분석하고, 각자의 연구에 적용할 수 있는 기회가 열렸습니다.




커뮤니티의 반응과 전망


허깅페이스의 수석 연구 과학자인 레민 케이든은 X(구 트위터)를 통해 "여러분 중 많은 분들이 코드와 가중치를 요청하여, 파이제로와 사전 훈련된 체크포인트를 출시하게 되었습니다. 몇몇 공개된 로봇에서 모델을 테스트했으며, 여러분이 직접 미세 조정할 수 있도록 코드를 포함했습니다."라고 밝혔습니다.


파이제로의 오픈 소스 공개는 로봇 기술 발전에 중요한 전환점이 될 것으로 보이며, 연구자 및 개발자 커뮤니티의 적극적인 참여가 기대되고 있습니다. 향후 다양한 로봇 응용 분야에서 파이제로를 활용한 혁신적인 기술 개발이 이루어질 전망입니다.


news-p.v1.20240219.74995d8560a040d98a2356320738652a_P2.jpg


keyword
매거진의 이전글2025년, AI가 주도하는 검색의 대변혁