로봇이 ‘스스로 생각하고 설명하며, 행동'
로봇이 ‘스스로 생각하고 설명하며, 행동하는’ 피지컬 AI 시대 개막"...
구글 딥마인드가 로봇이 현실 세계에서 복잡한 다단계 작업을 스스로 해결하도록 돕는 두 가지 새로운 AI 모델인 '제미나이 로보틱스 1.5(Gemini Robotics 1.5)'와 '제미나이 로보틱스-ER 1.5(Gemini Robotics-ER 1.5)' 공개 !
모델들은 AI 에이전트 기술을 물리적 세계에 적용하여, 로봇이 단순히 명령을 따르는 것을 넘어 스스로 생각, 계획하며 행동하는 ‘물리적 AI 에이전트(physical AI agents)’
구글 제미나이(Gemini) 멀티모달 AI의 진화된 형태로, 로봇이 시각·언어·행동(vision-language-action, VLA)을 통합적으로 이해하고, 실제 환경 속에서 복잡한 작업을 스스로 계획, 수행하도록 설계!
'제미나이 로보틱스 1.5'는
1. 시각 정보를 바탕: 언어 지시를 해석해 실제 로봇의 행동 명령으로 전환하는 비전-언어-행동(VLA) 모델.
2. 로봇이 행동 전에 ‘생각(thinking before acting)’하며 스스로 과정을 설명할 수 있다.
즉, 시각·언어·행동 통합 AI로 ‘생각하는 로봇’을 구현한다(기술 보고서: 제미나이 로보틱스 1.5: 진화된 신체적 추론, 사고 및 동작 전이를 통해 범용 로봇의 한계를 넓힘
‘로봇의 두뇌(embodied reasoning)’ 역할을 수행
'제미나이 로보틱스-ER 1.5'는 물리 세계의 이해와 논리적 사고에 특화된 비전-언어 모델(VLM)로, 복잡한 물리적 환경에서 계획·추론 등을 수행한다.
특히, 이 두 모델은 상호 보완적으로 작동한다.
예를 들어, 로봇이 “이 물건들을 분리수거 규정에 맞게 분류해줘”라는 지시를 받으면, Gemini Robotics-ER 1.5가 인터넷을 검색해 지역별 분리수거 규칙을 파악하고, Gemini Robotics 1.5가 이를 실제 시각적 판단과 동작으로 변환해 물건을 올바른 통에 넣는 식이다.
이 과정에서 로봇은 자신의 사고 과정을 자연어로 설명할 수도 있어, 인간에게 로봇의 의사결정 과정을 더 투명하게 보여준다.
다양한 로봇 간 ‘지식 전이’ 가능
이번 모델의 가장 큰 기술적 혁신
하나는 ‘로봇 간 학습 전이(cross-embodiment learning)’다.
그러나 제미나이 로보틱스 1.5는 한 로봇(Aloha 2-보기)에서 학습한 동작이 다른 형태의 로봇(Apollo, Franka 등)에서도 추가 학습 없이 그대로 작동한다. 이는 로봇 학습의 효율성을 비약적으로 높여, 새로운 로봇이 더 빠르게 지능형 행동을 습득할 수 있다.
출처 : 인공지능신문 25.9.29일자 내용 요약