구글, ‘제미나이 로보틱스 1.5' 오픈소스로 공개

로봇이 ‘스스로 생각하고 설명하며, 행동'

by 문영란

로봇이 ‘스스로 생각하고 설명하며, 행동하는’ 피지컬 AI 시대 개막"...


구글 딥마인드가 로봇이 현실 세계에서 복잡한 다단계 작업을 스스로 해결하도록 돕는 두 가지 새로운 AI 모델인 '제미나이 로보틱스 1.5(Gemini Robotics 1.5)'와 '제미나이 로보틱스-ER 1.5(Gemini Robotics-ER 1.5)' 공개 !


모델들은 AI 에이전트 기술을 물리적 세계에 적용하여, 로봇이 단순히 명령을 따르는 것을 넘어 스스로 생각, 계획하며 행동하는 ‘물리적 AI 에이전트(physical AI agents)


구글 제미나이(Gemini) 멀티모달 AI의 진화된 형태로, 로봇이 시각·언어·행동(vision-language-action, VLA)을 통합적으로 이해하고, 실제 환경 속에서 복잡한 작업을 스스로 계획, 수행하도록 설계!


'제미나이 로보틱스 1.5'는

1. 시각 정보를 바탕: 언어 지시를 해석해 실제 로봇의 행동 명령으로 전환하는 비전-언어-행동(VLA) 모델.

2. 로봇이 행동 전에 ‘생각(thinking before acting)’하며 스스로 과정을 설명할 수 있다.

즉, 시각·언어·행동 통합 AI로 ‘생각하는 로봇’을 구현한다(기술 보고서: 제미나이 로보틱스 1.5: 진화된 신체적 추론, 사고 및 동작 전이를 통해 범용 로봇의 한계를 넓힘

화면 캡처 2025-10-01 114011.png





‘로봇의 두뇌(embodied reasoning)’ 역할을 수행

'제미나이 로보틱스-ER 1.5'는 물리 세계의 이해와 논리적 사고에 특화된 비전-언어 모델(VLM)로, 복잡한 물리적 환경에서 계획·추론 등을 수행한다.


특히, 이 두 모델은 상호 보완적으로 작동한다.

예를 들어, 로봇이 “이 물건들을 분리수거 규정에 맞게 분류해줘”라는 지시를 받으면, Gemini Robotics-ER 1.5가 인터넷을 검색해 지역별 분리수거 규칙을 파악하고, Gemini Robotics 1.5가 이를 실제 시각적 판단과 동작으로 변환해 물건을 올바른 통에 넣는 식이다.

이 과정에서 로봇은 자신의 사고 과정을 자연어로 설명할 수도 있어, 인간에게 로봇의 의사결정 과정을 더 투명하게 보여준다.


다양한 로봇 간 ‘지식 전이’ 가능

이번 모델의 가장 큰 기술적 혁신

하나는 ‘로봇 간 학습 전이(cross-embodiment learning)’다.

그러나 제미나이 로보틱스 1.5는 한 로봇(Aloha 2-보기)에서 학습한 동작이 다른 형태의 로봇(Apollo, Franka 등)에서도 추가 학습 없이 그대로 작동한다. 이는 로봇 학습의 효율성을 비약적으로 높여, 새로운 로봇이 더 빠르게 지능형 행동을 습득할 수 있다.


화면 캡처 2025-10-01 114638.png


출처 : 인공지능신문 25.9.29일자 내용 요약

keyword
매거진의 이전글개발자, 깃허브, ‘MCP레지스트리' 출시