구글, ‘제미나이 로보틱스 1.5' 오픈소스로 공개

로봇이 ‘스스로 생각하고 설명하며, 행동'

Oct 1. 2025

로봇이 ‘스스로 생각하고 설명하며, 행동하는’ 피지컬 AI 시대 개막"...

구글 딥마인드가 로봇이 현실 세계에서 복잡한 다단계 작업을 스스로 해결하도록 돕는 두 가지 새로운 AI 모델인 '제미나이 로보틱스 1.5(Gemini Robotics 1.5)'와 '제미나이 로보틱스-ER 1.5(Gemini Robotics-ER 1.5)' 공개 !

모델들은 AI 에이전트 기술을 물리적 세계에 적용하여, 로봇이 단순히 명령을 따르는 것을 넘어 스스로 생각, 계획하며 행동하는 ‘물리적 AI 에이전트(physical AI agents)’

구글 제미나이(Gemini) 멀티모달 AI의 진화된 형태로, 로봇이 시각·언어·행동(vision-language-action, VLA)을 통합적으로 이해하고, 실제 환경 속에서 복잡한 작업을 스스로 계획, 수행하도록 설계!

'제미나이 로보틱스 1.5'는

1. 시각 정보를 바탕: 언어 지시를 해석해 실제 로봇의 행동 명령으로 전환하는 비전-언어-행동(VLA) 모델.

2. 로봇이 행동 전에 ‘생각(thinking before acting)’하며 스스로 과정을 설명할 수 있다.

즉, 시각·언어·행동 통합 AI로 ‘생각하는 로봇’을 구현한다(기술 보고서: 제미나이 로보틱스 1.5: 진화된 신체적 추론, 사고 및 동작 전이를 통해 범용 로봇의 한계를 넓힘

‘로봇의 두뇌(embodied reasoning)’ 역할을 수행

'제미나이 로보틱스-ER 1.5'는 물리 세계의 이해와 논리적 사고에 특화된 비전-언어 모델(VLM)로, 복잡한 물리적 환경에서 계획·추론 등을 수행한다.

특히, 이 두 모델은 상호 보완적으로 작동한다.

예를 들어, 로봇이 “이 물건들을 분리수거 규정에 맞게 분류해줘”라는 지시를 받으면, Gemini Robotics-ER 1.5가 인터넷을 검색해 지역별 분리수거 규칙을 파악하고, Gemini Robotics 1.5가 이를 실제 시각적 판단과 동작으로 변환해 물건을 올바른 통에 넣는 식이다.

이 과정에서 로봇은 자신의 사고 과정을 자연어로 설명할 수도 있어, 인간에게 로봇의 의사결정 과정을 더 투명하게 보여준다.

다양한 로봇 간 ‘지식 전이’ 가능

이번 모델의 가장 큰 기술적 혁신

하나는 ‘로봇 간 학습 전이(cross-embodiment learning)’다.

그러나 제미나이 로보틱스 1.5는 한 로봇(Aloha 2-보기)에서 학습한 동작이 다른 형태의 로봇(Apollo, Franka 등)에서도 추가 학습 없이 그대로 작동한다. 이는 로봇 학습의 효율성을 비약적으로 높여, 새로운 로봇이 더 빠르게 지능형 행동을 습득할 수 있다.

출처 : 인공지능신문 25.9.29일자 내용 요약

keyword

문영란 소속 라니출판사 직업 출간작가

2030년 AI직무트랜드 저자

인문학을 전공한 IT‘MOON컨설팅 CEO입니다. IT서적 출간작가이자 에세이작가입니다.

팔로워 137

매거진의 이전글개발자, 깃허브, ‘MCP레지스트리' 출시AI가 진정한 팀 동료매거진의 다음글