brunch

[피지컬AI]28. 로봇을 위한 시각언어모델(VLM)

6장 로봇 파운데이션 모델

by AI개발자
physicalai-멀티모달AI와-로봇-top2.png

기본 개념부터 다시 잡자면,

VLM:

- 입력: 이미지(또는 비디오) + 텍스트

- 출력: 텍스트(설명, 답변, 계획 등)

6장은 이걸 로봇이 직접 수집한 데이터에 맞게 다시 학습해서 "로봇 특화 VLM"으로 쓰는 시도에 대해 설명합니다.

대표 예시:

PaLM-E: LLM을 멀티모달로 확장한 거대 VLM

RoboVQA: 로봇 동작 중심의 VQA 특화 VLM


⑴ LLM을 멀티모달로 확장한 로봇용 VLM: PaLM-E

PaLM-E가 뭔가?

기본 베이스: PaLM (Pathways Language Model)

파라미터수 540B급 초거대 LLM

원래는 텍스트만 다루는 언어모델 (QA, 요약, 코드 등)

PaLM-E는 여기에 이미지, 3D 포인트 클라우드, 로봇 상태 벡터(관절, 위치 등)

같은 걸 같이 먹일 수 있게 만든 멀티모달 LLM입니다.

즉,

그냥 말 잘하는 LLM을 "세상을 직접 보는" 로봇용 뇌로 확장한 버전입니다.


아키텍처: "각 모달리티 → 토큰 → LLM"

ai-robot160.jpg

구조는 위 그림을 설명하면 아래와 같습니다.

1. 각 모달리티별 인코더

이미지: ViT(Vision Transformer)로 인코딩 → 이미지 토큰 시퀀스

포인트 클라우드, 로봇 상태: 전용 인코더 → 임베딩 토큰

이 모든 걸 결국 "토큰 시퀀스(텍스트 비슷한 형태)"로 맞춥니다.

2. PaLM 본체는 그대로 LLM

PaLM은 여전히 "토큰 시퀀스 → 다음 토큰 예측"을 한다.

단지 입력 토큰 안에

텍스트 토큰 + 이미지/포인트 클라우드/상태 토큰이 섞여 들어갈뿐임

3. 학습 방식

"이미지/3D정보 + 질문 → 답변" 구조의 멀티모달 QA데이터로 학습

질문 예시: "파란 블록을 어떻게 집을 수 있을까?", "이 장면에서 다음으로 해야 할 행동은?"

답변은 자연어로: "먼저 위에 있는 노란 블록을 집어 테이블에 내려놓고, 그 다음 파란 블록을 잡는다."

그래서 PaLM-E는,

기존 LLM이 하던 순수 언어 작업 + 시각/3D를 묶는 실세계 추론/플래닝까지 같이 처리하는 "멀티모달 두뇌"느낌이 됩니다.


PaLM-E가 할 수 있는 로봇 관련 작업들

논문에서 보여준 작업들을 한국환경에 맞게 정리하면,

1. 작업 및 모션 플래닝 (Task & Motion Planning)

입력: 3D 장면 정보 (예: "파란 블록 위에 노란 블록이 올라간 상태"), 질문: "파란 블록을 잡으려면 어떻게 해야 해?"

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

74 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 20개의 멤버십 콘텐츠 발행
  • 총 20개의 혜택 콘텐츠
최신 발행글 더보기
이전 27화[피지컬AI]27.범용 사전학습 로봇 비전모델