6장 로봇 파운데이션 모델
기본 개념부터 다시 잡자면,
VLM:
- 입력: 이미지(또는 비디오) + 텍스트
- 출력: 텍스트(설명, 답변, 계획 등)
6장은 이걸 로봇이 직접 수집한 데이터에 맞게 다시 학습해서 "로봇 특화 VLM"으로 쓰는 시도에 대해 설명합니다.
대표 예시:
PaLM-E: LLM을 멀티모달로 확장한 거대 VLM
RoboVQA: 로봇 동작 중심의 VQA 특화 VLM
기본 베이스: PaLM (Pathways Language Model)
파라미터수 540B급 초거대 LLM
원래는 텍스트만 다루는 언어모델 (QA, 요약, 코드 등)
PaLM-E는 여기에 이미지, 3D 포인트 클라우드, 로봇 상태 벡터(관절, 위치 등)
같은 걸 같이 먹일 수 있게 만든 멀티모달 LLM입니다.
즉,
그냥 말 잘하는 LLM을 "세상을 직접 보는" 로봇용 뇌로 확장한 버전입니다.
구조는 위 그림을 설명하면 아래와 같습니다.
1. 각 모달리티별 인코더
이미지: ViT(Vision Transformer)로 인코딩 → 이미지 토큰 시퀀스
포인트 클라우드, 로봇 상태: 전용 인코더 → 임베딩 토큰
이 모든 걸 결국 "토큰 시퀀스(텍스트 비슷한 형태)"로 맞춥니다.
2. PaLM 본체는 그대로 LLM
PaLM은 여전히 "토큰 시퀀스 → 다음 토큰 예측"을 한다.
단지 입력 토큰 안에
텍스트 토큰 + 이미지/포인트 클라우드/상태 토큰이 섞여 들어갈뿐임
3. 학습 방식
"이미지/3D정보 + 질문 → 답변" 구조의 멀티모달 QA데이터로 학습
질문 예시: "파란 블록을 어떻게 집을 수 있을까?", "이 장면에서 다음으로 해야 할 행동은?"
답변은 자연어로: "먼저 위에 있는 노란 블록을 집어 테이블에 내려놓고, 그 다음 파란 블록을 잡는다."
그래서 PaLM-E는,
기존 LLM이 하던 순수 언어 작업 + 시각/3D를 묶는 실세계 추론/플래닝까지 같이 처리하는 "멀티모달 두뇌"느낌이 됩니다.
논문에서 보여준 작업들을 한국환경에 맞게 정리하면,
1. 작업 및 모션 플래닝 (Task & Motion Planning)
입력: 3D 장면 정보 (예: "파란 블록 위에 노란 블록이 올라간 상태"), 질문: "파란 블록을 잡으려면 어떻게 해야 해?"
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠