22. 저수준 인식에서의 파운데이션 모델 활용

5장 파운데이션 모델을 로봇에 활용하는 방법

by AI개발자

Nov 14. 2025

physicalai-멀티모달AI와-로봇-top2.png

로봇이 실제 세상을 보고 이해하려면, 먼저 이미지/영상 같은 저수준 센서 데이터를 처리해야 합니다. 이때 파운데이션 모델(ResNet, CLIP, R3M등)은 한국에서도 기본 레퍼런스로 많이 사용합니다.

활용 방식은 크게 2가지입니다.

1. 특징량 추출(Feature Extraction)

비전 데이터를 잠재공간으로 변환해서

지도 생성

End-to-End 정책학습

등을 바로 쓸 수 있게 하는 방식입니다.

2. 장면 이해(Scene Understading)

주변 환경을 인지해 계획/제어의 보조 정보로 쓰는 방식입니다.

이 두 축이 지금 한국 로봇 연구에서도 가장 많이 채택되는 패턴입니다.

⑴ 특징량 추출: CLIP, R3M, CLIPort

저수준 인식에서 가장 많이 쓰는 모델이 ResNet, MoCo같은 기본 백본이고, 요즘은 CLIP처럼 텍스트+이미지 조합 모델이 사실상 표준이 됩니다.

- R3M

Meta가 공개한 Ego4D(1인칭 비디오)기반 사전학습 모델

한국에서도 조작 데이터 수집 부담을 확 줄여줘서 연구용으로 인기 많음

- CLIPort

한국 로봇 연구자가 실제 많이 따라 하는 구조입니다.

CLIP으로 언어 + 이미지 의미 추출

Transporter Network로 공간 정보 추출

두 스트림 결합해 "빨간 블록을 파란 블록 위에 올려"와 같은 언어 기반 조작 수행

한마디로 "말을 알아듣고 손으로 행동하는 로봇"의 기본 설계도라고 보면 됩니다.

- Socratic Models - LLM/VLM/ALM을 언어로 연결

한국환경에서 특히 와닿는 포인트는 이것입니다.

LLM = 언어 ↔ 언어

VML = 언어 ↔ 이미지

ALM = 언어 ↔ 음성

셋다 언어를 중심축으로 연결가능

AR글래스 기반 보조 서비스나 로봇에게 말로 의도를 전달하는 HRI(Human-Robot Interaction)에도 바로 적용됩니다.

예: 이미지 캡셔닝

전용 모델 없어도 VLM → LLM → VLM 순서로 조합하면 충분히 높은 품질의 캡션 생성이 가능합니다.

예: Egocentric VQA

카메라 프레임 + 음성 → (VLM/ALM 변환) → LLM 추론 = 사람 시점 기반 멀티모달 이해 가능

⑵ 한국 환경에서 중요한 응용: 물체/환경 상태 인식

한국형 주거/사무실 환경에서는 문여닫힘, 전등상태, 전자레인지/정수기/전기밥솥 상태 같은게 중요합니다. 파운데이션 모델(VLM) 기반 접근은 엄청 현실적입니다.

① 이산적 상태 인식

OFA 같은 VQA 모델에

"Is this door open?"

"Is the microwave on?"

처럼 질문하면 바로 Yes/No응답을 줍니다.

깊이 카메라로 해결안되는 유리문, 투명 플라스틱 식기, 물 흐름 같은 것도 잘 잡힙니다.

한국형 적용 예시:

원룸/아파트의 설치형 수납장 문 상태

원두커피 머신 추출 여부

가전(에어컨/세탁기/공공청정기) ON/OFF

② 연속적인 상태 인식

문이 반쯤 열린 건 열림? 닫힘?

양파가 "갈색"이 되는 기준은?

물이 "막 끓기 시작하는" 지점은?

CLIP이나 ImageBind로 이미지 ↔ 텍스트 유사도 값을 연속값으로 추적하면 해결됩니다.

예시:

끓기전 → 막 끓기 시작 → 완전히 끓음

버터 녹기 전 → 부분 녹음 → 완전히 녹음

한국 로봇 요리 스타트업에서도 진짜 필요한 기능입니다.

⑶ 제스처 기반 로봇 보조: GIRAF

"저기 있는 상자 좀 가져와!" 이말만으로는 부족하지만, 손가락으로 가치키면 의도 해석이 훨씬 정확합니다.

GIRAF는

음성 → Azure STT

제스처 → MediaPipe + EgoGesture

물체 인식 → SAM + OpenCLIP

최종 계획생성 → LLM

한국형 적용 예시:

고령자 케어 로봇이 제스처 기반으로 물건 전달

산업현장 작업자 보조 로봇

교육용 HRI 로봇의 직관적 UI

제스처를 사용하면 조작 성공률이 70%이상 올라갔다고 보고됨.

⑷ 로봇의 실패 이해 및 수정: REFLECT

한국 로봇 개발 현실에서 진짜 빡센 부분이 Debugging입니다. REFLECT는 이걸 파운데이션 모델로 자동화합니다.

구성은 3단계:

1. 감각 요약

RGB-D + 포인트클라우드 + CLIP 임베딩으로 태스크 중심 Scene Graph 생성 (한국 서비스 로봇에서도 바로 활용가능한 구조)

2. 이벤트 요약

의미 변화, 음성 이벤트, 서브골 도달 시점 등 중요 프레임만 추출해 효율화

3. 서브골 요약

각 서비 목표가 성공했는지 LLM이 판정 → 실패 원인 설명 → 재계획 수립

이건 한국 로봇 스타트업이 트러블슈팅 자동화하는데 바로 쓸 수 있는 프레임워크입니다.

한국 로봇/AI시스템에서 파운데이션 모델은 이렇게 사용됩니다.

1. 저수준 인식: CLIP/R3M/ResNet으로 특징 추출, 장면 이해 강화

2. 언어 중심 멀티모달 통합: LLM/VLM/ALM을 언어로 연결해 HRI 강화

3. 상태 인식 자동화: 가정/사무실/산업환경의 물체/가전/문/밸브 등의 상태인식

4. 연속 상태 추적: 한국형 조리/서비스 작업에서 핵심

5. 제스처 기반 HRI(GIRAF): 손짓 + 말을 이해해 로봇 보조 성능 향상

6. 실패 분석 자동화(REFLECT): 한국로봇개발의 고질적 문제인 태스크 온실 테스트 부담을 줄여줌

이메일문의: jaewoo@mdrules.dev

AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB

GAEBAL AI - 네이버톡톡

AI개발, LLM개발, 강의문의

http://talk.naver.com/ct/w5umt5#nafullscreen

keyword

Brunch Book

멤버쉽

AI개발자 소속 MDRULES

AI개발자는 AI LLM개발자로 일하며, Context Engineering, 프롬프트 엔지니어링관련 해서 기업대상으로 AI에이전트 개발부터 스펙주도개발, 바이브코딩 교육을 합니다

구독자 74

월간 멤버십 가입 월간 멤버십 가입

이전 21화21. 파운데이션 모델을 로봇에 적용방법23. 고수준 인식을 위한 파운데이션 모델 응용다음 23화