brunch

You can make anything
by writing

C.S.Lewis

by 키르히아이스 Jun 23. 2024

로봇용 인공지능은 어느 수준까지 왔을까?

스탠퍼드 AI Index Report 2024 분석 #7

오늘은 로봇에 탑재되는 AI에 대해 알아볼 텐데 스탠퍼드에서 주목하는 AI는 구글의 PaLM-E라는 모델이다. 이 모델은 로봇플랫폼이 없는 회사들에게 안드로이드 같은 존재가 될 수 있다. 

구글의 모델 PaLM-E가 탑재된 로봇의 과제 수행 장면(출처: https://palm-e.github.io) 

 위 영상을 보면 서랍을 열고 라이스칩을 가져오라는 명령에 로봇팔이 이동해 인간의 방해에도 불구하고 몇 번 시도 끝에 명령을 수행한다. 어째 테스트장면이 보스턴다이내믹스를 연상시키는데 그 회사의 인력이 있는지는 모르겠다. 있어도 이상한 것은 아니다. 보통 회사를 매각할 때는 핵심인재를 빼돌리고 매각하는 게 기본이다.


다음 데모 영상에서는 플라스틱 블록을 색깔과 모양에 따라 배치하고 있다. 인간의 언어를 이해해야 하고 색깔과 모양을 구분해야 하는 수준 높은 AI라고 볼 수 있겠다.

구글 모델을 탑재한 로봇의 물건 분류 장면(출처: https://palm-e.github.io)


 다음 영상에서는 빨간 블록을 커피컵 쪽으로 밀어라는 명령에 로봇이 정확히 명령을 수행한다.

구글 모델을 탑재한 로봇의 명령 수행 장면(출처: https://palm-e.github.io)

 여기서 중요한 건 로봇이 커피컵을 본 적이 없다는 것이다. 커피컵 모양은 카페마다 조금씩 다르고 저 컵에 커피가 들었는지 주스가 들었는지도 알 수 없다. 그런데도 로봇은 명령을 완벽하게 수행해 낸다.


 로봇이 이미지를 얼마나 잘 인식하고 여기서 상식적인 추론까지 해내는지 데모가 있다.

이미지를 고르면 그걸 보고 질문에 대답한다(출처: https://palm-e.github.io)

구글 딥마인드에서는 RT-2라는 모델을 만들었는데 주어진 이미지에 대한 질문에 답하는 훈련(VQA, Visual Question Answer)에서 나온 답을 다른 언어로 변환하여 로봇이 이 답을 동작으로 옮길 수 있게 하였다. 즉 로봇은 AI모델이 가진 질문:답의 훈련을 그대로 이어받을 수 있고 동작으로도 옮길 수 있다.  

로봇과 질문 답을 수행하는 과정(출처: https://palm-e.github.io)

그림이 좀 복잡하긴 하지만 왼쪽의 훈련과정에서 답을 로봇이 인식할 수 있는 언어로 바꾸어 오른쪽 로봇이 바로 동작할 수 있게 한다. 

매거진의 이전글 인공지능의 추론 수준은 어디까지 와있을까?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari