brunch

매거진 지식브런치

라이킷 11 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 키르히아이스 Jun 23. 2024

로봇용 인공지능은 어느 수준까지 왔을까?

스탠퍼드 AI Index Report 2024 분석 #7

오늘은 로봇에 탑재되는 AI에 대해 알아볼 텐데 스탠퍼드에서 주목하는 AI는 구글의 PaLM-E라는 모델이다. 이 모델은 로봇플랫폼이 없는 회사들에게 안드로이드 같은 존재가 될 수 있다.

구글의 모델 PaLM-E가 탑재된 로봇의 과제 수행 장면(출처: https://palm-e.github.io)

위 영상을 보면 서랍을 열고 라이스칩을 가져오라는 명령에 로봇팔이 이동해 인간의 방해에도 불구하고 몇 번 시도 끝에 명령을 수행한다. 어째 테스트장면이 보스턴다이내믹스를 연상시키는데 그 회사의 인력이 있는지는 모르겠다. 있어도 이상한 것은 아니다. 보통 회사를 매각할 때는 핵심인재를 빼돌리고 매각하는 게 기본이다.

다음 데모 영상에서는 플라스틱 블록을 색깔과 모양에 따라 배치하고 있다. 인간의 언어를 이해해야 하고 색깔과 모양을 구분해야 하는 수준 높은 AI라고 볼 수 있겠다.

구글 모델을 탑재한 로봇의 물건 분류 장면(출처: https://palm-e.github.io)

다음 영상에서는 빨간 블록을 커피컵 쪽으로 밀어라는 명령에 로봇이 정확히 명령을 수행한다.

구글 모델을 탑재한 로봇의 명령 수행 장면(출처: https://palm-e.github.io)

여기서 중요한 건 로봇이 커피컵을 본 적이 없다는 것이다. 커피컵 모양은 카페마다 조금씩 다르고 저 컵에 커피가 들었는지 주스가 들었는지도 알 수 없다. 그런데도 로봇은 명령을 완벽하게 수행해 낸다.

로봇이 이미지를 얼마나 잘 인식하고 여기서 상식적인 추론까지 해내는지 데모가 있다.

이미지를 고르면 그걸 보고 질문에 대답한다(출처: https://palm-e.github.io)

구글 딥마인드에서는 RT-2라는 모델을 만들었는데 주어진 이미지에 대한 질문에 답하는 훈련(VQA, Visual Question Answer)에서 나온 답을 다른 언어로 변환하여 로봇이 이 답을 동작으로 옮길 수 있게 하였다. 즉 로봇은 AI모델이 가진 질문:답의 훈련을 그대로 이어받을 수 있고 동작으로도 옮길 수 있다.

로봇과 질문 답을 수행하는 과정(출처: https://palm-e.github.io)

그림이 좀 복잡하긴 하지만 왼쪽의 훈련과정에서 답을 로봇이 인식할 수 있는 언어로 바꾸어 오른쪽 로봇이 바로 동작할 수 있게 한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari