스탠퍼드 AI Index Report 2024 분석 #7
오늘은 로봇에 탑재되는 AI에 대해 알아볼 텐데 스탠퍼드에서 주목하는 AI는 구글의 PaLM-E라는 모델이다. 이 모델은 로봇플랫폼이 없는 회사들에게 안드로이드 같은 존재가 될 수 있다.
위 영상을 보면 서랍을 열고 라이스칩을 가져오라는 명령에 로봇팔이 이동해 인간의 방해에도 불구하고 몇 번 시도 끝에 명령을 수행한다. 어째 테스트장면이 보스턴다이내믹스를 연상시키는데 그 회사의 인력이 있는지는 모르겠다. 있어도 이상한 것은 아니다. 보통 회사를 매각할 때는 핵심인재를 빼돌리고 매각하는 게 기본이다.
다음 데모 영상에서는 플라스틱 블록을 색깔과 모양에 따라 배치하고 있다. 인간의 언어를 이해해야 하고 색깔과 모양을 구분해야 하는 수준 높은 AI라고 볼 수 있겠다.
다음 영상에서는 빨간 블록을 커피컵 쪽으로 밀어라는 명령에 로봇이 정확히 명령을 수행한다.
여기서 중요한 건 로봇이 커피컵을 본 적이 없다는 것이다. 커피컵 모양은 카페마다 조금씩 다르고 저 컵에 커피가 들었는지 주스가 들었는지도 알 수 없다. 그런데도 로봇은 명령을 완벽하게 수행해 낸다.
로봇이 이미지를 얼마나 잘 인식하고 여기서 상식적인 추론까지 해내는지 데모가 있다.
구글 딥마인드에서는 RT-2라는 모델을 만들었는데 주어진 이미지에 대한 질문에 답하는 훈련(VQA, Visual Question Answer)에서 나온 답을 다른 언어로 변환하여 로봇이 이 답을 동작으로 옮길 수 있게 하였다. 즉 로봇은 AI모델이 가진 질문:답의 훈련을 그대로 이어받을 수 있고 동작으로도 옮길 수 있다.
그림이 좀 복잡하긴 하지만 왼쪽의 훈련과정에서 답을 로봇이 인식할 수 있는 언어로 바꾸어 오른쪽 로봇이 바로 동작할 수 있게 한다.