[제로가 직접 말아주는 딥테크 이야기] 6-2. 하드웨어에서 소프트웨어로
안녕하세요. 카카오벤처스에서 딥테크 영역 투자를 담당하고 있는 제로입니다.
이 글은 제로가 직접 말아주는 딥테크 이야기 6-1화에서 이어집니다.
로봇이라는 하드웨어가 AI라는 소프트웨어를 만나면서, 로봇을 잘 만드는 것뿐만 아니라 잘 움직이게 하는 것도 중요해지고 있습니다. 그 중심에는 AI가 물리적 신체를 지닌 시스템에 탑재되어, 실제 세계를 인식하고 행동하는 존재로 진화하는 ‘Embodied AI’ 개념이 자리합니다.
그렇다면 AI가 물리적 세계를 이해하고, 로봇이 그 이해를 바탕으로 유의미하게 움직이기 위해선 어떤 조건이 선행되어야 할까요? 또 로봇에 탑재된 AI가 외부 환경과 상호작용하려면 어떤 데이터를 학습해야 하고, 그 데이터는 어떻게 만들어질까요?
오늘은 VLA 모델(Vision-Language-Action Model)이라는 새로운 키워드를 중심으로 또 한 번 전환점을 맞이하고 있는 로보틱스의 현재에 대해 이야기해보려 합니다. 특히 Transformer 기반의 대형 모델(Large Model)이 제안된 이후 로보틱스에 어떤 변화가 있었는지, 앞으로 극복해야 할 과제는 무엇인지 알아보겠습니다.
1화에서 인공지능(AI)과 로봇의 기술 발전 패턴을 비교하기도 했고, 이전 콘텐츠에서 AI를 자주 다뤄온 만큼 이런 질문을 해보려 합니다. 로봇에 있어 GPT3 Moment가 있다면 언제일까요?
2021년, 3대 컴퓨터 비전 학회 중 하나인 CVPR(Computer Vision and Pattern Recognition)에서 Embodied AI 워크샵이 진행되었는데요. 연구자들이 Computer Vision을 활용한 인지 기능(Perception)을 로봇 하드웨어에 탑재했을 때의 잠재적인 성능에 주목하면서, 로봇 역사상 세 번째 시대인 ‘범용 로봇의 시대’가 막을 올립니다.
몇 가지 용어가 낯설게 느껴질 수 있어 하나씩 짚고 넘어가 보겠습니다.
Computer Vision, Perception, Embodied AI란?
1. Computer Vision은 컴퓨터가 이미지나 영상을 분석하고 이해하는 기술을 뜻합니다. 사람의 눈으로 사물을 인식하듯, 컴퓨터가 카메라를 통해 들어온 시각 정보를 처리해 객체 탐지, 분류, 추적, 거리 측정 등 다양한 시각적 판단을 수행할 수 있도록 합니다.
2. Perception은 로봇이나 인공지능 시스템이 센서를 통해 수집한 다양한 정보를 종합해 주변 환경을 이해하고 해석하는 능력을 말합니다. Computer Vision은 Perception의 한 구성 요소이며, 그 외에도 LiDAR, IMU, 음성 등 다양한 센서 데이터를 통합해 상황 판단, 위치 추정, 의사결정의 기반을 제공합니다.
3. Embodied AI는 인공지능이 가상 또는 실제 물리적 환경 안에서 몸체(Embodiment)를 기반으로 상호작용하며 학습하고 행동하는 기술 분야입니다. 단순히 데이터를 처리하는 것을 넘어, 센서와 액추에이터를 통해 세계를 인식하고 직접 조작하며 문제를 해결하는 것이 특징인데요.
로봇팔, 자율주행 로봇, 시뮬레이션 에이전트 등이 대표적인 예입니다. 이들은 시각, 촉각, 동작 등을 통합적으로 활용해 목표 지향적인 행동을 수행합니다. Embodied AI는 강화학습, 멀티모달 학습, 3D 시뮬레이션 등의 기술과 긴밀하게 연결되어 있으며, AI가 물리적 세계를 이해하기 위한 핵심 영역으로 주목받고 있습니다.
이어지는 글에서는 다음과 같은 내용을 더 자세히 다뤄보았습니다.
• AI도 학습시키기만 한다면 물리 현상을 충분히 이해할 수 있을까요?
• 'Computer Vision'과 'Embodied AI'는 어떻게 연결될까요?
• 로보틱스가 순항하기 위해 맞춰져야 하는 3박자, 그걸 지금 당장 수행할 수 있는 유일한 국가는 중국이다?
▼ 아래 링크를 클릭해, 카카오벤처스 블로그에서 전체 글을 확인해 보세요!