Affordance Grounding 이해하기!
처음 인공지능이 보여준 능력은 분류(Classification)였습니다. 사진을 보여주면 그것이 컵케이크인지, 강아지인지를 구분하는 식이죠. 예전에는 이런 문제만 풀어도 큰 진보라 여겨졌습니다.
하지만 이제, 우리는 이미 인공지능이 사진 속 고양이와 강아지를 구분하고, CCTV 화면 속에서 사람을 찾아내는 시대를 살고 있습니다. 이것이 흔히 말하는 객체 인식(Object Detection)의 성취입니다.
하지만 앞으로의 AI는 단순히 "무엇이 있는가?"를 알아내는 데서 멈추지 않습니다. 이제는 그 물체가 어떻게 쓰일 수 있는가?, 다시 말해 ‘쓰임새(affordance)’를 읽어내는 방향으로 진화하고 있습니다.
사람은 의자를 보면 ‘앉을 수 있다’, 컵을 보면 ‘잡을 수 있다’는 것을 직관적으로 압니다.
굳이 설명을 듣지 않아도, 경험과 몸의 감각이 그 쓰임새를 알려주기 때문입니다. AI가 이제 배우고 있는 것도 바로 이 지점입니다. 단순히 의자를 ‘의자’라 부르는 것이 아니라, 그것을 앉을 수 있는 대상으로 인식하는 것, 이것이 바로 피지컬 AI의 시작입니다.
*Xu, Peiran, and Yadong Mu. "Weakly-supervised affordance grounding guided by part-level semantic priors." arXiv preprint arXiv:2505.24103 (2025).
이 변화는 특히 로봇의 발전과 깊이 연결됩니다. 단순히 물체를 피하거나 옮기는 것을 넘어, 로봇이 상황에 맞게 물건의 용도를 파악하고 활용할 수 있어야 하기 때문입니다.
예를 들어, 로봇이 냄비를 인식할 뿐 아니라 "이 냄비는 잡아서 옮길 수 있다"는 의미를 이해하고, 스푼을 보았을 때 "이 스푼은 들어 올려 음식을 떠먹는 데 쓸 수 있다"는 것을 알게 된다면, 우리는 훨씬 더 자연스럽게 로봇과 협력할 수 있게 됩니다.
이러한 affordance 기반 인식은 물류 창고에서의 자동화, 가정에서의 돌봄 로봇, 나아가 자율주행차까지 이어질 수 있습니다. 단순히 도로에 있는 ‘사람’을 인식하는 것이 아니라, 그 사람이 ‘길을 건너려는지, 멈춰 있는지’를 판단하는 수준으로 진화한다면, AI는 우리의 삶을 훨씬 더 안전하고 편리하게 만들어줄 수 있습니다.
‘피지컬 AI’는 단순한 기술의 문제가 아니라, 인간과 기계가 어떻게 함께 살아갈 것인가에 대한 질문을 던집니다. AI가 사물을 바라보는 눈에 ‘몸의 감각’을 더할 때, 우리는 새로운 협력의 시대에 들어서게 됩니다. 중요한 것은 이 기술이 인간을 대체하는 것이 아니라, 인간의 감각과 상호작용을 보완하며 더 풍요로운 사회적 환경을 만들어 가는 방향으로 활용되는 것입니다.