1장 파운데이션모델과 로봇
파운데이션모델은 크고 다양한 데이터를 수집하고 학습시킴으로써 범용성을 크게 높인 대규모 신경망을 말합니다. 파운데이션 모델은 하나의 모델로 기존처럼 단일 태스크에만 사용하는 것이 아니라, 이전과는 다른 매우 다양하고 많은 태스크에 맞춰어 활용할 수 있다는 특징을 가지고 있습니다.
이미 독자들도 익숙한 ChatGPT를 비롯한 LLM(대규모 언어 모델)이 전세계적으로 화두에 올라 있지만, 파운데이션 모델이라는 단어는 아직 익숙하지 않을 수도 있습니다. 파운데이션 모델은 LLM을 포함하고 있으면서 더 넓은 의미를 가진 대규모 모델을 말합니다. 여기서 LLM은 기본적으로 언어에 초점을 맞춘 모델이고 파운데이션 모델은 언어뿐만 아니라, 시각(이미지), 청각(음성)에 이미지의 시간적 연속 데이터인 영상, 3차원 형상을 나타내는 점군(point cloud), 메쉬 정보, 열화상(히트맵) 등 다양한 모달리티를 합쳐 사용가능한 모델 전체를 의미합니다.
참고로 "Foundation Model"이라는 단어 자체는 2021년 미국 스탠포드 대학에서 발표된 화이트페이퍼가 최초라고 합니다. LLM에 비해 더 추상적이고 직관적이지 않아 아직은 널리 퍼진 표현은 아니지만 앞으로 다루는 모달리티가 더 다양해질수록 이 단어는 점차 자연스럽게 확산될 것으로 예상됩니다.
필자는 로봇 전문가는 아니지만, LLM을 사용하여 다양한 AI Agent와 AI애플리케이션을 만들어보면서 로봇에 적용해보게 되면서 자연어 처리 및 이미지 처리를 깊게 연구하게 되면서 파운데이션 모델이 나온 이후, 로봇에 큰 혁신이 맞이하고 있어 이를 글로 정리하게 된 것입니다.
태스크마다 인간이 인식 및 계획/제어를 각각 개별적으로 프로그래밍하던 시스템이나 인간이 부여한 보상이나 동작 데이터를 기반으로 End-to-End 학습을 실행하던 시스템에서 파운데이션 모델이 나오게됨에 따라 인간의 개입을 최소화하고 다양한 태스크에 적응할 수 있는 시스템으로 변화하고 있습니다.
로봇도 이런 시대의 흐름에 맞춰 지금까지는 태스크마다 별도의 프로그래밍이나 학습을 수행하던 여러 인식모듈들이 하나의 파운데이션 모델로 거의 완전히 대체될 가능성이 높아지고 있습니다. (로봇 전용 연구가 불필요해질 가능성이 높아짐)
인식기, 태스크 플래닝, 모션 플래닝, 제어기도 LLM이 나온 이후, 기존에 연구되어 온 다양한 방법론들이 바뀌게 되었고 모두 대체되어 가고 있는 상황입니다. 특히 태스크 플래닝(작업계획기) 분야에서는 언어모델 중심으로 하는 자율 태스크 플래닝 구조가 주류로 바뀌었고 로봇 에이전트의 의사결정 체계전반이 재편되고 있습니다. 또한, End-to-End 제어 영역도 센서데이터를 활용하는 파운데이션 모델 기반 접근이 이미지 및 텍스트 뿐만 아니라, 로봇의 관절상태, 힘/토크신호, 제어입력등을 하나의 네트워크로 통합하여 학습할 수 있습니다. 즉, 로봇의 감각-이해-행동 전 과정을 하나의 모델로 연결하는 방향으로 발전하고 있습니다.
이른 흐름을 대표하는 예로 RT-X라고 하는 로봇용 파운데이션 모델이 있습니다. 이것은 멀티모달입력(비전, 언어, 센서, 제어)을 통합적으로 처리하며 다양한 로봇 플랫폼에서 범용적으로 활용가능한 학습 프레임워크로 주목을 받고 있습니다.
지금 현재 "인식/계획/제어의 모든 요소가 하나의 파운데이션 모델로 통합될 수 있다"라는 가능성이 현실적인 시나리오로 떠오르고 있지만 아직 해결해야 할 기술적 과제들이 많지만, 그 대부분은 시간의 문제일뿐이라는 인식이 확산되고 있습니다. 즉, 기존 로봇공학에서 분리되어 다뤄지던 각 모듈(인식, 작업계획, 모션 제어 등)이 근본적인 구조변화를 맞이하고 있으며 이제 로봇이 부분집합이 아니라, 하나의 통합적 지능 시스템으로 재정의되는 전환기에 들어섰다고 봅니다.
파운데이션 모델로 인해 이미 우리의 일상과 산업 전반에 깊숙이 스며들고 있습니다. 이미 많은 사람들이 ChatGPT를 통해 문서 번역, 상품찾기, 프로그래밍 문제해결이나 코드 작성을 하고 있습니다. 또한 어떤 사람들은 그림을 그려달라고도 하고 영상 제작도 하고 있습니다.
즉, 하나의 모델이 인간이 수행하던 수많은 지적 태스크를 짧은 시간 안에 대체하고 있는 것입니다. 이런 변화는 자연어처리(NLP)와 컴퓨터비전(CV)등 기존 AI연구분야에도 큰 영향을 주었습니다.
2023년 자연어처리학회(NLP학회)에서는 실제로
"ChatGPT가 등장하면서, 자연어처리 연구는 끝난 것인가?"
라는 긴급 패널 토론이 열리기도 했습니다. 언어를 연구하고 논문을 발표하기 위한 연구자 입장에서는 자신의 접근방식이 GPT-4가 생성한 결과보다 더 합리적이고 설명가능한지를 증명하지 못하면 논문이 통과되지 못하는 상황이 나오기 때문입니다. 즉, 기존 연구 영역 자체가 급격히 재편되는 사건이 일어난 것입니다.
여기까지가 파운데이션 모델이 전세계적으로 일으키고 있는 변화의 흐름입니다. 이런 변화속에서 실제 로못을 어떻게하면 움직일 수 있을까에 대해 초점을 맞춰 진행합니다. 파운데이션 모델은 일부 연구자들에게는 분명히 위협일 수 있습니다. 하디만 대다수에게는 오히려 기회가 될 수 있습니다. 이제 하나의 파운데이션 모델만으로도 여러 인식기, 행동계획기, 동작 생성기를 쉽게 대체할 수 있게 되었기 떄문이라서 사용하지 않을 이유가 없습니다.
이로 인해 그동안 상대적으로 주목받지 못했던 언어기반 로봇연구(Language-conditioned robotics)가 빠르게 성장하고 있습니다. 또한 최근에는 LLM을 활용해 태스크를 자동으로 하위 태스크로 분해하고 실행하는 방식이 로봇공학에서 당연한 전체처럼 받아들이는 수준에 와 있습니다. 그리고 물체인식과 조작(Object Manipulation)영역에서도 언어모델과 비전모델을 결합해 높은 신뢰도로 정밀한 인식 및 제어가 가능해졌습니다. 이전까지만 해도 방대한 데이터셋을 구축하고 모델을 직접 학습시켜야 했지만 이제는 그럴 필요가 없어졌습니다.
사용자는 단지 자연어로 "무엇을 하고 싶은지"를 지정하기만 하면 됩니다. 즉, "전문지식이 없으면 다루기 어려웠던 여러 모듈"이 파운데이션 모델을 중심으로 자연스럽게 통합되며, 과거에는 불가능했던 새로운 태스크조차 쉽게 수행할 수 있는 시대로 돌입되고 있습니다.
또 다른 변화는 자연어처리 및 이미지처리, 인공지능 연구자들과 로봇 연구자들 간의 경계가 빠르게 없어지고 있다는 점입니다. 다양한 모달리티(언어, 이미지, 음성, 행동 등)의 관계를 하나의 모델에서 학습할 수 있게 되면서, 이제는 이종분야 융합이 가속화되고 있습니다. 이제는 AI연구자들은 몸을 가진 에이전트(embodied agent)로서의 로봇을 새로운 연구대상으로 탐구하기 시작했습니다. (필자가 여기에 속한다)
이런 변화는 한쪽이 다른 쪽을 흡수하는 것이 아니라, 서로 다른 학문이 맞물리며 새로운 가능성을 만들어내는 융합적인 진화의 과정으로서 로봇의 자동화 수준이 높아지고 성능이 향상될수록 이런 흐름은 연구자뿐만 아니라, 기업엔지니어, 산업현장 개발자, 스타트업 창업자들에게도 직접적인 영향을 주고 있습니다. 이렇게 글로 정리하게 된 이유는 기존의 로봇이라는 좁은 시선에 머물지 않고 파운데이션 모델이라는 관점에서 로봇을 더 넓고 통합적인 시야에서 이해를 하기 위해 정리하는 것입니다.
현재 이 분야는 Google, Meta, Microsoft와 같은 북미 빅테크 기업을 중심으로 대규모 데이터와 컴퓨팅 자원을 보유한 산업계와 스탠포드대학, UC버클리대학등 주요 연구기관이 협력하면서 빠른 속도로 발전하고 있습니다.
이제 독자나 필자가 집중해야할 것은 파운데이션 모델로 무엇을 할 수 있는가?와 그 능력을 로봇에 어떻게 적용할 것인가입니다. 이를 제대로 이해한다면 한국의 연구자나 기업들도 세계 최전선의 연구수준을 따라잡고 나아가 앞서나갈 기회를 만들 수 있다고 생각합니다.
파운데이션 모델 자체는 본질적으로,
"거대한 뉴럴 네트워크(Transformer, Diffusion 등)를 대규모 데이터로 학습시킨 모델"에 불과합니다. 학습에는 다양한 기술적 요소가 존재하지만, 핵심은 데이터의 규모, 연산자원의 크기, 그리고 네트워크의 확장성입니다. 즉, 파운데이션 모델을 사용하는 일 자체는 복잡한 수학이나 고급 이론보다 적절한 활용설계와 적용감각이 더 중요합니다.
또한, 단순하게 파운데이션 모델을 활용하는 수준을 넘어, 로봇전용 파운데이션 모델을 직접 설계 및 학습하는 방향도 활발히 논의되고 있으며, 이때 네트워크 구조 설계, 학습 데이터 구축 및 확장, 실제 로봇 플랫폼을 활용한 데이터 수집등 현장에서 반드시 필요한 개발작업이 포함됩니다.
결국 로봇연구에서의 핵심 질문은 2가지로 정리됩니다.
1. 기존 파운데이션 모델을 로봇시스템에서 어떻게 활용할 것인가?
2. 로봇 전용 파운데이션 모델을 어떻게 새롭게 구축할 것인가?
이 두가지가 앞으로의 로봇연구와 산업혁신을 이끌 핵심 방향이라고 봅니다.
©2024-2025 MDRULES.dev, Hand-crafted & made with Jaewoo Kim.
이메일문의: jaewoo@mdrules.dev
AI 에이전트 개발, 컨텍스트 엔지니어링 교육 컨설팅, 바이브코딩 강의 문의: https://bit.ly/4kjk5OB