AI는 이미 왔다. 로봇의 모멘트는?

걷고 뛰고 춤추지만, 젓가락은 못 드는 로봇의 현실

by OOJOO

말을 너무 잘 알아듣고 티키타카 대화도 잘 통하고, 뭘 찾거나 정리하고 요약하며 정보를 체계화하는 것까지 기가 막히게 잘 해낸 것이 2024년의 AI였다. 2025년에는 이미지, 영상, 문서까지 '업무 결과물'의 형태로 내놓는 수준으로 빠르게 확장되었다. 그렇다면 2026년의 AI는 어떤 변화를 보여줄까? 바로 모니터 속이 아닌 우리가 사는 현실계로 AI가 로봇을 입고 등장하는 것이 아닐까? 실제 휴머노이드 로봇 시장의 참여자가 분명하게 늘고 있으며 투자금도, 언론의 관심도 커지고 있다.


현대차그룹이 인수한 보스턴다이내믹스의 아틀라스는 2024년 완전 전기식 모델을 공개했고 중국 유니트리는 G1으로 가격 장벽을 낮추고 있으며 미국에서는 테슬라 옵티머스와 피겨AI가 제조·물류 현장 중심의 상용화를 밀어붙이고 있다. 이미 유통 채널도 움직이기 시작했다. 이마트 영등포점 일렉트로마트는 유니트리 G1을 포함해 14종의 로봇을 상시 판매 중이고 노르웨이계 1X 테크놀로지스는 가정용 로봇 '네오(NEO)'를 약 2만 달러에 사전 주문받으며 2026년 미국 배송을 예고했다.


산업 현장의 신호는 더 구체적이다. 피겨AI는 BMW 미국 스파턴버그 공장에서 약 11개월간 Figure 02를 운용하며 주 5일, 10시간 교대로 누적 9만 개 이상의 부품을 적재하고 3만 대의 차량 생산에 기여했다. '데모'를 넘어 '제한된 반복 공정에서 루틴하게 돌아간 사례'가 된 셈이다. 테슬라 역시 옵티머스를 실제 내부 공장에 적용 중으로 2026년부터는 좀 더 다양한 작업에 투입한다고 밝혔다.


하지만, 이런 로봇의 품질이 당장 공장과 현장 그리고 우리 일상 곳곳에서 보여질만큼 검증된 것은 아니다. 실제 2026년 CES에서 현대차·보스턴다이내믹스의 아틀라스 시연은 원격 조종 기반이었는데 이는 '데모'와 '자율 상용' 사이의 간극이 여전하다는 것을 확인시켜준다. 또, 중국의 로봇들이 춤을 추고 무술을 하며 덤블링을 하는 것을 보고 이게 실제 100% 구현된다고 일반화할 수는 없다. 즉, 장애물이 생기거나 물체 위치가 미세하게 달라지거나 순서가 바뀌게 되면 넘어지거나 에러가 발생한다.


이같은 문제를 줄이기 위해 로봇 파운데이션 모델(RFM), 월드 모델(LWM), 비전-언어-행동(VLA) 모델 개발에 집중하고 있다. 이런 모델은 인간처럼 물리 세상을 인식하고 상황을 이해하며 맥락에 맞게 행동하기 위한 두뇌 역할을 하는 AI이다. 다만 이 모델들을 학습하는데는 물리 세계의 상호작용과 로봇이 실제 인식하고 행동하며 발생한 결과가 현실에 주는 영향(실패·복구·성공 과정)까지 포함해야 하는데, 이는 기존의 ChatGPT와 같은 LLM을 훈련시키는 것과 비교가 되지 않을 정도로 시간과 기술 난이도가 더 많이 요구된다. 이를 위해, 시뮬레이션과 원격조작 기반의 데이터 수집과 사람을 따라하는 모방학습 그리고 현장 반복 투입으로 개선을 해가고 있지만 기존의 AI가 보여준 것만큼 속도가 드라마틱하지는 않다.


그렇다보니 ChatGPT가 보여준 것과 같은 로봇이 주변 도처에서 주 1회 이상 볼 수 있는 그런 모멘트가 오기에는 시간이 걸릴 수 밖에 없다. 지금은 '특정 장소에 국한된 제한 작업'이 일상화되기 시작하는 단계에 불과하다. 즉, 일부의 공장 내에서만 특정 작업에만 사용되는 수준이거나 중국의 로봇처럼 재미로 공연장 등에서 로봇의 장기자랑을 보는 수준일 뿐이다.


이 단계를 넘어 휴머노이드 로봇이 불특정 다수의 장소에서 다양한 작업을 수행하려면 두 가지 병목을 넘어야 한다.


첫째는 손기술(manipulation)이다. 두 발 보행, 점프, 균형 유지 같은 이동 능력은 눈에 띄게 성숙했지만 사람 손이 해내는 정밀 작업은 아직 상용 수준에서 매우 어렵다. 젓가락으로 콩을 집고, 스티커를 떼고, 단추를 채우고, 유리의 지문을 닦는 일은 여전히 불가능하다. 핵심은 '가능/불가능'의 이분법이 아니라 '현장에서 매일 반복해도 고장·오작동·안전사고 없이 굴러가느냐'다.


둘째는 스킬 학습의 경제성이다. 물류센터에서 상자를 옮기는 것과 조선소 용접, 식당 설거지, 자동차 체결 작업은 필요한 힘·정밀도·도구·안전 규칙이 완전히 다르다. RFM을 고도화한다고 자동으로 팔방미인 숙련공이 되지 않는다. 작업별 추가 학습(포스트 트레이닝), 반복 개선(연속 학습), 개별 로봇의 경험이 중앙으로 흡수되어 모델을 진화시키고 다시 배포되는 '플릿 러닝(Fleet Learning)' 사이클이 필수적이다.


이 두 병목을 극복해야 비로소 로봇의 모멘트가 온다. 그것이 1~2년 내에 광범위하게 가능할까? 불가능하다.

로봇은 ChatGPT와 달리 물리 세계에 직접 영향을 준다. 1만 번 중 한 번의 에러가 사람의 안전을 해칠 수 있고 그 리스크를 산업 현장과 가정이 얼마나 감당할 수 있는지가 대중화 속도를 결정한다. 자율주행의 역사가 좋은 참고가 된다. 테슬라 오토파일럿이 2015년 본격 출시된 후 10년이 지났지만 일반 소비자 차량의 주류는 여전히 운전자 상시 감시가 필요한 Level 2에 머문다. 로보택시도 미국과 중국의 특정 도시, 특정 구역, 제한된 날씨 조건에서만 운행될 뿐이다. 이와 마찬가지로 '뭐든 인간처럼 해내는 범용 로봇'의 등장은 5년 내에도 장담하기 어렵다.


다만 3년 내에 기대할 만한 변화가 물류센터, 제조 공장 그리고 통제 가능한 서비스 공간(주방, 카페, 전시장, 공항의 일부 동선, 전쟁터)에서 특정 작업에 최적화된 휴머노이드의 목격으로 만들어질 것이다. 2024년의 ChatGPT가 '우리 일상에 실제 사용되는 순간'을 보여줬다면, 2028년까지 휴머노이드는 '제한된 작업에 투입되는 순간'을 다양한 공장에서 만날 수 있게 될 것이다. 이후 2030년에 가정을 포함한 더 넓은 영역으로 확장되서 '로봇의 모멘트'를 만나게 될 것이다.


https://youtu.be/bo64naY_r5s?si=RATya98AUiAtOKuC


[100% 저자가 직접 작성한 원본]

말을 너무 잘 알아듣고 티키타카 대화도 잘 통하고 뭘 찾거나 정리하고 요약하며 정보와 지식을 구조적으로 체계화하는 것까지 기가 막히가 잘 해낸 것이 2024년의 AI였다. 그런 AI가 2025년에는 이미지도 영상도 그리고 문서까지도 훌륭하게 만들어냈다. 그런 AI가 2026년에는 로봇을 입고 현실에서 만날 수 있게 되는 것일까? 현대자동차가 인수한 보스턴 다이나믹스의 아틀라스, 중국의 유니트리, 미국의 옵티머스와 피겨AI 등 휴머노이드 로봇 시장에 참여한 기업은 늘고 있으며 갈수록 로봇이 할 수 있는 일들도 늘어가고 있다. 이런 로봇이 ChatGPT가 보여준 것처럼 공장, 공연장, 식당, 가정 등에서 갑작스럽게 불현듯 나타나는 시간은 언제일까? 이미 이마트는 영등포점 일렉트로마트에서 유니트리 G1을 포함해 14종의 로봇들을 판매하고 있다. 또한 미국의 1X 테크놀로지스는 2026년 미국 가정에 네오라는 가정용 로봇을 약 2만 달러에 판매할 목표로 2025년 10월부터 사전 주문을 받고 있다. 피겨 AI는 BMW 공장에서 11개월 실증 완료를 했고 테슬라의 옵티머스는 기가팩토리 조립 라인에 파일럿으로 로봇을 테스트 중으로 1~2년 내에 수 만대의 로봇을 제조, 물류 현장에 투입되는 로드맵을 발표했다.


그렇게 로봇은 적어도 1년 이내에는 공장을 시작으로 3년 내에는 좀 더 다양한 장소에서 여러가지 역할을 수행해내는 것이 실현될 수 있을까? 그런 로봇의 모멘트는 언제, 어떻게, 어디에서 무엇을 해내면서 다가오게 될까.


로봇이 사람처럼 물건을 나르고 춤을 추고 권투를 하는 등의 작업은 정해진 규칙 기반으로 훈련시켜서 해낼 수 있다. 문제는 주변 환경이 조금이라도 바뀌면 이런 작업을 수행할 수 없다는 점이다. 즉, 정해진 순서대로 약속된 행동을 사람처럼 자연스럽게 해내는 것은 현재의 기술로 충분히 검증되었다. 하지만, 주변 지형이 바뀌거나 장애물이 나타나거나 갑자기 새로운 추가 명령을 내리게 될 경우에는 에러가 발생할 수 있다. 이 에러를 최소화하는 것이 바로 RFM(Robot Foundation Model), LWM(Large World Model) 그리고 VLA(Vision Language Action) 등의 AI 모델이다. 한마디로 인간이 물리 세상을 인식하고 상황을 이해하고 맥락에 맞게 행동하기 위해 필수적인 두뇌와 같은 역할을 한다. 이렇게 로봇이 주변을 알고 알아서 행동하기 위한 AI 모델의 훈련은 LLM과는 달리 데이터의 양과 질 그리고 종류가 방대하기에 LLM만큼 빠른 속도로 학습을 시키기에는 시간이 소요된다. 하지만, 지난 4년간 LLM과 Agent 등의 기술 발전과 AI 인프라의 진화 덕분에 이 속도가 빨라지고 있음은 확실하다. 그렇기에 작년보다 올해 더 자연스럽고 인간을 뺨치는 로봇들이 많아지고 있으며 실제 공장과 공연장 그리고 식당 등에서 로봇을 만나기가 쉬워지고 있다.


하지만, 이것만으로 로봇의 모멘트가 왔다라고 말할 수는 없다. 로봇의 모멘트가 오려면 적어도 1주일에 한 번 이상은 주변에서 로봇을 발견할 수 있어야 한다. 뉴스 기사나 전문가들의 전언으로 듣는 것이 아니라 내가 직접 주 1회 이상은 가정이든, 거리든 특정 장소에서 휴머노이드 로봇을 발견해야 한다. 직접 사용하지는 않아도 이런 로봇을 TV나 유투브가 아닌 실제 목전에서 목격할 수 있어야 한다. 즉, 잘 알아듣고 알아서 움직이는 그런 로봇은 1년 이내에 특정 장소에 국한해서 제한된 작업에 한해서 루틴하게 행동할 수 있는 실체로 구현될 수 있을 것이다. 그런 로봇이 더 많은 불특정 장소에서 발견되고 좀 더 다양한 작업들을 수행해낼 수 있으려면 2가지의 선결 조건이 필요하다. 첫째가 손기술이다. 로봇이 두 발로 걷고 뛰고 점프하며 날라 차기를 하고 춤까지 추는 것은 발고 팔로 하는 것들로 상당 수준 이상의 기술적 완결이 되었다. 반면, 아직 손기술은 사람을 따라올 수 없을만큼 미흡하다. 로봇이 젓가락질을 하고 그것도 나무 젓가락이 아닌 쇠 젓가락으로 콩을 잡고, 스티커를 떼어 내고 옷을 개고 단추를 채우고 팽이를 돌리며 유리에 자국이 남은 지문을 닦는 것은 불가능하다. 사람처럼 자유자재로 공구를 다루고 섬세한 작업을 하기 위한 로봇의 손기술이 첫 번째 허들이다. 두번째는 스킬을 학습하는 것이다. 다양한 크기와 형태, 무게의 물건을 나르던 물류 공장의 로봇이 조선소에 가서 용접을 하고, 그 로봇이 레스토랑에 가서 그릇을 닦고, 자동차 공장에서 나사와 볼트를 조이기 위해서는 각각의 작업장에서 특정 작업 수행에 필요로 하는 숙련공의 기술을 학습해야 한다. RFM과는 다른 추가적으로 학습을 해야 하는 특정 기술인 셈이다. ChatGPT가 수학 문제도 풀고 번역과 법률이나 의학 지식을 다룰 수 있는 만능이 되는 것은 LLM에 특정 분야의 전문 지식을 넣으면서 AGI(범용 AI)가 될 수 있지만, 로봇은 그 중심의 RFM을 고도화한다고 해서 다양한 작업을 수행해내는 팔망미인의 숙련공이 될 수는 없다. 그렇기에 추가적인 학습을 해야 하고(Post training), 그것도 여러 번 반복 작업을 해가면서 스킬 학습을 연속해가야 한다.(Continuous learning) 그렇게 특정 스킬을 학습한 개별 로봇들이 훈련한 지식은 클라우드로 보내 RFM을 더 진화시키는데 마중물로 사용되고(Federal Learning), 그렇게 학습한 모델이 다시 로봇으로 다운로드해서 업데이트를 하는 과정 속에 로봇은 더욱 더 다양한 일들을 수행해낼 수 있게 되는 것이다.


위 2가지의 바틀넥(손기술과 스킬 학습)을 극복해야 로봇의 모멘트가 오게 된다. 그것이 1~2년내에 가능할까? 우리 인간이 도처에서 다양한(아마도 수 십만 아니 수 백만 가지 이상의 작업들을 수행) 작업들을 수행하고 있는데 그런 것을 개별 학습하지 않더라도 이 전체를 아우를 수 있는 똑똑한 로봇의 AI가 언제 즈음 완성되고, 그런 로봇의 손이 인간만큼 섬세한 작업을 수행해내는 기술적 완성이 언제 가능할까? 적어도 3년 내는 아닐 것이다. 설사 늘 기술의 발전 속도는 우리의 상상을 뛰어 넘는다 하더라도, ChatGPT와 달리 로봇은 우리가 사는 현실에 물리적인 영향을 줄 수 있기 때문에 1만번 중 단 한 번의 에러나 할루시네이션이 사회 안녕과 인간의 안전을 해칠 수도 있다는 것도 로봇의 모멘트에 걸림돌이다. 2015년 테슬라 오토파일럿과 ADAS가 나오면서 2020년 즈음에 완전 자율주행이 가능하리란 예측이 쏟아졌지만, 지금의 승용차는 사실상 대부분 부분 자율주행인 Level 2 (차선 유지는 되지만 운전자가 항상 감시·개입)에 머물러 있고 Level 4에 가까운 로보택시나 버스는 미국과 중국 등의 특정 도시와 구역 내에서 제한된 시간과 날씨에만 될 뿐이다. 즉, “일반 보급형 완전자율주행”과는 거리가 있다. 그처럼 로봇 역시 뭐든 인간처럼 해내는 로봇의 등장은 적어도 5년 내에는 불가능할 것이다. 단, 3년 후에는 손기술과 스킬 학습 덕분에 물류센터와 제조 공장 그리고 식당이나 주방, 카페 그리고 공연장이나 전시장, 공항 그리고 전쟁터 등 특정한 작업에 최적화되어 실현되어 2024년의 ChatGPT가 보여준 모멘트 정도는 보여줄 수 있을 것으로 기대된다.



[ChatGPT 도움을 받아 작성한 추가본]

말을 너무 잘 알아듣고 티키타카 대화도 잘 통하고 뭘 찾거나 정리하고 요약하며 정보와 지식을 구조적으로 체계화하는 것까지 기가 막히게 잘 해낸 것이 2024년의 AI였다. 그런 AI는 2025년에 들어 이미지와 영상, 문서 생성까지 ‘업무 결과물’의 형태로 내놓는 수준으로 빠르게 확장되었다. 그렇다면 2026년은 AI가 마침내 ‘로봇’을 입고 우리가 사는 현실에서 마주치는 해가 될 수 있을까?


이 질문을 진지하게 만들고 있는 것은 휴머노이드 로봇 시장의 참여자가 분명히 늘고 있다는 사실 때문이다. 예컨대 현대차그룹이 2021년 인수 완료(지분 80%)한 보스턴다이내믹스(Boston Dynamics)의 ‘아틀라스(Atlas)’는 2024년에는 유압식 방식을 종료하고 완전 전기식(fully electric)으로 구동되는 모델을 공개했다. 중국의 유니트리(Unitree)는 G1 같은 비교적 저렴한(연구·플랫폼 성격이 강한) 휴머노이드로 가격 장벽을 낮추고 있고, 미국에서는 테슬라의 옵티머스(Optimus), 피겨(Figure AI) 같은 기업이 제조·물류 현장 중심의 상용화를 전면에 내세우고 있다. 그럼에도, 2026년 CES에서 현대차·보스턴다이내믹스가 아틀라스를 공개 시연했는데 이 시연이 원격 조종 기반이었다는 점은 “데모”와 “자율 상용” 사이의 간극을 다시 한 번 확인시켜준다.


그렇다면 이런 로봇이 ChatGPT가 보여준 것처럼 공장, 공연장, 식당, 가정 등에서 갑작스럽게 불현듯 나타나서 로봇의 모멘트를 가져다줄 시간은 언제일까? 이 질문에 대해 “아직 멀었다”라고만 말하기 어려운 이유는 이미 유통 채널과 예약 판매 채널이 움직이기 시작했기 때문이다. 이마트는 2026년 1월 30일부터 서울 영등포점 일렉트로마트에 ‘로봇 스토어’를 열고 총 14종의 로봇 제품을 상시 판매하기 시작했다. 이 매장에는 유니트리의 휴머노이드 G1(기본형)를 3,100만 원 수준에 판매하고 있다. 즉, 휴머노이드가 더 이상 연구실·전시회만의 물건이 아니라 대형마트 매대 위에 올라온 첫 사례 중 하나가 된 셈이다.


가정용 시장에서도 ‘판매’라는 단어가 현실이 되기 시작했다. 노르웨이계 1X 테크놀로지스(1X Technologies)는 2025년 10월 28일 NEO(네오) 공개와 함께 사전 주문을 받기 시작했고 미국 배송은 2026년 시작 된다고 밝혔다. 다만 이 단계의 ‘가정용’은 완전자율 집안일 로봇이라기보다 초기에는 원격 개입(teleoperation)과 사람-기계 협업을 통해 데이터를 축적하고 기능을 확장해갈 계획이다. 반면, 산업 현장에서는 “파일럿”을 넘어서는 신호도 나왔다. 피겨(Figure)는 BMW 미국 스파턴버그 공장에서 약 11개월간 Figure 02를 운용한 결과를 공개하면서 생산 라인에서 ‘매일’ 운영(주 5일 10시간 교대)했고 누적 9만 개 이상의 부품을 적재했으며 해당 기간 동안 3만 대의 차량 생산에 기여했다고 밝혔다. 이 정도면 “휴머노이드가 생산 라인에 잠깐 테스트한 데모”를 넘어 “제한된 범위의 반복 공정에서 루틴하게 돌아간 사례”로 해석할 수 있다. 테슬라는 옵티머스에 대해 2025년 내부 사용 목적의 저수준 생산을 시작했고 2026년에는 외부 기업을 대상으로 한 고생산(high production)을 목표로 한다고 밝혔다. 단, 2020년 자율주행이 완성된다고 떠들었지만 여전히 2026년의 도로에는 자율주행이 완전하게 구현되지 못한 것처럼 휴머노이드 역시 “로드맵 발표”만으로 모멘트가 왔다고 단정하기는 어렵다.


그렇다면 로봇은 적어도 1년 이내에는 공장을 시작으로 3년 내에는 좀 더 다양한 장소에서 여러 가지 역할을 수행해내는 것이 실현될 수 있을까? 사실 유투브 등에서 보듯이 로봇이 사람처럼 물건을 나르고 춤을 추고 권투를 하는 등의 작업은 상대적으로 규칙 기반 또는 제한된 시나리오 학습으로도 구현해내고 있다. 문제는 주변 환경이 조금이라도 바뀌었을 때의 ‘일반화’다. 장애물이 생기거나 물체의 위치가 미세하게 달라지거나 같은 명령이라도 맥락이 바뀌면 에러가 발생할 수 있다. 이 취약성을 줄이기 위해 업계와 학계가 집중하는 축이 로봇 파운데이션 모델(Robot Foundation Model), 월드 모델(World Model), 비전-언어-행동(Vision-Language-Action, VLA) 계열이다. 예컨대 VLA라는 용어 자체는 로봇 관측(vision)과 명령(language)을 행동(action)으로 직접 연결하는 모델 계열을 가리키며 구글 딥마인드의 RT-2 연구는 “웹 규모로 학습한 비전-언어 능력”을 로봇 제어로 옮겨 일반화를 높이려는 접근을 제시했다. 로봇 파운데이션 모델은 “휴머노이드에 공통으로 깔리는 범용 베이스 모델”을 지향하는데 엔비디아의 Project GR00T는 그 방향을 대표하는 사례로 언급된다. 월드 모델은 더 넓게는 “물리·공간·시간의 변화를 예측 가능한 형태로 내재화”하려는 시도로 딥마인드의 Genie 3처럼 상호작용 가능한 환경을 생성·시뮬레이션하는 연구 흐름도 같은 축에 놓여 있다.


여기서 중요한 차이가 있다. LLM은 인터넷 텍스트·코드·이미지 같은 디지털 데이터로 매우 빠르게 확장 학습이 가능했지만, 로봇의 학습 데이터는 물리 세계의 상호작용과 센서-모터 루프 그리고 실패·복구 과정까지 포함해야 한다. 데이터의 양과 질뿐 아니라 “종류” 자체가 훨씬 방대하고 비싸다. 그래서 로봇 쪽의 학습 속도가 LLM만큼 가파르게 나아가기 어렵다는 점은 여전히 유효하다. 다만 이 속도를 끌어올리는 현실적인 방법으로 시뮬레이션과 원격조작 기반 데이터 수집, 제한된 현장 투입을 통한 반복 개선이 빠르게 결합되고 있다. 1X가 초기 가정용 로봇에서 원격 개입을 전제한 학습 방식을 공개적으로 언급하는 것도 ‘데이터를 얻는 방법’ 자체가 제품 전략이 되고 있음을 보여준다.


그렇다고 해서 이것만으로 로봇의 모멘트가 왔다고 말할 수는 없다. 로봇의 모멘트란, 뉴스 기사나 전문가의 전언이 아니라 내가 현실에서 “주 1회 이상” 로봇을 목격하는 상태에 가깝다. 직접 구매하거나 집에서 쓰지 않더라도 TV나 유튜브가 아닌 ‘목전’에서 휴머노이드를 반복적으로 보게 되는 순간이 와야 한다. 그런 기준에서 보면, 지금은 “특정 장소에 국한된 제한 작업”이 먼저 일상화되는 단계에 가깝다. 이마트 영등포점처럼 유통 채널에 로봇이 전시·판매되는 장면은 그 전초전이며 BMW 공장에서 실제 공정에 투입되는 사례는 산업 현장에서의 전초전이다. 그러한 전초전이 2027년까지 이어질 것이며 다음 2가지의 병목을 극복해내면 3년 내에 좀 더 많은 장소에서 보다 다양한 작업을 수행해내는 로봇을 볼 수 있을 것이다.


그런 로봇의 모멘트에 병목은 2가지로 첫째는 손기술(조작 능력, manipulation)이다. 두 발 보행, 점프, 균형 유지 같은 이동 능력은 눈에 띄게 좋아졌지만 사람 손이 해내는 “정밀·다양·저비용” 작업을 동일한 안정도로 수행하는 것은 아직 상용 수준에서 매우 어렵다. 여기서 핵심은 “가능/불가능”의 이분법이 아니라 “현장에서 매일 반복해도 고장·오작동·안전사고 없이 굴러가느냐”다.

둘째는 스킬 학습의 경제성이다. 물류센터에서 상자를 옮기는 것과 조선소의 용접, 식당의 설거지, 자동차 공장의 체결 작업은 필요한 힘·정밀도·도구·안전 규칙이 완전히 다르다. 로봇 파운데이션 모델이 고도화된다고 해서 자동으로 숙련공의 팔방미인이 되기 어렵고 결국 작업별로 추가 학습(포스트 트레이닝)과 반복 개선(연속 학습) 그리고 개별 로봇의 학습 내용이 통합되는 것이(연합학습) 필요해진다. 이 과정에서 현장 경험이 중앙 학습으로 흡수되고 업데이트가 다시 배포되는 ‘플릿 학습’이 중요해진다.


위 두 가지 병목(손기술과 스킬 학습)을 넘어서야 휴머노이드가 공장 밖의 불특정 다수 장소로 확산될 수 있다. 그것이 1~2년 내에 광범위하게 가능할지는 단정할 수 없다. 특히 로봇은 ChatGPT와 달리 물리 세계에 직접 영향을 준다. 1만 번 중 한 번의 오류나 환각이 사람의 안전을 해칠 수 있고 그 리스크를 산업 현장과 가정이 얼마나 감당할 수 있는지가 상용화 속도를 결정한다.


이 점에서 자율주행의 역사는 좋은 비교 축이다. 테슬라 오토파일럿은 2014년 하드웨어가 탑재되고 2015년 10월 소프트웨어 업데이트로 본격 기능이 확장되기 시작했는데 그 이후 10년 가까이 지났음에도 일반 소비자 차량의 주류는 여전히 “운전자가 상시 감시·개입해야 하는” Level 2 범주에 머문다. 이는 SAE 분류와 NHTSA 자료에서도 Level 2에서 운전자의 감독 책임이 명확히 전제됨을 확인할 수 있다. 물론 일부 지역에서는 로보택시가 제한된 구역·조건에서 운영되며 발전하고 있지만, 그것이 곧바로 “일반 보급형 완전자율주행”으로 이어지지는 않았다. 이와 비슷하게 휴머노이드도 “뭐든 인간처럼 다 하는 로봇”의 등장은 3년 내에 보편화되기 어렵고, 5년 내에도 장담하기 어렵다는 쪽이 더 보수적이고 안전한 결론이다.


다만 3년이라는 시간축에서는 기대할 만한 변화가 더 현실적이다. 물류센터와 제조 공장, 그리고 통제 가능한 서비스 공간(주방·카페·전시장·공항 운영의 일부 동선 등)에서 특정 작업에 최적화된 휴머노이드가 ‘루틴하게’ 투입되는 장면은 더 자주 목격될 가능성이 있다. 이미 대형마트에서 휴머노이드를 매대에서 파는 장면이 등장했고 실제 자동차 공정에서 제한된 범위를 매일 운영한 사례도 나왔다. 2024년의 ChatGPT가 “대화형 AI가 일상 업무의 기본 레이어가 되는 순간”을 보여줬다면 2026~2029년의 휴머노이드는 “제한된 물리 노동이 자동화 레이어로 편입되는 순간”을 공장부터 보여주기 시작할 것이다. 이후 가정을 포함한 좀 더 많은 영역으로의 확장은 3년 후에나 가능해질 것으로 기대된다.



P.S> 맨 위 첫번째 원고는 원본과 ChatGPT 생성본을 기반으로 Claude를 통해서 통합한 이후,

약 30분간 각 문단과 단어들을 다시 수정해서 완성한 최종본



❍ 작가의 2026년 IT/AI 트렌드 전망서

https://www.yes24.com/product/goods/154580236


❍ 작가의 AI 리터러시를 정리한 사전

https://www.yes24.com/product/goods/147569979


작가의 이전글일의 기본기