피지컬 AI가 인간 노동을 완전 대체할 수 있을까?
https://www.hani.co.kr/arti/economy/economy_general/1226765.html
그(젠슨 황)는 피지컬 인공지능이 전세계적인 노동력 부족 문제도 해결할 수 있다고 주장했다. 그는 “인공지능은 인간을 대체하지 않고 협력하게 될 것이다”며 “인공지능이 제조 공장의 노동력을 보조하게 된다면 (제조업이 핵심 산업인) 한국은 크게 성장할 것이라고 확신한다”고 말했다. -기사 중-
지난주 뉴스를 점령한 화제는 두 갈래였다. 하나는 경주에서 열린 APEC의 다채로운 장면들과 그 이면의 의미였고, 다른 하나는 런던베이글뮤지엄에서 종사자가 과로 끝에 숨진 사건이었다. 한때 IT 업계에 깊숙이 몸담았던 사람으로서, 또 최근 노동 현장에서 쓸쓸히 미끄러지는 존재들―애도되지 못한 생들―에 대해 오래 생각해 온 탓에, 두 뉴스 모두 유심히 지켜볼 수밖에 없었다. 얼핏 보면 서로 다른 세계의 이야기처럼 보이지만, 자세히 들여다보면 한쪽이 다른 쪽의 결과이자 원인이 되어, 서로의 꼬리를 물고 도는 구조 속에 놓여 있다.
최근 ‘피지컬 AI’라는 말이 회자된다. 생성형 AI라는 개념조차 이제 겨우 이해하기 시작했는데, 또 다른 용어가 밀려온다. 그러나 결론부터 말하자면, 피지컬 AI는 놀라운 신기술의 돌파구도, 혁명적 발명도 아니다. 요즘은 AI라는 단어를 붙이지 않으면 시대에 뒤처지는 듯한 불안이 앞서는 까닭에, 이 말도 결국 조급한 명명에서 비롯된 조어에 가깝다. 사실 ‘인공지능(AI)’이라는 개념이 처음 등장했을 때도 IT 업계 내부에서는 적잖은 거부감이 있었다.
‘피지컬 AI(Physical Artificial Intelligence)’라는 용어를 정리한 설명에 따르면, 그것은 지능형 시스템이 단지 디지털 입력을 처리하는 데 머물지 않고, 물리적 세계 속에서 인지하고 판단하며 실행하는 능력을 갖추는 것을 뜻한다. 즉, 카메라나 라이다(LiDAR) 같은 센서로 환경을 감지하고, 액추에이터를 통해 실제로 움직이며, 학습을 통해 환경의 변화에 적응하는 기계 시스템이라는 것이다. 하지만 이 정의 역시 모호함을 완전히 벗어나지 못한다.
이럴 때는 처음으로 돌아가 보는 편이 낫다. ‘AI’라는 단어를 떼어내고, 그 뿌리인 ‘디지털’부터 생각해 보자. 디지털 세대를 자처하는 이들이라면, 이 출발점은 그리 낯설지 않을 것이다. 디지털은 데이터라는 재료를 바탕으로 전자적 계산과 프로그램의 논리를 통해 결과를 산출하는 체계의 총합이다. 여기에서 핵심은 데이터다. 수많은 정보의 파도 속에서, ChatGPT와 같은 인공지능의 학습 기반이 되는 텍스트 데이터의 비중은 사실 극히 미미하다.
피지컬 AI의 핵심은 '데이터의 최적화'
전 세계 데이터의 총량은 2025년 기준 약 180제타바이트(ZB)에 이를 것으로 예측된다( IDC, 2023 ). 이 안에는 영상, 음성, 이미지, 센서, 로그, 텍스트 등 우리가 감각하고 남기는 모든 흔적이 포함되어 있다. 제타바이트는 10의 21승, 곧 ‘1천 경’이다. 어릴 적 장난삼아 내기하듯 “백만, 천만, 억, 조, 경”을 나열하던 그 마지막의 ‘경’. 지금 인류는 그 경(京)의 단위를 실제로 다루는 시대를 살고 있다. 180제타바이트, 다시 말해 18만 경의 데이터 조각이 매일같이 생성되고 사라진다. ‘엄청나다’는 말조차 무력해질 정도의 규모다.
이 거대한 데이터의 바다에서 가장 큰 비중을 차지하는 것은 ‘영상 데이터(Video Data)’다. 2024년에서 2025년 사이의 추정치로는 전체의 60~70%를 차지한다. 유튜브, 스트리밍, CCTV, 비디오회의 등이 이 범주에 속한다. 그 다음이 '이미지 데이터(Image Data) '로 약 10~15%를 차지한다. 사진, 의료영상, 위성사진 등이 주된 내용이다. 이어서 '음성(Audio Data)'이 약 5~10%로 통화, 팟캐스트, 음성메시지, AI 음성 데이터로 구성된다. 그리고 알게 모르게 기계에서 발생하는 ‘센서·기계 데이터(IoT/Logs Data)’ 약 5~10%를 차지한다. 각종 통신장비, 스마트시티, 자동차, 산업 로깅 데이터가 쌓여 있다.
이제 남는 건 텍스트다. 우리가 거대언어모델의 기반이라 부르는 그 ‘텍스트 데이터(Text Data)’는 전체의 고작 2~5%에 불과하다. 책, 기사, 문서, 이메일, 웹페이지, SNS, 코드 따위가 이 작은 몫을 구성한다. 그중에서도 절반 이상은 사실상 숫자로 이루어진 ‘트랜잭션 데이터(Transaction Data)’다. 워드보다 엑셀이 더 많이 쓰이는 기업의 풍경을 떠올리면 이해가 쉽다. 결국 ChatGPT 같은 생성형 언어 모델은 인공지능 생태계 전체에서 기껏해야 5%의 표피적 층위에 속한다. 그렇다면, 그 5%의 언어적 환영에 기대어 ‘AI가 창작한다’, ‘AI가 자각한다’고 말하는 것이 얼마나 공허한가를 스스로 반증하는 셈이다.
https://youtu.be/s2X8uGr3g5E?si=r5pmCtaLqD_K_0QS
(피지컬 AI의 간단한 이해를 위해 위의 동영상 13:10부터 나오는 필레 가공 AI자동화를 보면 이해가 쉽다)
‘피지컬 AI’라는 개념은 이러한 공허의 반대편에서, 다시 물질적 현실로 되돌아가려는 기술적 시도처럼 보인다. 그러나 그 본질은 새롭지 않다. 요약하자면, 피지컬 AI는 ‘측정을 통한 기계학습 기반의 최적화 알고리즘’이며, 그 원리는 이미 1980년대 반도체 공정의 자동화 기술 속에 자리하고 있었다. 센서, 액추에이터, 인지 알고리즘—이 세 요소가 결합된 시스템을 떠올리면 된다.
센서는 주변의 물리 데이터를 수집한다. 카메라와 라이다, 온도 센서, 압력 센서, 움직임 센서 등이 눈과 귀의 역할을 한다. 액추에이터는 팔과 다리, 손가락이 되어 움직임을 수행한다. 로봇 팔, 바퀴, 드론의 모터, 혹은 정밀한 수술 도구가 그 예다. 인공지능 알고리즘은 수집된 데이터를 학습하며 판단하고, 행동을 선택한다. 일반적인 AI가 디지털 공간의 정보 처리에 집중한다면, 피지컬 AI는 물리적 세계의 법칙, 공간적 관계, 물체 간의 상호작용을 이해하고 대응한다. 현실에서 실험이 어려운 경우, 디지털 트윈(digital twin)이나 고충실도의 시뮬레이션 환경을 만들어 미리 훈련시킨다. 결국 오래된 자동화 기술이 기계학습의 껍질을 덧입은 것일 뿐이다.
그럼에도 사람들은 여전히 흥분한다. 기계가 환경을 이해하고 변화에 대응하며 인간과 상호작용할 수 있다는 사실에 경탄을 표한다. 물류창고의 로봇이 배치와 장애물을 스스로 인식하고 경로를 수정한다. 자율주행차가 날씨, 도로, 보행자의 움직임 속에서 판단을 내린다. 수술 로봇은 인간의 신체와 직접 맞닿은 채로 섬세한 동작을 수행한다. 하지만 이는 새로운 발견이 아니라, 오래전부터 진행되어 온 고도화의 또 다른 단계일 뿐이다.
문제는 속도다. 산업화의 시대에 모터의 분당 회전수(rpm)가 동력의 척도였듯, AI의 시대에서는 ‘시간’이 절대 지표가 된다. 처리 속도, 즉 계산의 시간. 인공지능이 하는 모든 일은, 인간이 무한에 가까운 시간을 들인다면 결국 해낼 수 있는 일들이다. 다만 우리는 그 시간을 압축하는 능력에 취해 있다. 그 결과, 시간의 효율을 지배하는 자, 즉 컴퓨팅 인프라와 반도체 생산기술을 쥔 자가 권력의 중심에 선다. 이것이 오늘날의 ‘젠슨 황 신드롬’이다.
케이트 크로퍼드는 『AI 지도책(The Atlas of AI)』에서 이렇게 적었다.
“AI를 대규모로 구축할 자본과, AI를 최적화할 방법이 필요한 탓에, 인공지능 시스템은 본질적으로 기득권에 유리하게 설계된다. 그런 의미에서 AI는 권력의 등기부다.”
결국 기술의 진화는 효율성의 문제가 아니다. 그것은 존재론적 질문을 불러낸다. 기계가 공간을 점유하고, 감각하고, 움직이는 순간, 우리는 묻게 된다. ‘삶의 영역’과 ‘기계의 영역’은 어디에서 갈라지는가. 인간이 지녀온 ‘몸의 지각’은 기술에 의해 어떤 방식으로 다시 쓰이는가.
만약 한 로봇이 인간처럼 감각하고 판단하며 행동할 수 있다면, 우리가 인간이라 자각했던 그 감각-운동의 회로는 어떤 의미를 가질까. 인간과 기계, 자연과 인공, 감각과 알고리즘의 경계는 이제 흐려지고 있다. 그리고 그 흐림 속에서, 인간의 지각과 윤리, 미학의 언어가 다시 태어날 자리를 우리는 어렵게 찾고 있다.
기술적 맥락에서의 ‘지각’은 '생각'이 아니다
공학자들이 말하는 ‘지각(perception)’은 물리적 감각 데이터를 처리하는 일련의 계산 과정이다. 카메라 이미지로 물체를 인식하거나, 마이크를 통해 소리를 구분하고, 라이다 신호로 거리나 속도를 계산하는 기능이 그것이다. 여기서 ‘지각’은 의식 없는 계산, 즉 세계를 이해하기보다는 데이터의 규칙을 탐지하고 분류하는 비감성적 과정에 가깝다. AI는 ‘색’을 본다기보다 픽셀의 분포를 분석하고, ‘소리’를 듣기보다 파동의 패턴을 벡터화한다. 다시 말해, 그것이 수행하는 일은 ‘지각’이라기보다 ‘감지(sensing)’와 ‘연산(computation)’의 연쇄다.
반면 철학에서 말하는 지각은 전혀 다른 차원에 있다. 그것은 단순한 감각의 합이 아니라, 몸을 매개로 세계가 자신을 드러내는 현전의 사건이다. 메를로퐁티가 말했듯, 지각은 “살(flesh)”의 관계 속에서 일어난다. 세계와 주체가 서로를 비추며 관계를 맺는 그 순간, 감각은 사물의 표면을 넘어 존재의 깊이를 통과한다. 따라서 AI가 아무리 정교하게 환경을 감지하고 반응한다 해도, 그것은 세계가 자신에게 ‘나타난다’는 현상적 차원을 포함하지 못한다. AI에게는 의도성이 없기 때문이다. 그것은 자신이 무엇을 감지하는지, 그 감지가 어떤 의미를 갖는지를 ‘살아 겪어내지’ 않는다. AI는 “빨간 신호등을 인식했다”는 계산을 수행할 수 있지만, 그 빨강이 ‘멈춤’과 ‘위험’을 함축하는 경험적 의미를 느끼지 못한다.
그럼에도 흥미로운 점은, AI가 ‘지각처럼 보이는 작동’을 수행한다는 사실이다. 학습 알고리즘을 통해 ‘빨강은 멈춤의 신호’라는 규칙을 주입하면, AI는 마치 의미를 이해한 존재처럼 반응한다. 피지컬 AI는 단순한 입력-출력의 자동화를 넘어, 환경과의 상호작용 속에서 피드백을 조정하는 ‘지각-행동 회로’를 갖기 때문이다. 구조적으로만 본다면, 그것은 인간의 감각-운동 회로와 유사하다.
이 때문에 현대 인지과학자들 사이에서는 오래된 논쟁이 다시 소환되고 있다. “지각은 본질적으로 신체적이며 계산 불가능하다”는 현상학의 입장(메를로퐁티, 후설의 전통)과, “신체적 과정조차 정보처리의 일종이다”라고 보는 계산주의(앤디 클락, 엔액티비즘의 공학적 재해석)가 맞서고 있다. 피지컬 AI의 등장은 바로 이 두 관점의 경계에 균열을 낸다.
기계는 감각을 수행할 수 있는가.
혹은 감각을 흉내 낼 수 있는가.
혹은 감각과 닮은 정보교환을 만들어낼 수 있는가.
따라서 “AI가 지각한다”는 말은 기술적 맥락에서는 ‘환경을 감지하고 반응한다’는 은유적 표현일 뿐이며, 철학적 맥락에서는 인간의 의식적·현상적 지각과 근본적으로 다르다. 요컨대 AI는 지각처럼 작동하지만, 지각하지 않는다. 그것은 감각의 표면을 연산할 뿐, 감각의 깊이를 체험하지 않는다.
그러나 바로 이 지점에서 피지컬 AI의 윤리와 존재론은 한층 복잡해진다. 만약 지각이 단순한 계산으로 환원될 수 없다면, AI는 결코 ‘세계 안에서 존재한다’고 말할 수 없을 것이다. 하지만 그 계산이 세계를 조작할 수 있을 만큼 정교해진다면, 인간은 그 기계적 계산을 오히려 지각처럼 느끼게 될지 모른다. 그것이 기술과 존재, 감각과 인식이 교차하는 오늘의 아이러니이며, 인간 중심적 인식론이 흔들리는 현장의 풍경이다.
변이 속의 일관성, 인간의 노동 가치
구 소련의 생리과학자 니콜라이 베른슈타인의 고전적 연구는 인간 운동 제어의 본질을 드러낸 대표적 사례로 자주 회자된다. 그는 여러 명의 숙련된 대장장이들에게 동일한 망치질을 시켰다. 측정 결과는 놀라웠다. 각자의 망치 경로는 모두 달랐다. 손의 움직임, 팔의 궤도, 관절의 각도는 제각각이었지만, 못이 맞는 지점의 정확도는 거의 완벽히 일치했다. 한 사람의 작업 내에서도 똑같은 궤적은 거의 발견되지 않았다.
이 실험은 인간의 운동이 반복적 계산이나 평균화된 최적화의 산물이 아니라, 변동 속에서 자기조직적으로 안정되는 복잡계적 지능임을 보여준다. 인간은 단순히 오차를 줄이는 존재가 아니라, 오차를 창조적으로 활용하며 안정성을 재구성하는 존재다. 이때의 지각은 수학적 평균이 아니라 맥락적 직관, 즉 경험과 감각, 기억이 얽혀 빚어내는 고유한 인식의 궤도다.
‘피지컬 AI’는 바로 이 복잡계적 자기조직성을 모델링하지 못한다는 한계를 안고 있다. AI는 복잡성을 계산 가능한 확률로 단순화하려 하지만, 인간의 지각은 계산되지 않는 불규칙성의 리듬 속에서 살아 움직인다. AI는 센서 데이터의 변이를 ‘노이즈’로 간주해 필터링하지만, 인간은 그 노이즈 속에서 의미를 감지하고 방향을 세운다. 인간은 세계의 불확실성을 제거하지 않고, 그 불확실성과 공존하며 행위의 결을 만들어간다. 베른슈타인의 대장장이처럼 말이다.
그런 의미에서 피지컬 AI가 현실에서 자율적이라 불릴 수는 있으나, 그 자율성은 여전히 규범화된 확률적 통제 내부의 자율성에 머문다. 그것은 모델이 허락한 자유일 뿐, 세계의 우연성과 대면하는 자유는 아니다.
핵심 정보에 대한 개인 고유의 판단과 선택의 경로는 인간의 고유함이다. 이는 지각이 단순한 정보처리가 아니라, 내면의 시간성을 품고 있다는 뜻으로 읽힌다. 인간의 지각은 순간의 입력에 즉각 반응하지 않는다. 기억과 감정, 신체의 피드백이 얽힌 시간의 밀도를 따라간다. 이 시간성은 ‘지연’이 아니라 ‘깊이’다. 효율의 시간에서 한 발 물러서면 비로소 보이는 깊이의 퀄리아다.
AI의 판단은 평균화된 확률로 세계를 단면화하지만, 인간의 지각은 자기 경험의 시간과 맥락 속에서 결정의 흔적을 남기며 생성된다. 그 흔적이 곧 ‘나’의 세계관이며, ‘나’라는 존재의 내적 지도를 형성한다. 그래서 인간의 지각은 언제나 고유하고, 다시 반복될 수 없다.
따라서 피지컬 AI의 불가능성은 기술적 한계가 아니라 윤리적 통찰이다. 피지컬 AI가 아무리 정교한 센서와 강화학습을 탑재하더라도, 그것은 세계의 불확실성을 제어할 뿐, 수용하지는 못한다. 세계의 우연성과 타자의 돌발성을 받아들이는 능력, 그 변화를 통해 자신을 새롭게 조직하는 능력 — 그것이 지각의 핵심이며 인간성의 깊이다.
결국, 피지컬 AI가 지각을 ‘모사’할 수는 있어도, 그 불확실성 속에서 ‘살아낼 수는 없다’. 그것이 기술이 도달하지 못하는 인간적 윤리의 경계이며, 인간이 여전히 세계 속에서 불완전하지만 유일한 존재로 남는 이유다. 지각은 평균이 아니라 특이점의 춤이다. 피지컬 AI가 아무리 고도화되더라도, 그 춤의 즉흥성과 긴장, 즉 살아 있는 변이의 질감에는 닿지 못할 것이다.
그러나 인공지능 산업이 알고리즘의 혁신, 제품의 개량, 편의의 향상에 그토록 집착해온 이유에는 나름의 사정이 있다. 기술의 진보라는 외피 아래, 그것은 기술·자본·통치가 맞물린 권력 구조의 재생산에 이바지해왔다. 기술이 권력을 전도하거나 침략하는 것이 아니라, 권력이 기술을 앞세워 자신의 구조를 강화해온 것이다.
그렇기에 이런 비판적 사유를 담은 칼럼이나 저서를 한국 밖에서 찾아야 한다는 사실은 더욱 씁쓸하다. GPU 26만 장이 무슨 의미가 있을까. 슈퍼컴퓨터를 어린아이에게 준다면, 그저 거대한 게임기에 불과할 것이다. 하기사 젠슨 황의 엔비디아가 본래 ‘비디오 게임용 그래픽 처리 장치’로 출발했다는 사실은 묘한 상징성을 남긴다. 25년 전, 한국의 PC방 거리에 그래픽 카드를 싸 들고 다니던 한 젊은 상인의 시간이 이제 기술 제국의 신화로 쓰이고 있다.