AI 발전의 4단계, AGI 발전의 5단계를 설명합니다.
요즘 뉴스만 틀면 AI 이야기입니다. 챗GPT가 나왔다, 로봇이 춤을 춘다, 엔비디아 주가가 올랐다... 정보는 쏟아지는데 정작 머릿속은 복잡하기만 하죠. "그래서 지금 AI가 어느 수준이고, 앞으로 우리 삶은 어떻게 바뀐다는 거야?" 이 질문에 대한 답을 찾기 위해, AI 세계를 움직이는 두 거인, 엔비디아(NVIDIA)와 오픈AI(OpenAI)의 청사진을 가져왔습니다.
재미있는 건 두 회사가 바라보는 미래가 마치 '몸'과 '뇌'의 관계처럼 절묘하게 맞아떨어진다는 점입니다. 엔비디아는 AI가 화면 밖으로 걸어 나오는 '신체적 진화'(피지컬AI)를, OpenAI는 AI가 단순 대화를 넘어 조직을 운영하는 '지능적 진화'(AGI, 인공 일반 지능)를 이야기하고 있거든요. 이 두 가지 로드맵이 만나는 지점, 그곳에 우리의 미래가 있습니다. 지금부터 그 단계를 함께 살펴봅시다.
AI 반도체 시장을 장악하며 사실상 AI의 표준을 만들고 있는 엔비디아(NVIDIA)는 AI의 진화를 '능력의 확장' 관점에서 정의합니다. 젠슨 황 CEO는 AI가 단순히 컴퓨터 속 계산기가 아니라, 세상을 보고, 무언가를 창조하고, 스스로 생각한 뒤, 마침내 현실 세계로 걸어 나오는 4단계의 여정을 밟고 있다고 설명합니다. 이 흐름을 이해하는 것은 곧 AI 산업의 과거, 현재, 그리고 미래를 꿰뚫어 보는 것과 같습니다.
AI 역사의 토대이자, 우리가 지난 10년간 가장 많이 경험해 온 단계입니다. 인식 AI의 핵심은 인간의 감각 기관(눈, 귀)을 디지털로 구현하여, 비정형 데이터(이미지, 소리, 언어)를 컴퓨터가 이해할 수 있는 형태로 변환하는 것입니다. 과거의 컴퓨터는 "사과"라는 텍스트는 처리할 수 있었지만, 사과 사진을 보고 그것이 무엇인지 알지 못했습니다. 하지만 인식 AI는 수백만 장의 이미지를 학습하여 패턴을 찾아내고, 이것이 '사과'인지 '배'인지, 혹은 '불량품'인지를 식별해 냅니다. 데이터를 통해 세상을 '보는 눈'을 갖게 된 셈입니다.
가장 쉬운 예로, 우리가 스마트폰 사진첩에서 '강아지'를 검색하면 AI가 수천 장의 사진 중에서 정확히 강아지가 나온 사진만 골라내는 기능을 들 수 있습니다. 또한, 아파트나 쇼핑몰 주차장에 진입할 때 차단기가 멈춤 없이 열리는 것도, AI가 카메라를 통해 차량 번호판의 숫자와 글자를 실시간으로 인식하고 판독했기 때문입니다. 제조 공장에서 컨베이어 벨트 위의 제품 중 미세한 흠집이 있는 불량품을 카메라로 찾아내거나, 스마트폰 잠금을 해제할 때 사용자의 얼굴 특징을 인식하는 Face ID 기술도 모두 여기에 속합니다. 이처럼 인식 AI는 세상을 '관찰'하고 '식별'하는 능력은 탁월하지만, 아직 새로운 정보를 만들어내지는 못하는 수동적인 관찰자에 가깝습니다.
2022년 말, 전 세계에 충격을 주며 등장한 현재의 주류 단계입니다. 인식 AI가 입력된 데이터를 분류하는 데 그쳤다면, 생성형 AI는 학습한 데이터의 맥락과 구조를 이해하여 세상에 없던 새로운 결과물을 만들어냅니다. 이는 AI가 단순한 분석 도구에서 '창작의 도구'로 진화했음을 의미합니다. 텍스트, 이미지, 오디오, 비디오, 심지어 3D 모델까지 생성의 범위는 무한합니다.
오픈AI의 챗GPT(ChatGPT)가 대표적입니다. 인터넷상의 방대한 텍스트를 학습한 이 모델은 단순한 답변을 넘어 시, 소설, 코딩, 이메일 작성, 이미지와 영상 생성 등 맥락에 맞는 새로운 문장을 생성합니다. 이미지 영역에서는 스테이블 디퓨전(Stable Diffusion)이나 미드저니가 있습니다. "우주복을 입고 말을 타는 나폴레옹" 같은 엉뚱한 명령어를 입력해도, AI는 학습한 화풍과 사물의 특징을 결합해 놀라운 퀄리티의 그림을 그려냅니다. 엔터테인먼트뿐만 아니라 신약 개발에서 새로운 단백질 구조를 설계하거나, 반도체 칩 설계를 최적화하는 등 산업 전반의 생산성을 폭발적으로 높이고 있는 단계입니다.
생성형 AI가 똑똑한 '조언자'라면, 에이전트 AI는 유능한 '수행 비서'입니다. 엔비디아가 차세대 AI의 핵심으로 꼽는 이 단계는 '자율성(Autonomy)'이 특징입니다. 인간이 구체적인 방법(How)을 하나하나 지시하지 않아도, 목표(What)만 주어지면 AI가 스스로 필요한 단계를 추론하고 계획을 수립합니다. 심지어 계획이 실패하면 스스로 수정하고, 외부 도구(웹 브라우저, 엑셀, 다른 소프트웨어)를 능동적으로 사용하여 작업을 완수합니다.
예를 들어, "다음 주 샌프란시스코 출장 일정을 짜줘"라고 했을 때, 챗GPT는 일정표 텍스트만 줍니다. 하지만 에이전트 AI는 사용자의 캘린더를 확인해 비어 있는 시간을 찾고, 익스피디아에 접속해 항공권을 예매하고, 우버를 예약한 뒤, 이 모든 내역을 이메일로 정리해 발송까지 마칩니다. 만약 선호하는 호텔이 만실이라면, 차순위 호텔을 찾아 예약하는 유연함까지 갖춥니다. 현재 오토GPT(AutoGPT) 같은 오픈소스 프로젝트나 기업용 업무 자동화 솔루션들이 이 단계로 빠르게 진입하고 있으며, 인간은 복잡한 작업 과정에서 해방되어 최종 의사결정에만 집중할 수 있게 됩니다.
엔비디아 AI 로드맵의 종착지이자, 로보틱스의 미래입니다. 앞선 세 단계의 AI가 서버나 컴퓨터 화면 속에 존재하는 '디지털 브레인'이었다면, 물리적 AI는 이 지능을 로봇이라는 하드웨어에 탑재해 물리 법칙이 지배하는 현실 세계(Real World)와 상호작용하게 만드는 것입니다. 이것이 어려운 이유는 디지털 공간과 달리 현실 세계는 중력, 마찰, 예기치 못한 변수들이 가득하기 때문입니다. 따라서 AI는 시각 정보로 주변을 인식하고, 어떻게 움직일지 계획하며, 정교한 모터 제어로 행동하는 과정을 실시간으로 수행해야 합니다.
가장 쉬운 예는 자율주행 자동차입니다. 도로 위라는 물리적 공간에서 인지-판단-제어를 수행하는 거대한 로봇이죠. 더 나아가 테슬라의 옵티머스(Optimus) 같은 휴머노이드 로봇은 공장에서 부품을 조립하거나 가정에서 빨래를 개는 등 인간의 노동을 대체하려 합니다. 엔비디아는 이를 위해 필요한 '옴니버스'와 '코스모스'를 운영하고 있습니다.
옴니버스(Omniverse)- 로봇을 위한 가상 훈련장 (The Gym)
로봇이 현실에서 걷는 법을 배우려고 수천 번 넘어지면 기계가 다 망가지겠죠? 그래서 엔비디아는 '옴니버스'라는 가상 세계를 만들었습니다. 이곳은 중력부터 빛 반사까지 현실과 똑같이 구현된 '디지털 트윈(Digital Twin)' 공간입니다. 로봇은 이 안에서 수억 번의 시뮬레이션을 통해 걷고, 물건을 집고, 운전하는 법을 마스터한 뒤에야 비로소 현실 세계로 나옵니다. (Simulation-to-Real World)
코스모스(Cosmos): 물리 법칙을 이해하는 세계 모델 (World Model)
옴니버스가 '훈련장'이라면, '코스모스'는 그 훈련을 가능하게 하는 로봇의 '뇌(Brain)'이자 교과서입니다. 코스모스는 수천만 시간의 영상 데이터를 학습해 물리 법칙과 인과관계를 이해하는 '월드 파운데이션 모델(World Foundation Model)'입니다. 예를 들어 컵을 놓으면 깨진다는 것을 미리 예측하고(Predict), 가상 훈련 데이터를 현실 상황에 맞게 변환해주며(Transfer), 로봇이 낯선 상황에서도 "이건 미끄러우니 조심해야지"라고 판단할 수 있게 해줍니다.
결국 코스모스라는 똑똑한 두뇌를 가진 AI가, 옴니버스라는 정교한 가상 세계에서 완벽하게 훈련을 마치고, 테슬라의 옵티머스 같은 로봇의 몸을 입고 우리 곁으로 오는 것. 이것이 엔비디아가 그리는 물리적 AI의 완성입니다.
https://youtu.be/UcbltrD1V_s?si=7uttr2qdDt2KBrKM
하드웨어와 플랫폼을 장악한 엔비디아가 '공간의 확장'을 이야기한다면, 챗GPT의 아버지라 불리는 OpenAI는 '지능의 깊이'에 천착합니다. 이들은 인공지능이 단순히 인간을 흉내 내는 단계를 넘어, 궁극적으로 인류보다 뛰어난 지적 능력을 갖춘 범용 인공지능(AGI, Artificial General Intelligence)에 도달하는 과정을 5단계로 정의했습니다. 이는 AI가 인간의 도구에서 파트너로, 그리고 마침내 리더로 성장하는 서사시와도 같습니다.
현재 우리가 가장 폭넓게 경험하고 있는 단계로, 인간과 자연스러운 대화가 가능한 AI를 의미합니다. 과거의 챗봇이나 음성 비서가 미리 입력된 각본에 따라 딱딱한 단답형 대답만 내놓았다면, 이 단계의 AI는 문맥(Context)을 이해하고 사람처럼 유창하게 대화를 이어 나갑니다. 챗GPT, 클로드(Claude), 제미나이(Gemini) 같은 거대언어모델(LLM)들이 여기에 해당합니다. 이들은 인터넷상의 방대한 텍스트 데이터를 학습하여 확률적으로 가장 적절한 다음 단어를 예측하는 방식으로 작동합니다.
하지만 이 단계는 '지능'이라기보다는 '언어 능력'에 초점이 맞춰져 있습니다. 말을 아주 청산유수처럼 잘하지만, 그 말이 논리적으로 참인지 거짓인지 검증하는 능력은 부족합니다. 그래서 가끔 자신 있게 거짓말을 하는 '환각(Hallucination)' 현상을 보이기도 하죠. 그럼에도 불구하고 이 단계는 기계와 인간의 소통 방식을 코딩 언어나 클릭이 아닌 '자연어'로 바꾸어 놓았다는 점에서 혁명적입니다. 정보 검색, 번역, 요약, 감성적인 대화 등 인간의 지적 활동 중 '소통' 영역을 완벽하게 보조하는 단계입니다.
말만 번지르르하게 하는 것을 넘어, 이제 AI가 '생각'을 하기 시작하는 단계입니다. OpenAI가 최근 공개한 'o1(오원)' 모델이 바로 이 지점을 지향합니다. 추론 AI의 핵심은 인간의 '시스템적 사고(느리고 신중한 사고)'를 모방하는 것입니다. 질문을 받으면 즉시 답변을 내뱉는 대신, 내부적으로 "생각의 사슬(Chain of Thought)" 과정을 거치며 문제를 단계별로 분해하고 논리적 오류를 스스로 검증합니다. 이를 통해 박사 학위 수준의 전문적인 문제 해결 능력을 갖추게 됩니다.
예를 들어, 최근 개발자와 기획자들 사이에서 폭발적인 반응을 얻고 있는 OpenAI의 'o1(오원)' 모델이나 AI 코드 에디터 '커서(Cursor)'의 사례를 볼까요? 이전 버전의 AI에게 "이 복잡한 코드가 왜 에러가 나는지 고쳐줘"라고 하면, 종종 겉핥기식 수정만 하거나 엉뚱한 답을 내놓곤 했습니다.
하지만 추론 AI는 다릅니다. 사용자가 질문을 던지면 AI는 즉시 답하지 않고, 화면에 '생각 중(Thinking)...'이라는 메시지를 띄웁니다. 이 시간 동안 AI는 "A 함수에는 문제가 없는데, B 데이터베이스와 연결될 때 논리적 충돌이 발생하는군. 그렇다면 C 방법을 써야 해결되겠어"라며 스스로 가설을 세우고 검증합니다. 덕분에 개발자는 꼬박 3일 밤을 새워야 찾을 수 있었던 버그를 단 1분 만에 잡아내고, 마케터는 복잡한 시장 분석 보고서의 논리적 허점을 AI와의 '심층 토론'을 통해 사전에 완벽하게 보완하고 있습니다.
엔비디아의 '에이전트 AI'와 개념적으로 맞닿아 있는 단계로, AI가 인지적 자율성을 갖게 되는 시점입니다. 2단계까지의 AI가 사용자의 질문에 답을 주는 '수동적 존재'였다면, 자율 AI는 목표를 달성하기 위해 며칠 혹은 몇 주 동안 스스로 행동하는 '능동적 존재'입니다. 인간이 "우리 회사의 새로운 앱 마케팅 캠페인을 진행해 줘"라는 포괄적인 목표만 던져주면, AI가 알아서 시장 조사를 하고, 광고 소재를 제작하고, 예산을 집행하며, 성과를 분석해 보고서까지 작성합니다.
이 과정에서 발생하는 수많은 돌발 변수들, 예를 들어 광고 심의가 반려되거나 예산이 초과되는 상황이 발생하면, AI는 인간에게 묻는 대신 스스로 대안을 찾아 해결합니다. 즉, 인간의 개입(Human-in-the-loop)을 최소화하고 작업의 시작부터 끝(End-to-End)을 책임지는 것입니다. 이 단계가 상용화되면 기업은 수많은 단순 반복 업무와 관리 업무를 AI에게 위임하게 되며, 인간은 오직 방향성을 설정하고 결과물을 승인하는 관리자의 역할에 집중하게 될 것입니다. 생산성의 개념 자체가 완전히 뒤바뀌는 분기점입니다.
여기서부터는 AI가 인류의 지적 유산을 단순히 학습하고 활용하는 것을 넘어, '확장'시키는 단계입니다. 혁신 AI는 기존에 없던 새로운 아이디어, 이론, 기술을 창조해냅니다. 현재의 생성형 AI가 기존 데이터를 재조합하여 창작하는 수준이라면, 혁신 AI는 데이터 속에 숨겨진, 인간조차 발견하지 못한 패턴과 법칙을 찾아내어 새로운 가치를 발명합니다. 이는 인류 과학 기술의 발전 속도를 기하급수적으로 가속할 '특이점'에 가까운 단계입니다.
구체적으로는 수만 년이 걸려야 발견할 수 있었던 난치병 치료제 후보 물질을 단 며칠 만에 찾아내거나, 기후 변화를 해결할 획기적인 탄소 포집 기술을 고안해 내는 것을 상상할 수 있습니다. 알파고가 인간 기보에 없는 창의적인 수로 바둑의 새로운 지평을 열었듯, 혁신 AI는 물리학, 생물학, 천문학 등 기초 과학 분야에서 노벨상 수상자 수십 명 몫의 연구 성과를 쏟아낼 것입니다. 이때 AI는 인간의 도구를 넘어 인류 문명을 진보시키는 핵심 동력이 됩니다.
OpenAI가 제시한 AGI 로드맵의 최종 단계입니다. AI가 개인의 업무를 돕거나 특정 분야의 혁신을 이루는 것을 넘어, 거대한 조직이나 시스템 전체를 운영하는 단계입니다. 이는 마치 오케스트라의 지휘자나 대기업의 CEO처럼, 수많은 하위 AI 에이전트들과 인간 구성원들을 조율하고, 장기적인 전략을 수립하며, 자원을 효율적으로 배분하여 조직의 목표를 달성하는 능력을 의미합니다.
조직 AI는 시장의 변화를 실시간으로 감지하여 회사의 사업 방향을 수정하고, 각 부서에 최적화된 업무를 할당하며, 리스크를 관리합니다. 인간의 한계인 인지적 편향이나 체력적 한계 없이, 24시간 내내 냉철하고 완벽하게 조직을 경영합니다. 이 단계에 이르면 인간 없이 AI 시스템만으로 운영되는 완전 자율 기업(DAO)이 등장하여 경제 활동의 주체가 될 수도 있습니다. 인간과 AI가 공존하는 사회 구조에 대한 근본적인 재정의가 필요한, 진정한 의미의 초지능 시대가 열리는 것입니다.
자, 이제 두 회사의 그림을 겹쳐볼까요?
OpenAI의 5단계(조직 운영 지능)를 탑재한 엔비디아의 4단계(물리적 로봇)가 등장한다고 상상해 보세요.
아침에 일어났더니 AI가 밤새 내 주식 포트폴리오를 분석해(추론) 투자를 조정해놨고(에이전트), 주방에서는 로봇이 내가 좋아하는 굽기로 토스트를 굽습니다(물리). 회사에 가면 AI 팀장이 프로젝트 진행 상황을 브리핑하고(조직), 나는 인간만이 할 수 있는 '가치 판단'과 '결정'에만 집중합니다.
너무 먼 미래 공상과학 영화 같나요? 불과 2년 전만 해도 우리는 챗GPT 같은 존재를 상상하지 못했습니다. 인식에서 생성으로, 대화에서 추론으로 넘어가는 이 속도는 점점 더 빨라질 것입니다.
중요한 건 두려움보다는 '활용'입니다. 이 거대한 흐름 속에서 나는 어떤 파도에 올라타야 할까요? 지금 당장 내 업무에 '추론 AI'를 어떻게 써먹을지, 내 생활에 '에이전트 AI'를 어떻게 초대할지 고민해보는 것. 그것이 다가올 미래를 가장 현명하게 맞이하는 첫걸음일 것입니다.