chatGPT부터 Figure 01까지
루드비히 브트겐슈타인의 "내 언어의 한계는 내 세계의 한계를 의미한다."라는 말은 언어가 우리의 인식과 경험을 형성한다는 깊은 통찰을 담고 있습니다. 그리고 LLM이 언어를 통해 세상을 이해하는 AI라는 Open AI의 발언과도 일치하네요. 이제 AI는 정말로 마치 "이해"하고 있는 것처럼 세상과 상호작용하고 있습니다.
OpenAI가 chatGPT를 공개한 지 1년과 약간의 시간이 지난 지금까지 AI가 세상과 상호작용하는 방식에는 많은 진화가 있었어요. 대화형 챗봇에서 시작하여 API를 이용한 plug-in 기능, 멀티모달 능력, 최근에는 figure 01을 통한 물리적 상호작용까지 선보이며 사용자가 AI와 상호작용을 통해 얻을 수 있는 경험의 범위를 지속적으로 확장시키고 있어요. 오늘은 그 과정을 다시 한번 되짚어보고자 합니다.
5일, chatGPT가 100만 명의 사용자를 얻기까지 걸린 시간으로 이처럼 빠르게 퍼진 서비스는 처음이었어요. 마치 진짜 사람이랑 대화하는 것처럼 느껴지는 생생함은 알파고 이후 사람들이 기다려 왔던 바로 그 서비스였던 거죠. 순식간에 입소문을 타고 퍼진 chatGPT는 어느새 세상의 일부로 자리 잡게 되었네요.
Sky scanner를 이용해서 값싼 항공권을 찾고, Google scholar나 Arxiv에서 논문을 찾아줍니다. 누가 하냐고요? 바로 ChatGPT가 말이죠. chatGPT에 등장한 plug-in 기능으로 AI가 다른 api를 통해 다른 서비스와 상호작용할 수 있게 되었어요. 그리고 많은 사람들이 "구글 플레이스토어에서 다운로드하지 않고, chatGPT에서 플러그인으로 서비스들을 실행하는 새로운 생태계"를 기대하게 만들었죠. 아직은 GPTs가 잘 활성화되지는 않아서 미지수로 보이네요.
멀티모달 기능은 ChatGPT가 텍스트뿐만 아니라, 음성인식, 이미지인식 등 다양한 형태의 정보를 처리할 수 있게 함으로써, 인공지능의 이해도를 한층 끌어올렸습니다. 그리고 텍스트로만 답변하는 것에서 그치지 않고, 음성이나 이미지로 답변할 수도 있게 되었죠. 심지어는 최근 공개한 Sora AI를 통해 비디오를 활용한 상호작용도 가능하다고 이야기하고 있는 상황이에요.
예전 블로그에서 App agent에 대한 내용을 간단하게 언급한 적이 있었습니다. LLM이 단순히 api를 이용하는 것이 아니라 스크롤이나 탭, 스와이프 하면서 직접 앱과 상호작용할 수 있게 된다면 어떤 일이 가능할까요? 지금까지 pc와 모바일을 조작하는 사용자 경험을 뒤흔들 수 있는 변화가 발생할 수도 있을 것 같네요.
최근 Google Deepmind에서는 SIMA라는 AI agent에 대한 연구를 발표했습니다. AI를 학습시키고 키보드와 마우스 동작을 출력할 수 있게 하여 게임 속에서 간단한 동작들을 수행하도록 Evaluate 했죠. 이런 시도는 LLM이 제한 없이 세상과 상호작용할 수 있다는 점을 시사하고, 앞으로도 계속 연구될 분야로 전망되고 있어요.
어렸을 때 "아이, 로봇"이라는 영화를 본 적이 있었는데, 거기서는 스스로 생각하고 움직일 수 있는 로봇 써니가 등장합니다. 솔직히 말하면, 저는 그런 SF 영화의 상상이 현실이 될 것이다라는 생각을 해본 적이 없었어요. 하지만, Figure 01의 시연 영상을 보고 나니, 어쩌면 빠르게 등장할 수도 있겠다는 생각이 들었어요.
LLM이 사용자의 대화와 카메라의 이미지를 이해하고, 로봇을 통해 상호작용할 수 있는 모습을 Figure 01이 보여줬습니다. 건조기와 세탁기와 스타일러가 하나로 합쳐지는 것보다, 안드로이드 로봇이 가전제품을 이용해 빨래도 하고 요리도 하는 미래가 더 먼저 다가온다면 세상에 어떤 변화가 생길지 기대됩니다.
LLM의 세상과의 상호작용은 더 폭넓게 세상을 이해하고, 더 다양한 수단으로 소통할 수 있도록 진화하고 있습니다. 그리고 놀라운 것은 이것이 커다란 비용이 발생하는 변화가 아니라는 점이에요. LLM을 센서, 데이터, 컨트롤러, 디바이스 등에 접목시키는 것으로 전혀 다른 사용자 경험을 만들고 있어요.
LLM은 자동차, iot, 뉴럴링크, 새로운 디바이스 등 모든 제품에 영혼을 불어넣을 것으로 예상돼요. 이 과정에서 수많은 서비스와 제품들이 통합되거나 사라질 가능성도 존재합니다. 역으로 지금의 디바이스가 LLM에 맞춰 형태나 기능을 진화시켜야 할 수도 있어요. 변화의 파도를 어떻게 이용하는 게 좋을지 고민이 필요한 시기입니다.