학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 문장은 삭제했습니다. Ignacio de Gregorio가 미디엄에 올린 글을 정리한 것입니다.
우리는 구글이 최근 열린 연간 구글 I/O 컨퍼런스에서 이처럼 많은 신규 제품과 기능을 한 번에 공개한 사례를 거의 본 적이 없다. 새로운 AI 관련 기술의 양은 솔직히 말해 압도적이었다. 개발자와 투자자들은 환호했지만, 이번 발표는 대부분 뉴스들이 포착한 것보다 훨씬 더 의미 있었다. 혼란스러운 정보의 홍수 속에서 특정한 패턴이 드러났다.:
IO는 구글이 검색 회사에서 '모든 것을 아우르는 앱 회사'로 변모한 날이었다. 오늘은 이 패턴이나 최종 목표를 설명하며 구글의 미래에 미치는 영향을 요약한다. 솔직히 말해서: 구글은 심각하게 저평가된 주식이다. 회사에 다가오는 변화는 전혀 반영되지 않고 있다. 따라서 시장 투자나 AI에 관심이 있거나, 디자인, 프로그래밍, 예술 등 관련 분야에서 일하는 사람, 또는 AI의 최신 발전에 대해 알고 싶은 사람이라면 이 글에서 공유되는 정보가 유용할 것이다.
끝없이 이어지는 기능과 제품 목록
구글이 이번에 발표한 제품과 기능 목록은 방대하다. 하지만 내가 할 수 있는 가장 포괄적인 '요약'을 시도해 본다.
참고 1: 나는 AI 모델인 'Gemini'와 그 다양한 버전들인 'Pro'와 'Flash'를 계속 언급할 것이다. 나중에 이 모델들이 무엇이며 구글의 미래에 어떤 의미를 갖는지 설명하겠지만, 현재로서는 구글이 AI를 모든 분야에 도입하는 주요 방식이다.
참고 2: 여기서 소개된 대부분의 제품과 기능은 주변 모든 것을 의심하게 만들 정도로 놀라운 데모 동영상을 포함하고 있다. 이는 데모이기 때문에, AI와 관련된 모든 것처럼 건강한 회의론을 적용하고 기대치를 낮추는 것이 좋다.
새로운 모델
먼저 논의해야 할 것은 새로운 AI 모델입니다. 여기서는 다음과 같이 소개한다:
주력 모델 새로운 버전인 Gemini 2.5 Flash다.. LMArena에 따르면 이 모델은 모든 분야에서 두 번째로 우수한 모델(물론 이는 주관적인 평가일 뿐입니다)로 평가된다. 그러나 논쟁의 여지가 없는 점은 비용 효율성이다. 모든 생성형 AI 모델 중 달러당 성능이 가장 우수하며, 아마도 Grok-3 mini를 제외하면 가장 저렴하다. 또한 모든 Gemini 사고 모델(thinking models, 작업에 대해 더 오래 생각할 수 있는 모델, 때로는 '추론 모델'로 알려져 있음)은 이제 조정 가능한 세분화된 사고 모델을 갖추게 되어, 모델이 생각하는 시간(및 요금)을 더 세밀하게 제어할 수 있다.
첫 번째 진정한 기술적 발표는 텍스트를 위한 새로운 확산 모델(diffusion model)인 Gemini Diffusion입니다. 이는 ChatGPT와 같은 전통적인 거대 언어 모델과 크게 다르며, 텍스트를 ‘거친 단계에서 세밀한 단계로’ 생성하는 방식이 적용됐다. 대부분 텍스트 AI 모델은 현재 단어별로 순서를 예측하는 방식과 달리, 이 모델은 텍스트 구조와 의미를 이해한 후 이를 세밀하게 조정하는 방식으로 작동한다. 이 모델을 직관적으로 이해하려면 생성 과정을 그림 그리기와 유사하게 보는 것입니다. 그림을 그릴 때, 왼쪽에서 오른쪽, 위에서 아래로 모든 세부 사항을 하나씩 그리지 않는다. 대신 먼저 스케치를 그리고 그 다음에 세밀하게 다듬는다. Gemini Diffusion 모델도 텍스트에 대해 동일한 방식으로 작동한다.
이같은’ 생성 방법 덕분에 매우 빠르며, 초당 2,000 토큰 속도를 달성합니다. 이 속도라면 이 모델은 이 기사를 2초 미만에 작성할 수 있다. 특히 코딩에 강하다.
스마트폰용 새로운 Gemini nano 모델, Gemma3n은 기기 내에서 실행 가능(다운로드 가능하며 인터넷 연결이 필요 없음)하며, 크기 대비 놀랍도록 우수한 성능을 보여준다. Gemma3n는 Matryoshka 아키텍처를 기반으로 합니다. AI 기술 전문가로서, 이 기술은 그들이 소개한 가장 흥미롭고 중요한 기술적 돌파구라고 믿으며, 곧 발표할 별도 글에서 자세히 다룰 예정이다.
새로운 추론 시간 컴퓨팅 기능인 Deep Think. 간단히 말해, 플래그십 모델인 Gemini 2.5 Pro가 초기 허용 시간보다 훨씬 더 오래 특정 작업에 집중해 계산할 수 있도록 해준다. 이로써 수학, 코딩, 멀티 모달리티 벤치마크에서 새로운 최첨단 결과를 달성했다.
이 아이디어는 현재 대부분의 성능 개선이 추론 중(모델이 작업에 집중하는 동안) 특정 작업에 더 많은 컴퓨팅 자원을 할당하는 방식으로 이루어진다는 점에 기반한다. 이 개념은 '테스트 타임 컴퓨팅'( test-time compute)으로 불리며, 수학 문제를 해결할 확률을 높이기 위해 더 많은 '생각'을 할당하는 것과 유사하다.
이제 제품 자체로 넘어가겠습니다. 먼저 미디어와 디자인부터 시작한다.
미디어 & 디자인
첫 번째 주목할 만한 제품은 Stitch로, 디자이너와 개발자가 텍스트 설명이나 스케치만으로 완전한 프론트엔드 인터페이스를 신속하게 생성할 수 있는 제품이다. 즉, 강력한 UI 디자인 및 프론트엔드 생성 도구들이다.
참고로, 이 제품은 최근 구글에 인수된 GalileoAI 제품에 기반한다. Stitch는 프로토타이핑을 크게 가속화하며, 대화형 수정(conversational refinement)과 Figma나 HTML/CSS 코드와 같은 인기 디자인 도구로 원활한 제공을 지원한다.
중요하게도, 창의적인 미디어를 위해 Google은 Veo 3와 Imagen 4와 같은 강력한 생성형 AI 기술을 선보였다. 특히 Veo 3는 원본 오디오 동기화를 지원해 간단한 프롬프트만으로 다이내믹한 멀티모달 비디오 콘텐츠를 생성할 수 있다. 일반 용어로 설명하자면, 이제 오디오가 포함된 비디오를 놀랍도록 잘 생성할 수 있다. 현재 AI 비디오 생성은 현실과 구분하기 어려울 정도로 발전했다.
비디오 생성에 특별히 관심이 없지만, 이것은 시각적으로 가장 인상적인 출시다. 구글은 경쟁사들보다 한 발 앞서 있다. 하지만 내가 비디오 모델의 가장 강력한 기능은 생성하는 비디오 자체가 아나다.(이 부분은 나중에 설명한다.). 이들과 함께 구글은 Flow라는 생성형 영화 제작 앱을 선보였다. 이 앱은 사용자가 AI가 생성한 여러 조각들을 편집해 짧은 영화를 쉽게 만들 수 있도록 지원한다.: Flow는 할리우드부터 단순한 유튜브 영상까지 포함하는 비디오 편집 산업에 상당한 영향을 미칠 수 있다.
코딩
코딩 분야에서는 구글이 두 가지 주요 제품을 선보였다. 새로운 에이전트 기능과 새로운 모델 유형이다.첫 번째 구글 첫 번째 백그라운드 에이전트( background agents)인 ‘줄스(Jules)' 공식 출시다. 이는 현재 AI 분야에서 가장 뜨거운 트렌드인 '사용자 워크플로우와 비동기적으로 작동하는 자율적 코딩 에이전트’ 개념을 구글이 구현한 것이다.
즉, 사용자가 현재 수행하기 어렵거나 원하지 않는 작업(예: 의존성 업그레이드, 리팩토링, 테스트 작성 등)을 병렬로 처리해 주는 역할을 한다. GitHub 리포지토리가 있다면 오늘 바로 Jules를 시도해 볼 수 있다.
동시에 구글은 코딩 노트북 서비스(coding notebook service)인 Google Colab을 Gemini와 통합해 다단계 데이터 워크플로우를 자율적으로 관리할 수 있도록 발전시켰다. 이 시점에서, AI 기반 코딩 편집기를 제공하지 않는다면 자신을 AI 기업이라고 할 수 있을까?
엔터프라이즈 소프트웨어
기업용 사례는 Google 전략에서도 중심에 있다. 이에 따라 Google은 Gemini를 Gmail부터 Google Meet까지 모든 Google Workspace 제품 핵심에 더욱 깊이 통합하고 있다. 예를 들어, 익숙한 ‘Smart Reply’ 기능(이메일에 짧은 답변을 제안하는 기능)이 Gemini를 통해 개선됐다. 현재 Smart Reply 제안은 일반적이지만, 새로운 버전은 이메일 맥락(이메일에 연결된 Google Drive 파일까지 포함)을 분석해 보다 개인화되고 맥락에 맞는 답변을 작성한다.
여기서 강조해야 할 점은 AI 경험을 훨씬 더 능동적으로 만들려는 시도라는 점입니다. 즉, 모델이 자연스럽게 사용자에게 중요한 사항을 상기시켜주거나 이전 검색 기록을 기반으로 검색 결과를 개선하는 등 다양한 기능들을 제공할 것이다. 물론 이는 개인화 기능을 요구하며, 이는 다시 사용자가 모델에 모든 데이터를 신뢰해야 한다는 것을 의미한다.
많은 사람들이 이 점을 마음에 들어하지 않을 것이다. 하지만 구글은 이 기능이 선택 해제 가능하다고 밝혔으며, 모델이 보는 정보를 사용자가 결정할 수 있다고 주장하고 있다. 그럼에도AI의 유용성을 극대화하려면 이같은 타협은 감수해야 한다. 컨텍스트가 모든 것을 결정한다. 따라서 컨텍스트가 다양할수록 성능이 향상되지만, 이는 사용자 개인정보 보호를 희생하는 대가다.
프라이버시와 성능 중 무엇이 더 중요한가?
이 문제는 기업 데이터 보안과도 직결된다. 기업 데이터에 모델이 무제한 접근할 수 있도록 허용하는 것은 결코 좋은 선택이 아니다. 이 때문에 많은 기업들은 구글 분산형 클라우드(Google’s distributed cloud, GDC)를 선택할 것으로 예상된다. 이 서비스는 몇 주 전에 발표되었으며 Gemini 모델을 온프레미스 환경에서 구현할 수 있습니다.
가상 회의
기업용 사례를 논의하며, 구글은 두 가지 흥미로운 제품들을 선보였다. Google Meet AI 기반 실시간 번역 기능은 온라인 회의 중 영어-스페인어 실시간 번역을 제공한다. 스페인어 원어민으로서, 데모는 상당히 실망스러웠다. 말할 필요도 없이. ChatGPT와 마찬가지로, 오디오가 포함될 경우 영어와 스페인어 간 번역 품질이 크게 저하된다. 모델들은 여전히 영어에 지나치게 초점을 맞추고 있다. 구글은 또 Google Beam이라는 시스템을 선보였다. 이 시스템은 동료, 친구, 가족 비디오 스트림을 3D로 변환한다. 흥미로운 기술이지만 생활을 바꿀 정도는 아니다. 하지만 구글이 가장 주목 받은 기능은 두 가지 주요 분야에서 나왔습니다: 컴퓨터 에이전트와 라이브 어시스턴트다.
컴퓨터 에이전트
가장 먼저, 구글은 Project Mariner라는 컴퓨터 에이전트 시스템(사용자를 대신해 컴퓨터 인터페이스와 상호작용하는 모델)의 진전을 보여줬다. 이 시스템은 곧 Gemini API와 UiPath나 Automation Anywhere와 같은 RPA 플랫폼들에 적용될 예정이며, 이는 개발자들이 OpenAI Operator를 통해 API로 제공하는 방식과 유사하게 AI를 활용해 더 복잡한 작업을 자동화할 수 있음을 의미한다. 개인적으로, 컴퓨터 에이전트는 과장과 실용성 사이 격차가 가장 큰 분야라고 생각한다. 현재 단계에서는요즘은 거의 무용지물에 가까운 제품에 대한 화려한 데모가 주를 이룬다. 진지한 세계에서는 이들은 제품이 아닌 장난감에 가깝다.
컴퓨터 에이전트는 매우 강력한 잠재력이 있지만, 현재 AI 성능은 작업 단계가 늘어날수록 크게 저하된다. 따라서 단순히 스스로 할 수 있는 매우 간단한 작업에만 유용하다. 덴버로 가는 비행기를 검색하는 작업을 자동화한다면, 당신은 AI 파워 사용자가 아닌다. 단순히 게으른 것뿐이다.
라이프 어시스턴트
‘화려한’ 데모에 대해 말하자면, 구글은 Project Astra 진전을 보여주며 Gemini 앱을 일상 생활의 동반자로 바꿔주는 모습을 선보였다.gemini가 스마트폰 카메라에 접근할 수 있도록 허용하면, Gemini는 당신이 보는 것을 볼 수 있으며 일상적인 작업(예: 자전거 수리, 현재 작업에 따라 빠른 구매, '라이브 검색'을 통해 열린 세계에서 보는 것에 대한 즉각적인 답변을 얻는 것)을 도와준다.
컴퓨터 에이전트와 마찬가지로, 구글은 오늘날 평균적인 실제 경험과는 거리가 먼 매우 화려한 데모를 보여주었다. 따라서, 내 컴퓨터 에이전트에 대한 생각과 처음 언급한 대로, 이 프로젝트들을 AI가 우리 삶에 어떻게 통합될지에 대한 미래의 비전으로 받아들이길 바란다. 현재 AI 제품과 실제 상호작용을 정확히 반영한 것으로는 보지 말라. 적어도 완전히 배포될 때까지는 말이다. 하지만, 당연히 검색을 빼놓을 수 없다.
검색
주력 사업인 검색에 대해, 구글은 드디어 이를 직시하는 데 편안해졌으며, 시대가 변했음을 인정하고 변화를 받아들이고 있다. 그들은 AI 모드를 선보였다. 이는 Gemini 기반 대화형 경험을 구글 대표 제품에 직접 통합해, 단순한 검색 결과 대신 더 깊이 있는 종합적인 인사이트를 제공한다.
구글은 검색에 심층 검색 기능을 추가할 계획이다. 이는 몇 달 전 구글이 강조한 Deep Research 제품과 유사하며, 현재 지구상 모든 AI 개발사들이 도입한 기능이다. 이 기능은 AI 모델이 훨씬 더 오래 검색하고 더 나은 결과를 얻을 수 있도록 할 것이다. 이것은 분명히 인터넷 검색의 미래이며, 다시 한 번 구글과 경쟁하는 것은 매우 어려울 것이다.
그러나 매우 중요한 질문이 남아 있다. 구글은 이를 어떻게 수익화할까? 광고는 어떤 방식으로든 추가될 것이지만, 구글은 광고주들이 매출을 올릴 수 있도록 이 기능을 구현하는 데 매우 신중할 것이다. 그들은 연간 $200억 규모 자체 사업을 파괴하고 있기 때문에, 이 부분을 반드시 성공시켜야 한다. 중요하게도, 이들 제품은 가격 수준에서 세 가지 등급으로 통합될 것이며, 구글 AI 울트라가 $249 per month로 가장 포괄적인 버전이다.
솔직히 말해, 현재 어떤 AI 제품에도 그 가격을 지불할 생각은 없다. 나에게는 너무 현실적이지 않아보인다.
알다시피, 이 정보는 소화하기에 매우 많다. 하지만 이 혼란스러운 제품과 기능들의 다중 구조 속에서 공통된 패턴이 있다. 이 패턴을 이해하는 것은 구글의 미래를 이해하는 것이다.
구글의 대담한 계획
구글 전략의 핵심 키워드는 Gemini다. Gemini는 정확히 무엇이며, 구글의 미래에 대해 무엇을 알려주는가?
구글 비즈니스 기반
현재 AI에 투자되는 대부분의 관심과 자금은 단 한 곳으로 집중되고 있다. 파운데이션 모델(foundation models)이다.. 이 아이디어는 AI의 역사적 원칙을 깨는 데서 비롯됐다. 이 모델들이 등장하기 전에는 대부분 AI는 '심층적'(deep)이었으며, 즉, 각 사용 사례마다 그 독특한 용도에 맞게 훈련된 AI 모델이 필요했다. 하지만 지난 10년간 하드웨어 진보와 함께 확장 가능한 아키텍처를 발견하고(주로 GPU에서 실행되는 트랜스포머 모델), 이 모델들에 방대한 데이터를 노출시킴으로써, 우리는 다음과 같은 사실을 깨달았다. AI를 '모든 것'에 대해 훈련시키면, '모든 것'에 대해 어느 정도 유용해진다 ('모든 것'은 여기서 많은 의미를 지니지만, 잠시만 참아달라.).
요약하면, 이는 거의 모든 작업에 적은 노력으로 재사용할 수 있는 ‘일반화 모델'을 만드는 것을 의미한다.(이론적으로는 말이다.). 초기에는 방대한 양과 우리가 처음 '해결한’ 데이터 유형이었기 때문에, 이 모델들은 텍스트만으로 학습됐다.. 따라서 처음에는 '거대 언어 모델'로 등장했다. 하지만 요즘에는 텍스트부터 비디오나 오디오까지 거의 모든 데이터 유형으로 학습된다.
단일 모델, 모든 데이터.
실제로 이는 이 모델이 텍스트를 읽을 수 있고, 이미지를 보거나 동영상을 볼 수 있으며, 오디오를 들을 수 있고, 필요에 따라 모든 것을 결합할 수 있다는 의미다. 하지만 왜 이 이야기를 하는 걸까?
간단하다. Gemini 모델이 I/O에서 논의한 대부분 제품과 기능들에 포함되어 있기 때문이다. 모든 구글 제품은 이제 어떤 형태로든 Gemini 제품이다. 이것은 아마도 소프트웨어의 미래가 밝게 빛나는 첫 번째 순간일 것이다. AI 백엔드(표면 아래에서 모든 것을 운영하는 AI 모델)가 상상할 수 있는 모든 사용 사례에 재활용되는 것:
전체 영화 생성,
시각 장애인이 길을 건너는 것을 돕는 것,
다음 소프트웨어 제품을 개발하는 데 도움을 주는 것,
또는 당신이 오랫동안 원해온 바스크 치즈 케이크 레시피를 찾는 데 도움을 주는 것.
이것은 '모든 것을 하는 앱'이라고 정의할 수 있는 시스템으로, 일상 생활에서 직면하는 모든 문제를 해결해 주는 시스템이다. 하지만 제품 너머, 그리고 아마도 더 중요하게는, 이번 I/O 행사에서 AI 전문가들과 미디어 관계자들이 주목한 두 가지 발언이 구글이 여기서 시도하는 것을 이해하는 열쇠를 제공한다.
최종 목표: 세계 모델
구글 딥마인드 CEO이자 최근 노벨상 수상자인 데미스 하사비스는 무대에 단 몇 분간 등장했지만, 그의 말은 모든 연사들의 발언을 합친 것보다 더 큰 무게를 가졌다. 그는 구글 AI 모델인 Gemini를 통해 구글의 미션을 '세계 모델'로 정의했다. 이는 더 나은 정의가 없지만, “세계를 예측하는 것”
이 용어들은 거창하지만, 그게 정확히 무슨 의미일까? 그가 암시하는 것은 AI의 성배 중 하나인, 우리 세계를 인식하고 이해하며 다음에 일어날 일을 성공적으로 예측할 수 있는 모델이다. 이 개념은 인간의 뇌에서 영감을 받았으며, 인간의 뇌는 활성 추론(active inference)을 통해 신체로부터 주변 세계에 대한 감각 피드백을 지속적으로 받아들이고, 생존을 극대화하기 위해 다음에 무엇을 해야 할지 성공적으로 예측한다.
이 표현은 더 미묘하며 일부 신경과학자들은 이 말을 듣고 화를 낼 수도 있지만, '세계 모델'을 '상식 모델'(common sense model,)로 이해할 수 있다. 이 모델은 부분적으로 관측 가능한 세계에서 모델이 스스로 위험에 처하지 않도록 방지한다.
중요하게도, 그는 이를 어떻게 구현할지 언급했다. Gemini와 함께 Veo 모델을 동시에 발전시키는 것이다.
사실, 이 '세계 모델'의 모습을 상상하기 위해 상상력을 동원할 필요는 없다. 몇 달 전, 구글은 Genie 2를 공개했다. Genie 2는 입력 프레임을 받으면 사용자는 모델과 마치 비디오 게임처럼 적극적으로 상호작용할 수 있다. 이 모델은 이전 프레임과 사용자 입력 행동을 기반으로 다음 프레임을 생성한다. 물론 이는 이 비전의 매우 원시적인 버전이지만, 아이디어는 명확하다.: 모델이 과거 맥락과 갑작스러운 행동을 기반으로 다음 프레임을 예측하고 생성할 수 있다면, 현재 상태와 선택된 행동을 기반으로 세계가 어떻게 진화할지 예측할 수 있다.
인과 관계나 진정한 이해는 최첨단 모델에서 종종 명확히 결여되어 있으며, 이들은 실제로 이해하지 못하는 것을 이해하는 척한다. 세계 모델은 이를 해결하고, 그 과정에서 구글의 생존을 보장한다. 그래서, 핵심은 무엇일까?
구글에게 현재 제품은 단순히 단계에 불과하다. 세계 모델의 미래 버전은 로봇공학(로봇이 물리적 세계에 존재하기 위해)과 같은 분야에 결정적일 수 있으며, 많은 연구자들에게는 진정한 인공 지능이 언젠가 되어야 할 형태를 나타낸다.:
텍스트와 정지된 이미지 렌즈를 통해 세계를 이해하는 현재 모델들과 달리, 세계를 자연스러운 형태로 이해하는 것; 이는 인공지능이 디지털 공간의 한계 속에서 영원히 머무는 대신 물리적 세계에 성공적으로 진출하기 위한 필수적인 단계다.
중요하게도, 지구상의 다른 어떤 인공지능 연구실도 구글 딥마인드가 이 분야에서 이룬 진전에 근접하지 못하고 있다.
알고 있다. 구글 대변인처럼 들리기 시작했다. 따라서 다시 한 번, 오늘 본 대부분의 것은 여전히 개발 중인 제품으로, 신중하게 준비된 데모를 통해 보여진 것들이다. 현재로선 이 것이 인공지능 경쟁에서 승리의 카드인지 확신할 수 없다. 일부 사람들은 이 비전을 완전히 부정할 것이다. 그리고 솔직히 말해서, 우리는 곧 진전이 정체되어 원점으로 돌아갈 수도 있으며, 그 결과 구글의 전체 사업이 반으로 줄어들 수도 있다. 하지만 좋든 나쁘든, 구글의 비전이 적어도 현재 한계를 인식하고 있으며, 그들이 추구하는 목표를 명확히 보여주고 있다는 점은 긍정적이다.