Google I/O 2025 AI 발표 총정리

May 21. 2025

1. 서론: Gemini 시대의 개막과 AI 혁신

Google I/O 2025 개발자 컨퍼런스가 '연구에서 현실로(From research to reality)'라는 주제 아래 개최되었습니다. 올해 행사는 구글의 인공지능 연구 성과들이 어떻게 실제 제품과 서비스로 구현되고 있는지에 중점을 두었으며, Gemini 모델을 중심으로 한 AI 생태계의 확장이 가장 두드러진 특징이었습니다.

구글 CEO 순다르 피차이는 기조연설에서 "Gemini 시대"에 대해 언급하며, 더 이상 대형 이벤트에서만 최고의 모델을 선보이는 것이 아니라 수시로 최첨단 모델과 혁신을 발표하고 있다고 강조했습니다. 이는 인공지능 기술 발전의 가속화와 함께 연구실에서 개발된 AI 기술을 현실에 적용하겠다는 구글의 AI 사업화의 시작을 선언하는 것이었습니다.

지난 1년간 구글 제품 및 API 전반에서 AI 토큰 처리량이 50배 증가했으며, 700만 명 이상의 개발자가 Gemini를 활용해 개발 작업을 수행하고 있다는 사실이 발표되었습니다. 이는 Google의 AI 기술이 단순한 연구 수준을 넘어 광범위하게 실용화되고 있음을 보여주는 지표입니다.

2. Gemini 모델의 획기적 발전

Gemini 2.5 Pro: 최고 성능의 주력 모델

Google I/O 2025에서 가장 주목받은 발표 중 하나는 Gemini 2.5 Pro 모델의 성능 개선이었습니다. 현재 Gemini 2.5 Pro는 전 세대 대비 성능 지표가 300점 이상 향상되었으며, 주요 AI 벤치마크인 LMArena의 모든 분야에서 1위를 차지했습니다.

이 모델은 100만 토큰의 컨텍스트 창을 지원하여 방대한 양의 정보(긴 문서 및 비디오 포함)를 처리하고 이해할 수 있습니다. 코딩 분야에서도 WebDev Arena 벤치마크에서 최고 성능을 보여주며 종합적인 AI 모델로서의 역량을 입증했습니다.

Gemini 2.5 Flash: 효율성과 속도의 균형

Gemini 2.5 Flash는 속도와 효율성에 중점을 둔 모델로, 이전 고속 모델보다 22% 더 적은 토큰으로 고품질 출력을 제공합니다. 짧은 지연 시간이 중요한 작업에 적합하며, 최신 업데이트는 추론, 멀티모달리티, 코딩 및 긴 컨텍스트 처리 능력을 모두 향상시켰습니다.

Gemini 2.5 Flash는 현재 Gemini 앱, Google AI Studio 및 Vertex AI에서 미리보기로 제공되고 있으며, 2025년 6월 초에 정식 출시될 예정입니다. 이 모델은 LMArena 리더보드에서 2.5 Pro에 이어 2위를 차지했다고 합니다.

Deep Think: 고급 추론의 새로운 차원

Gemini 2.5 Pro 모델에는 "Deep Think"라고 불리는 고도 난이도 문제 해결 모드가 실험적으로 도입되었습니다. 이 모드는 Google의 최첨단 사고 및 추론 연구를 기반으로 하며, 병렬 사고 기법을 포함합니다.

Deep Think 모드를 활성화하면 모델이 여러 각도와 가설을 고려하여 특히 고급 수학 및 프로그래밍과 같은 영역에서 복잡한 문제 해결 능력이 크게 향상됩니다. 이 기능을 통해 Gemini 2.5 Pro는 2025 미국수학올림피아드(USAMO) 문제를 해결하고, 고난도 코딩 벤치마크인 LiveCodeBench에서 최고 점수를 달성했으며, 복합적 추론을 요구하는 MMMU 테스트에서도 84%의 높은 정확도를 기록했습니다.

Deep Think는 현재 Gemini API를 통해 신뢰할 수 있는 테스터들에게만 제공되고 있으며, 추가적인 안전성 평가 후 Google AI Ultra 구독자에게 제공될 예정입니다.

세계 모델(World Model)로의 진화

딥마인드 CEO 데미스 하사비스는 I/O 발표에서 Gemini의 장기 비전으로서 범용 인공지능 비서 구상을 소개했습니다. 그는 현재 최고의 멀티모달 모델인 Gemini 2.5 Pro를 한 단계 발전시켜 "세계 모델(world model)"로 확장하고 있다고 밝혔습니다.

세계 모델은 인간 두뇌처럼 세계의 맥락을 이해하고 미래 상황을 시뮬레이션하며 계획을 수립할 수 있는 AI를 지향합니다. 이미 Gemini가 세계 지식과 추론력을 활용해 자연환경을 모사하는 능력을 보이고 있고, Veo 비디오 모델이 직관적 물리 법칙 이해를 보여주며, Gemini Robotics가 로봇 동작 학습에 활용되는 등 이러한 조짐이 나타나고 있다고 하사비스는 설명했습니다.

하사비스는 "Gemini를 세계 모델로 만드는 것은 보다 일반적이고 유용한 범용 AI 비서를 개발하는 핵심 단계"라고 강조하며, 궁극적으로 Gemini 앱을 우리의 일상 업무를 대신 수행하고 개인 비서처럼 행동해주는 보편적 AI 어시스턴트로 탈바꿈시키는 것이 목표라고 설명했습니다.

3. 검색과 정보 접근의 혁신

AI 모드: 검색의 패러다임 전환

Google I/O 2025에서 가장 주목받은 발표 중 하나는 Google 검색의 AI 기능 확장이었습니다. 구글 검색팀의 엘리자베스 리드(Elizabeth Reid)는 "정보를 넘어 지능으로(Beyond information to intelligence)"라는 주제로, 검색에 생성형 AI를 심화 적용한 신규 모드들을 시연했습니다.

올해 초 일부 사용자들에게 Labs를 통해 테스트된 "AI 모드(AI Mode)"가 이제 미국 내 모든 사용자에게 정식 제공된다고 발표되었습니다. 검색창 상단이나 구글 앱에 "AI 모드" 전용 탭이 새로 생기며, 사용자는 이를 활성화해 엔드투엔드 AI 기반 검색 경험을 할 수 있습니다.

AI 모드에서는 질의에 대해 Gemini 2.5 모델을 활용하여 의도를 여러 갈래로 해석한 후 마치 비서와 대화하듯 풍부한 답변을 생성해줍니다. 기존의 한두 줄짜리 검색 결과 대신, 여러 출처의 정보를 종합하고 요약한 답변을 문단 형태로 보여주고, 관련 웹 링크도 답변 하단에 함께 제시합니다.

구글에 따르면 이 AI 모드의 도입 이후 사용자들이 검색 결과에 더 만족하고 검색 이용량도 늘어나는 추세라고 합니다. 실제로 미국과 인도 등 주요 시장에서 AI 개요(Overview)가 표시되는 복잡한 질의의 검색량이 10% 이상 증가했으며, 사용자가 한 번 AI 답변을 경험하면 향후 유사한 고급 검색 질의를 더 자주 하게 된다고 합니다.

쿼리 팬아웃(Query Fan-Out) 기술

AI 모드의 동작 방식에도 기술적으로 흥미로운 개선이 이루어졌습니다. 검색 질의를 받으면 AI가 이를 여러 하위 주제로 분해(query fan-out)하여 수백 건의 세부 검색을 동시다발적으로 실행한 뒤, 그 결과들을 한데 모아 심층적이고 종합적인 답변을 만들어내는 구조입니다.

이처럼 병렬로 웹을 샅샅이 뒤지는 방식 덕분에, 사용자 질문에 대해 전통적 검색보다 훨씬 깊이 있는 웹 탐색이 가능해졌습니다. 구글은 AI 모드가 "향후 검색 경험의 미리보기" 역할을 할 것이라고 말하며, 먼저 AI 모드에서 시험된 다양한 기능들을 충분한 피드백을 거쳐 향후 기본 검색 경험에 통합할 계획도 밝혔습니다.

딥 서치(Deep Search): 심층 연구 능력

"딥 서치(Deep Search)"는 사용자가 원할 경우 더 한층 철저한 조사 보고서 수준의 답변을 제공하는 모드입니다. Deep Search를 활성화하면 AI가 수백 건의 세부 검색과 연쇄 추론을 수행하여 마치 전문가가 며칠간 자료 조사해 작성한 보고서 같은 응답을 수 분 내에 생성해줍니다.

답변에는 풍부한 출처별 인용이 포함되고, 각 문장마다 어떤 자료에서 나온 내용인지 명시하여 신뢰성을 높입니다. 복잡한 주제에 대해 일일이 찾아볼 시간을 절약해주는 강력한 리서치 도구로서, 논문 작성이나 시장 조사 등에 활용될 수 있을 것으로 기대됩니다.

라이브 검색: 실시간 시각 인식

"라이브(Live) 검색" 기능은 AI 검색에 실시간 현실 인식 능력을 부여한 것으로, 발표 현장에서 큰 환영을 받았습니다. 사용자가 AI 모드 화면에서 카메라 아이콘을 탭하고 스마트폰 카메라를 통해 주위 사물을 비추면, AI가 렌즈(Lens) 기술과 결합해 보이는 대상을 이해하고 질문에 답하는 기능입니다.

예를 들어 I/O 데모에서는 사용자가 자전거 부품을 카메라로 비추며 "이 부품을 교체하려면 어떤 공구가 필요한가요?"라고 묻자, 검색 AI가 화면에 보이는 부품을 식별하고 작동 원리를 설명해준 뒤 필요한 공구 목록과 사용법을 그림과 함께 답변해주었습니다.

이 기능은 사실 작년 I/O 2024에서 컨셉으로 소개된 프로젝트 아스트라(Project Astra)의 구현으로, 카메라 입력을 이해하는 보조 AI가 실제 제품에 통합된 사례입니다. 구글은 현재 모든 Android용 구글 앱에 이 라이브 기능을 적용했고, iOS 버전도 곧 지원할 것이라고 밝혔습니다.

검색 내 에이전트 기능

또 하나 큰 박수를 받은 것은 검색 내 "에이전트 기능"입니다. 이는 I/O 전부터 프로젝트 마리너(Mariner)로 불리며 예고된 바 있는 기술로, 검색 AI가 단순 답변을 넘어서 사용자의 실세계 작업을 대신 수행해주는 개념입니다.

예시로 무대에서 야구 경기 티켓 예매 시나리오가 시연되었는데, 사용자가 AI 모드에 대고 "이번 주 토요일 레즈(Reds) 경기의 저렴한 하단 좌석 티켓 2장을 찾아줘"라고 묻자, AI가 여러 티켓 판매 사이트들을 동시에 뒤져 가격과 좌석 위치를 비교하고는, 사용자 조건에 맞는 최적의 티켓 옵션들을 한 화면에 정리해 보여주었습니다.

이어서 원하는 옵션을 선택하니 AI가 해당 예매 사이트의 양식을 대신 채우는 과정을 보여주었고, 마지막 결제 단계만 사용자가 직접 완료하도록 안내했습니다. 이 기능을 통해 사용자는 일일이 여러 사이트를 돌아다니며 정보를 모으고 폼을 입력하는 번거로운 과정 없이, 대화 한 번으로 복잡한 작업을 달성할 수 있게 됩니다.

구글은 이러한 에이전트형 검색이 사용자의 시간을 절약하면서도 최종 결정과 통제권은 사용자에게 남겨두는 방향으로 설계되었음을 강조했습니다. 현재는 티켓 구매나 상품 쇼핑 등의 도메인에서 이 기능을 실험 중이며, 추후 지원 범위를 넓혀나갈 계획입니다.

4. 일상 속의 AI: Android와 Pixel 디바이스

Android XR과 공간 컴퓨팅

Google I/O 2025에서는 Android 플랫폼과 Pixel 기기에 적용된 최첨단 AI 기능들도 다수 소개되었습니다. 특히 구글은 Android 생태계에 온-디바이스 AI를 깊이 융합하고 있었습니다.

구글은 Android를 확장한 "Android XR" 플랫폼에 대해 비전을 제시했는데, 이는 AR 글래스 및 VR 헤드셋용 운영체제로, Gemini AI 모델을 XR 기기에 접목하여 현실 세계를 인식하고 도와주는 차세대 공간 컴퓨팅 경험을 목표로 하고 있습니다.

삼성과의 협업으로 개발 중인 프로젝트 무한(Project Moohan) XR 헤드셋이 소개되었으며, 젠틀 몬스터, 와비 파커와 같은 브랜드와 협력하여 스마트 안경 형태의 AR 디바이스도 선보였습니다. 이 스마트 안경 데모에서는 실시간 언어 번역 기능이 인상적으로 시연되었습니다.

올해 후반 더 많은 XR 기기 소식이 있을 것이라 예고되었으며, Android XR은 AI 기술과 확장 현실 경험을 결합한 새로운 컴퓨팅 패러다임의 핵심이 될 것으로 보입니다.

Pixel 9a: AI 중심의 보급형 스마트폰

I/O 직전에 Pixel 9a가 공개되어 화제가 되었는데, 구글은 이를 "최고의 Google AI를 담은 보급형 폰"으로 소개했습니다. Pixel 9a에는 최신 Tensor G4 칩이 탑재되어 AI 연산이 가속되며, 듀얼 카메라와 결합한 AI 촬영 기능으로 픽셀 특유의 카메라 경험을 제공한다고 합니다.

특히 Add Me, Best Take, Magic Editor 등 Pixel 9 시리즈의 지능형 사진 편집 기능들이 9a에도 처음 도입되었습니다. Add Me는 단체 사진에서 찍는 사람 등 빠진 사람이 있으면 다른 사진을 합성해 사진 속 인원을 추가해주는 기능이고, Best Take는 연속 촬영된 사진들의 얼굴 표정을 분석해 가장 잘 나온 얼굴들로 합성해 한 장의 완벽한 단체 사진을 만들어줍니다.

Magic Editor는 사진 구도를 자동으로 다시 잡아주고 이미지 배경을 확장하거나 바꿀 수 있는 생성형 AI 사진 편집기로서, 예를 들어 사진 속 배경에 가을 단풍을 더한다든지 잔디를 푸르게 바꾸는 등의 변화를 사용자가 텍스트로 지시하면 AI가 이미지를 새로 렌더링해 줍니다.

Pixel 9a는 최대 7년간 OS 업그레이드와 보안 패치, 픽셀 피처 드롭을 지원하여 스마트폰 수명 주기를 크게 늘렸으며, Titan M2 보안 칩과 VPN 무상 제공 등으로 사용자 개인정보와 보안을 강화했습니다.

Gemini Live: 온디바이스 AI 비서

Pixel 9 시리즈부터 기기 내에서 작동하는 고급 언어 모델이 도입되어 눈길을 끌었습니다. Gemini Live라고 불리는 이 기능은 네트워크 접속 없이도 Pixel폰에서 실시간 대화형 AI를 실행할 수 있게 해주며, Pixel 사용자는 스마트폰을 통해 ChatGPT와 유사한 자유로운 대화를 나누거나 복잡한 요청을 수행시킬 수 있습니다.

Pixel 상의 Gemini Live는 카메라와 화면을 이해하는 멀티모달 입력도 지원하여, 사용자가 카메라를 통해 보이는 장면이나 이미지에 대해 묻거나 화면에 띄운 콘텐츠를 기반으로 질문할 수 있습니다.

예컨대 Pixel 9a에서는 곧 Gemini Live에 카메라 영상 및 화면 공유 기능이 도입될 예정인데, 사용자가 폰 카메라로 비추는 주변 장면을 Gemini에게 보여주며 "내 책상 위에 보이는 서류들을 요약해줘"와 같이 물어보거나, 폰 화면에 띄운 문서를 함께 보면서 "이 문서의 핵심 내용을 설명해줘"라고 대화할 수 있게 됩니다.

더 나아가 Pixel의 Gemini Live는 사용자의 음성 명령으로 앱을 제어하고 여러 작업을 자동화하는 에이전트 모드의 가능성도 보여주고 있습니다.

Circle to Search와 카메라 기반 AI 기능

Pixel 사용자는 "Circle to Search" 기능을 통해 화면 위 원하는 부분을 그려 선택하면 관련 정보를 맥락을 인식한 채 검색할 수 있게 되었습니다. 이 기능은 웹 브라우징이나 소셜 미디어 사용 중 보이는 제품, 장소, 텍스트 등에 대한 정보를 즉시 얻을 수 있어 사용자 편의성을 크게 높였습니다.

또한 Pixel Call Assist 기능을 이용해 스팸 전화를 자동 차단하거나 통화 대기를 AI가 대신해주는 통화 도우미도 발전했습니다. 이 기능은 이제 더 자연스러운 대화와 정확한 전화 목적 파악이 가능해졌습니다.

Pixel Studio라는 신규 앱도 제공되어, 사용자가 간단한 스케치나 텍스트로 아이디어를 제시하면 이를 기반으로 이미지를 생성하거나 편집하는 등 창의적인 작업을 AI가 도와주는 기능이 추가되었습니다.

5. 개발자를 위한 AI 도구의 혁신

Gemini API/SDK의 발전

개발자들이 Gemini 2.5 모델을 즉시 활용할 수 있도록 Google AI Studio를 개선하였고, Gemini API를 통해 최첨단 2.5 모델에 접근하는 가장 빠른 방법을 제공하고 있습니다. 특히 새로운 모델 컨텍스트 프로토콜(MCP) 지원을 발표하여, Gemini API/SDK에서 오픈소스 툴들을 간편하게 연동할 수 있게 했습니다.

이를 통해 외부 도구나 데이터 소스와 Gemini 모델 간 통신이 표준화되어, 플러그인이나 에이전트 개발이 수월해질 전망입니다. 또한 웹 URL을 입력하면 해당 페이지의 전체 맥락을 모델이 읽어들이는 URL 컨텍스트 기능도 실험적으로 지원하여, 웹상의 방대한 정보를 자동 수집해 활용하는 응용을 개발자가 시도할 수 있게 했습니다.

프로젝트 마리너: AI 에이전트 개발 도구

구글은 사람처럼 다중 단계 작업을 수행하는 자율 에이전트 기술에도 박차를 가하고 있습니다. I/O에서는 프로젝트 마리너(Mariner)라는 이름으로 이러한 컴퓨터 사용 능력을 AI에 부여하는 연구가 소개되었고, 이를 개발자들이 시도해볼 수 있도록 Gemini API에서 해당 기능을 Trusted Tester에게 우선 제공한다고 밝혔습니다.

예를 들어, Automation Anywhere나 UiPath 같은 파트너들이 이 기능을 활용해 사람이 PC를 조작하듯 AI가 UI를 자동으로 클릭하고 양식을 채우는 등의 작업 자동화를 구축 중이며, 올여름 더 폭넓게 공개될 예정입니다.

구글은 이처럼 도구 사용형 AI의 잠재력을 강조하며, 앞으로 Chrome 브라우저, Search, Gemini 앱에도 이러한 에이전트 기능을 통합해나갈 계획이라고 밝혔습니다. 실제 Gemini 앱에는 Agent Mode라는 새 기능이 곧 도입되어, 사용자가 목표만 제시하면 AI가 웹사이트에 들어가 정보를 찾고, 조건에 맞는 작업을 자동 수행해주는 데모가 소개되었습니다.

Jules와 AI 코딩 도구

구글은 개발자들이 코딩 업무에 AI를 적극 활용할 수 있도록 두 가지 도구를 소개했습니다. 첫째는 Jules(줄스)라는 비동기식 코딩 에이전트로, 개발자의 잡무를 백그라운드에서 처리해주는 도구입니다.

Jules를 사용하면, 개발자가 선호하지 않는 반복 작업이나 사소한 버그 수정 등을 AI 에이전트가 알아서 처리해주며, 여러 작업을 병렬로 진행하고 간단한 신규 기능의 뼈대를 작성해주는 등 개발 보조 인턴처럼 활용할 수 있습니다.

Jules는 GitHub와 직접 연동되어, 저장소를 클론한 뒤 버그를 수정하고 코드를 추가한 후 Pull Request를 자동 생성해 개발자에게 제안해주는 흐름으로 작동합니다. I/O 2025에서는 Jules가 베타 버전을 마치고 모든 개발자에게 공개 출시되었음을 알렸습니다.

둘째로는 Gemini Code Assist의 정식 출시입니다. 이는 기존에 미리보기로 제공되던 AI 코딩 보조(시스템 수준 코드 자동완성 및 코드 리뷰 도구)로, 이번에 개인 개발자용과 GitHub 통합용 버전이 Gemini 2.5 모델 기반으로 일반에 공개 되었습니다.

개발자는 이제 자신의 IDE나 에디터에서 Gemini Code Assist를 활성화해 자연어로 코딩 질문을 던지거나 코드 조각을 생성하고 버그를 찾아 수정하는 도움을 받을 수 있습니다.

Gemma 3n과 분야별 특화 모델

개발자들이 경량이면서도 강력한 AI 모델을 직접 활용할 수 있도록, 구글은 Gemma 3n이라는 오픈 멀티모달 모델을 새로 공개했습니다. Gemma 3n은 휴대폰, 랩탑, 태블릿 등 비교적 제한된 자원의 디바이스에서도 원활히 동작하도록 설계된 경량 고효율 모델이며, 텍스트, 오디오, 이미지, 비디오 입력을 모두 처리할 수 있는 것이 특징입니다.

이 모델은 차세대 Gemini 나노를 구동할 아키텍처를 기반으로 하며, 온디바이스 성능(2GB RAM)을 위해 최적화되어 있습니다. Google AI Studio 및 Google AI Edge 디바이스용 SDK를 통해 미리보기 형태로 사용해볼 수 있습니다.

아울러 구글은 용도 특화 버전으로, MedGemma와 SignGemma도 함께 발표했습니다. MedGemma는 의료 텍스트와 의료 영상을 동시에 이해하도록 특화된 의료용 멀티모달 모델로서, 개발자들이 이를 활용해 의료영상 분석이나 임상 기록 요약 같은 헬스케어 앱을 개발할 수 있다고 합니다. 이미 Health AI Developer Foundations 프로그램을 통해 MedGemma가 제공되고 있습니다.

한편 SignGemma는 수어(수화) 영상을 텍스트로 변환하는 오픈 모델로 발표되었는데, 이는 청각 장애인을 위한 앱이나 서비스 개발에 활용될 수 있을 것으로 기대됩니다. SignGemma는 현재 개발 중인 프리뷰 모델로서 곧 공개될 예정입니다.

UI/UX 디자인 도구 – Stitch

개발자의 디자인 작업을 돕는 AI 기반 UI 생성기 Stitch(스티치)도 소개되었습니다. Stitch는 텍스트 명령어나 간단한 스케치, 혹은 레퍼런스 이미지를 입력하면 고품질 UI 디자인 시안과 이에 대응하는 프런트엔드 코드를 자동 생성해주는 도구입니다.

예를 들어 "전자상거래 앱용 반응형 홈페이지를 디자인해줘"와 같이 자연어로 지시하면, AI가 화면 레이아웃과 스타일을 설계하고 HTML/CSS/JS 코드까지 작성해줍니다. 생성된 디자인은 대화형으로 조정할 수 있어서, 사용자가 "버튼을 조금 크게" 등 수정 요청을 하면 대화 기반으로 디자인을 반복 개선할 수도 있습니다.

Stitch는 웹앱 형태로 제공되며, 디자이너와 프론트엔드 개발자들의 프로토타이핑 속도를 크게 높여줄 것으로 기대됩니다.

6. 생성형 AI의 새로운 지평

Veo 3: 네이티브 오디오 지원 영상 생성

구글은 최신 텍스트-투-비디오 모델인 Veo 3를 선보이며 상당한 업그레이드를 단행했습니다. 이전 모델과 달리 Veo 3는 네이티브 오디오 생성을 지원하여, 환경음과 입 모양에 맞는 합성 대화를 생성하며 AI 영상의 "무성 영화 시대"의 종식을 알렸습니다.

Veo 3는 텍스트 및 이미지 프롬프트를 처리하여 더욱 정확한 물리 법칙, 향상된 현실감, 개선된 시간적 일관성을 갖춘 영상을 제작합니다. 현재 미국 내 Google AI Ultra 구독자에게 Gemini 앱과 기업 사용자를 위한 Vertex AI를 통해 제한적으로 제공되고 있습니다.

Veo 2에도 참조 기반 영상 생성, 카메라 제어(패닝, 줌), 아웃페인팅, 객체 추가/제거 등 새로운 기능이 추가되었으며, 일부는 아래에서 소개할 Flow 플랫폼에 통합되었습니다.

Imagen 4: 향상된 이미지 생성

최신 이미지 생성 모델인 Imagen 4는 주목할 만한 개선 사항을 제공합니다. 최대 2K 해상도의 이미지를 생성하며, 털, 물, 직물과 같은 자연스러운 질감의 디테일, 구도, 렌더링이 향상되었습니다.

특히 이전 모델의 약점으로 알려진 이미지 내 텍스트 처리가 크게 개선되어 정확한 철자법과 문맥에 맞는 테마 폰트를 지원합니다. Imagen 4는 제미나이 앱, 워크스페이스 도구(Docs, Slides, Vids), Whisk, Vertex AI를 통해 사용할 수 있으며, Imagen 3보다 최대 10배 빠른 "고속 변형" 모델이 곧 출시될 예정입니다.

Flow: AI 영화 제작 플랫폼

구글은 Veo, Imagen, 제미나이 모델을 사용하여 AI 생성 영상을 제작하기 위한 새로운 AI 영화 제작 도구 및 환경인 Flow를 선보였습니다. 사용자는 텍스트 프롬프트나 맞춤 이미지 입력을 사용하여 장면, 캐릭터, 객체를 생성하고 관리할 수 있으며, 자산 관리, 카메라 제어, 장면 연속성을 위한 장면 빌더 기능이 포함됩니다.

Flow는 미국 내 Google AI Pro 및 Ultra 구독자에게 제공됩니다. Pro 사용자는 월 100회, Ultra 사용자는 더 높은 사용량 제한과 Veo 3 조기 액세스 권한을 갖습니다.

구글은 대런 애러노프스키 감독의 Primordial Soup 및 구글 딥마인드와 협력하여 AI를 스토리텔링에 활용하는 방안을 모색하는 등 전문 영화 제작자들과 Flow를 테스트하고 있습니다. 이 협력의 첫 번째 영화 "Ancestra"는 트라이베카 영화제에서 첫선을 보일 예정입니다.

Lyria 2 및 RealTime: 음악 생성

구글의 음악 생성 모델인 Lyria 2는 이제 유튜브 쇼츠와 기업 사용자를 위한 Vertex AI에서 사용할 수 있습니다. Lyria RealTime은 대화형 음악 생성 및 수정을 가능하게 하며 AI Studio를 통해 액세스할 수 있습니다.

특히 Lyria RealTime은 사용자가 리듬이나 화음 등을 조작하면 실시간으로 음악을 만들어주는 대화형 AI 작곡가로 주목받았습니다. 이 도구들은 구글의 Music AI Sandbox의 일부로, 크리에이터들이 AI를 활용해 새로운 음악 경험을 만들어낼 수 있도록 지원합니다.

Sparkify: 애니메이션 영상 제작

새로운 Labs 실험인 Sparkify는 제미나이 및 Veo 모델을 사용하여 질문이나 아이디어를 짧은 애니메이션 영상으로 변환하는 데 도움을 주는 도구입니다. 사용자가 간단한 아이디어나 개념을 텍스트로 입력하면, 이를 시각화한 짧은 애니메이션 클립을 자동으로 생성해줍니다.

Sparkify는 현재 실험적 기능으로 제공되고 있으며, 향후 구글의 다양한 제품에 통합될 예정입니다. 이는 생각을 빠르게 시각화하고 공유하는 새로운 커뮤니케이션 방식을 제시합니다.

7. 업무 생산성의 혁명: Google Workspace와 AI

Workspace with Gemini의 전략

업무 생산성을 높이기 위한 Google Workspace의 AI 기능도 I/O 2025에서 중요한 발표 중 하나였습니다. 구글은 이미 작년부터 지메일, 문서, 스프레드시트 등 워크스페이스 앱에 Duet AI로 불린 생성형 AI 기능(예: "도움말로 글쓰기")을 도입해왔는데, 올해는 이를 한 단계 발전시킨 "Workspace with Gemini" 전략을 공개했습니다.

이는 워크스페이스 전반에 구글의 최신 Gemini 모델을 통합하여 더 똑똑하고 강력한 업무 비서 경험을 제공하는 것입니다. 구글에 따르면 Workspace with Gemini를 통해 Gmail, Docs, Slides, Meet 등 익숙한 업무 앱 곳곳에서 Gemini Pro의 가장 뛰어난 AI 기능을 활용할 수 있으며, NotebookLM Pro와 같은 전문 지식 요약 도구도 통합되어 있습니다.

Gmail: 이메일 요약과 스마트 답장

Gmail + Gemini 조합으로는 긴 이메일 스레드를 한줄 요약해주거나 자동으로 회신 초안을 작성해주는 기능이 시연되었습니다. 팀원 여러 명과 주고받은 장문의 이메일 대화를 Gemini가 읽고 주요 쟁점만 요약해서 보여준 뒤, "이러이러한 내용으로 답장하라"는 사용자의 지시에 따라 몇 초 만에 공손한 답장 초안을 완성해주는 식입니다.

또한 Gmail은 개인화된 스마트 답장(사용자 어조 및 스타일 학습), 받은 편지함 정리, 통합된 캘린더 약속 일정 관리 등의 기능이 강화되었습니다. 이메일 처리 시간을 크게 줄여주는 이러한 기능들은 특히 많은 이메일을 다루는 직장인에게 큰 도움이 될 것으로 기대됩니다.

Google Meet: 실시간 번역과 회의 요약

Google Meet + Gemini에서는 화자의 음성, 어조, 표현을 일치시키는 실시간 음성 번역 기능이 AI Pro/Ultra 구독자를 대상으로 베타 버전으로 출시되었습니다. 초기에는 영어와 스페인어 간 번역이 지원되며, 향후 몇 주 내에 더 많은 언어가 추가될 예정입니다.

또한 회의 중에 AI가 자동 필기록 및 요약을 해주는 기능이 시연되었습니다. 화상회의에서 대화가 오가는 동안 Gemini가 실시간으로 회의 노트를 작성하고, 회의가 끝나면 주요 논의 내용과 액션 아이템을 추려서 요약본을 제공했습니다.

이를 통해 회의 참석자들은 노트 필기에 신경 쓰지 않고 토론에 집중할 수 있으며, 불참자도 나중에 요약을 빠르게 파악할 수 있습니다. 이러한 Meet 요약 기능은 이미 일부 Workspace 이용자들에게 시범 제공되었고, 호응이 높아 전사적으로 확대될 예정입니다.

Docs, Slides, Vids: 콘텐츠 생성과 편집

Google Docs + Gemini에서는 사용자가 빈 문서만 열어두고 "5학년 수준으로 태양계에 대해 설명하는 수업 계획안을 작성해줘"라고 요청하자, Gemini가 몇 초 내에 개요와 내용을 갖춘 문서를 작성해주는 장면이 데모되었습니다. 이때 작성된 초안을 사용자가 직접 편집하며 마무리할 수 있고, 추가로 내용을 자세히 또는 더 간략히 등의 후속 지시도 가능했습니다.

Google Slides + Gemini 통합은 슬라이드 쇼에 필요한 이미지와 디자인을 생성해주는 것이 핵심이었습니다. 사용자가 슬라이드의 테마나 키워드를 입력하면 Gemini가 해당 주제에 맞는 독창적인 이미지를 생성하여 삽입하고, 슬라이드 레이아웃이나 색상 팔레트도 자동으로 맞춤 구성해줍니다.

Google Vids는 슬라이드 덱을 비디오로 변환할 수 있으며, 스크립트에서 AI 아바타를 생성할 수 있는 기능이 추가되었습니다. 이를 통해 프레젠테이션을 보다 동적이고 매력적인 비디오 포맷으로 쉽게 변환할 수 있습니다.

AI 비서의 업무 통합

Workspace용 Gemini의 또 다른 강점은 기업 데이터와 통합된 맞춤 AI라는 점입니다. 기업 내 문서나 스프레드시트, 프레젠테이션 자료 등을 AI가 안전하게 접근하여, 그 맥락에 맞는 답을 제공할 수 있습니다.

예를 들어 회사 내부 위키나 보고서에 있는 내용을 토대로 "우리 제품의 지난해 판매 증가율이 뭐였지?"라고 물으면, AI가 관련 스프레드시트를 찾아 계산한 뒤 답변해줄 수 있습니다. 이는 작년 선보인 실험적 기능 NotebookLM(이전 코드명: Project Tailwind)의 확장판으로, 이제 NotebookLM Pro가 Gemini 모델과 결합되어 사용자 개별 지식베이스에 특화된 Q&A를 지원하게 됩니다.

Workspace with Gemini는 기본 요금과 별도로 애드온 형태로 제공됩니다. 예컨대 기업용(Gemini Enterprise)이나 교육용(Gemini Education) 플랜이 별도로 책정되어 있으며, 사용자당 월 몇십 달러 수준의 추가 요금을 지불하면 Gemini Pro 기반의 모든 생산성 AI 기능을 사용할 수 있습니다.

8. AI 윤리와 책임: 신뢰성 있는 AI 구축

SynthID Detector: AI 생성 콘텐츠 식별

구글은 사용자가 이미지, 비디오, 오디오, 텍스트를 업로드하여 구글 AI 도구의 디지털 워터마크 포함 여부를 확인할 수 있는 공개 웹 포털인 SynthID Detector를 선보였습니다. 이 도구는 워터마크가 있을 가능성이 높은 콘텐츠의 특정 부분을 강조 표시할 수 있습니다.

원래 작년에 처음 공개된 SynthID는 구글의 이미지 생성 모델(예: Imagen)로 만든 그림에 사람 눈에 보이지 않는 디지털 워터마크를 삽입하고 이를 검출하는 기술이었습니다. 그런데 1년 사이 SynthID를 텍스트, 오디오, 영상 콘텐츠에도 적용하여, 현재는 구글의 Gemini, Imagen, Lyria, Veo 모델로 생성된 모든 콘텐츠에 이 워터마크를 넣고 식별할 수 있게 확장했습니다.

I/O 발표에 따르면 지금까지 100억 개가 넘는 AI 생성 콘텐츠에 SynthID 워터마크가 이미 삽입되었을 정도로 광범위하게 활용되고 있다고 합니다. 흥미로운 점은, 이 워터마크가 단순히 원본에만 찍히는 것이 아니라 이미지가 리사이즈되거나 색감이 바뀌어도 검출될 만큼 견고하다는 것입니다.

구글은 다른 회사들도 SynthID 워터마크를 채택하기를 희망하며, 텍스트용 오픈 소스 버전이 제공되고 NVIDIA와 파트너십을 맺어 Cosmos 모델의 미디어에도 이 기술이 적용됩니다.

Gemini 2.5의 보안 강화

AI 모델의 안전성 강화 측면에서도 중요한 발표가 있었습니다. 구글 딥마인드는 "Gemini 2.5의 보안 방어 향상(Advancing Gemini's Security Safeguards)"이라는 제목의 백서를 공개하며, 자사 AI 모델을 가장 안전한 수준으로 끌어올리기 위한 노력을 소개했습니다.

이 백서에는 Gemini 2.5 모델 군을 현재까지 가장 안전한 모델로 만들기 위해 적용한 다양한 기술적 조치들이 담겼습니다. 예를 들어, 적대적 프롬프트 공격에 대한 대응이 그 중 하나입니다. 적대적 프롬프트 공격(prompt injection)이란 악의적인 지시나 숨겨진 명령으로 AI의 출력을 교란시키는 기법인데, 특히 AI가 외부 도구나 플러그인을 사용할 때 위험요소가 됩니다.

구글은 Gemini가 브라우저를 통해 웹 정보를 읽거나 코드를 실행할 때 사용자가 의도하지 않은 행동을 하지 않도록 여러 계층의 보호막을 적용했다고 밝혔습니다. 그 결과 간접 프롬프트 주입 공격에 대한 차단율을 크게 높였으며, 도구 사용 상황에서 Gemini 2.5의 보호 성능이 비약적으로 향상되었다고 합니다.

업데이트된 AI 원칙 및 안전 프레임워크

구글은 "과감한 혁신, 책임감 있는 개발, 협력적 파트너십"을 중심으로 AI 원칙을 업데이트했습니다. 업데이트된 원칙은 "사용자 목표, 사회적 책임, 널리 인정되는 국제법 및 인권 원칙"과 일치하는 책임감 있는 배포를 언급합니다.

또한 프론티어 안전 프레임워크는 새로운 보안 권장 사항, 오용 완화 절차, "기만적 정렬 위험"(AI가 의도적으로 인간 통제를 약화시키는 것) 해결을 위해 업데이트되었습니다. 엄격한 레드팀(보안 및 콘텐츠 중심), 안전 조정, 필터, 보안/개인 정보 보호 제어, AI 활용 능력 교육을 강조하고, 모델 카드 및 기술 보고서를 통한 투명성도 약속했습니다.

9. AI 수익화 전략과 서비스 구독 모델

Google AI Pro와 Ultra 구독 서비스

구글은 가장 진보된 AI 기능을 수익화하려는 명확한 전략을 시사하며, 새롭고 더 비싼 AI 구독 등급을 도입하고 기존 등급을 리브랜딩했습니다.

새롭게 도입된 "Google AI Ultra" 요금제는 월 $249.99로 책정되었으며(미국에서는 첫 3개월 동안 50% 할인), 구글의 가장 유능한 AI 모델 및 프리미엄 기능에 대한 "최고 수준의 액세스"를 제공합니다. 여기에는 제미나이 2.5 Pro, "딥 씽크" 모드 조기 액세스, 네이티브 오디오 생성을 지원하는 Veo 3, 제미나이 앱의 딥 리서치 최고 사용량 한도, AI 영화 제작 도구 Flow, 프로젝트 마리너 액세스, 구글 드라이브, Gmail, 포토 전반의 30TB 스토리지가 포함됩니다. 광고 없는 유튜브도 제공됩니다.

개발자와 기업을 위한 AI 서비스 모델

개발자와 기업을 위한 AI 서비스 모델도 다양화되었습니다. 제미나이 코드 어시스트 표준, 연간 생성형 AI 개발자 크레딧, Google One AI Premium 3개월 등 구글 개발자 프로그램을 위한 AI 혜택이 확대되었습니다. 또한 새로운 Google Cloud 및 NVIDIA 커뮤니티도 발표되어 개발자 생태계를 더욱 풍성하게 했습니다.

Workspace with Gemini는 기업용 Gemini Enterprise와 교육용 Gemini Education 플랜으로 나뉘어, 각 조직의 필요에 맞는 AI 기능을 제공합니다. 이러한 다양한 구독 모델은 구글이 AI 서비스의 차별화된 가치를 인식하고 이를 수익화하는 전략을 명확히 보여줍니다.

10. 결론 및 전망: AI 미래의 청사진

구글 AI 전략의 종합적 평가

Google I/O 2025는 AI의 최신 기술 진전과 더불어 그것을 안전하고 책임감 있게 배포하려는 구글의 노력이 두드러진 행사였습니다. Gemini 모델의 향상과 제품 전반으로의 통합, Android/Pixel에서의 AI 활용, 개발자를 위한 개방형 도구, 검색과 업무 생산성의 혁신, 그리고 AI 윤리 및 정책에 이르는 광범위한 주제가 다루어졌습니다.

구글의 AI 전략은 크게 세 가지 축으로 요약할 수 있습니다.

1) 유비쿼터스 통합: AI를 모든 제품과 서비스의 구조에 깊이 통합하여, AI를 주변 환경에 필수적인 계층으로 만드는 것입니다. 이는 익숙한 도구를 향상시키고 새로운 AI 우선 경험을 창출하여 사용자를 구글 생태계 내에 유지하기 위한 전략입니다.

2) 정보에서 지능, 그리고 에이전트로: 구글은 특히 검색과 같은 핵심 제품을 정보 검색에서 지능형 종합, 그리고 이제는 에이전트 작업 완료로 발전시키고 있습니다. 이는 AI가 단순히 정보를 제공하는 것을 넘어 실제 작업을 수행하는 방향으로 진화하고 있음을 의미합니다.

3) 개발자 생태계 강화: 구글 인프라에서 차세대 AI 애플리케이션을 구축할 수 있도록 풍부한 AI 도구, 모델(오픈 소스 포함), 플랫폼(Firebase, Colab, Android Studio)으로 개발자에게 권한을 부여하는 데 중점을 두고 있습니다.

경쟁사와의 차별점과 시장 포지셔닝

구글의 AI 전략은 몇 가지 핵심적인 차별화 요소를 가지고 있습니다.

1) 검색 통합: 구글 검색에 AI 모드를 통합함으로써, 구글은 자사의 가장 강력한 제품을 새로운 AI 시대에 맞게 변화시키고 있습니다. 이는 ChatGPT와 같은 독립형 AI 서비스와는 달리, 이미 수십억 명의 사용자가 일상적으로 이용하는 서비스에 AI를 접목시키는 전략입니다.

2) 하드웨어-소프트웨어 통합: Pixel 기기와 Android 플랫폼에 AI를 깊이 통합함으로써, 구글은 온디바이스 AI의 이점(개인정보 보호, 저지연성)과 클라우드 AI의 강력한 성능을 모두 활용할 수 있는 생태계를 구축하고 있습니다.

3) 개방형 AI와 독점 AI의 균형: 구글은 Gemma 3n과 같은 오픈 모델과 Gemini 2.5 Pro와 같은 독점 모델을 모두 제공함으로써, 다양한 사용 사례와 접근성 요구를 충족시키고 있습니다. 이는 OpenAI의 주로 독점적인 접근 방식과는 대조됩니다.

4) 멀티모달 생성 도구의 완전한 스택: Veo 3, Imagen 4, Lyria, Flow 등 구글은 텍스트, 이미지, 비디오, 오디오 생성을 위한 완전한 도구 스택을 제공합니다. 이러한 통합된 접근 방식은 창작자들에게 강력한 생태계를 제공합니다.

5) 에이전트 중심 비전: 프로젝트 마리너와 아스트라를 통해, 구글은 단순한 응답형 AI를 넘어 사용자 대신 작업을 수행하는 에이전트 AI의 비전을 제시하고 있습니다.

향후 AI 발전 방향과 사회적 영향

Google I/O 2025를 통해 엿볼 수 있는 AI의 미래 발전 방향은 다음과 같습니다.

1) AI 에이전트의 시대: 단순 대화 모델에서 복잡한 작업을 자율적으로 수행할 수 있는 AI 에이전트로의 진화가 가속화될 것입니다. 사용자 대신 웹 탐색, 티켓 예약, 이메일 요약 등의 작업을 수행하는 에이전트 AI가 일상화될 것입니다.

2) 멀티모달 융합의 심화: 텍스트, 이미지, 오디오, 비디오 간의 경계가 더욱 모호해지고, 이들을 자연스럽게 통합하는 AI 경험이 보편화될 것입니다. Veo 3의 네이티브 오디오 생성은 이러한 경향의 한 예입니다.

3) AI의 주변화(Ambient AI): AI가 명시적인 상호작용을 넘어 주변 환경에 자연스럽게 통합되어, 사용자의 의도를 예측하고 상황을 이해하며 지원하는 방향으로 발전할 것입니다. Android XR과 스마트 안경은 이러한 미래의 일면을 보여줍니다.

4) 월드 모델의 발전: 데미스 하사비스가 언급한 "월드 모델" 개념을 발전시켜, AI가 세계를 더 깊이 이해하고 시뮬레이션할 수 있게 될 것입니다. 이는 로봇공학, 과학적 발견, 교육 등 다양한 분야에 혁신을 가져올 수 있습니다.

5) AI 생성 콘텐츠의 보편화와 신뢰성 문제: SynthID와 같은 기술은 AI 생성 콘텐츠가 일상화됨에 따라 발생하는 진위 확인과 투명성 문제를 해결하기 위한 노력의 일환입니다. 향후 AI 생성 콘텐츠의 윤리적, 법적, 사회적 영향에 대한 논의가 더욱 활발해질 것입니다.

구글이 제시하는 AI의 미래 청사진은 기술적 혁신과 함께 책임감 있는 개발을 강조하고 있으며, AI가 인간의 능력을 확장하고 삶의 질을 향상시키는 도구로 발전하는 비전을 보여주고 있습니다. 이러한 비전이 현실화되기 위해서는 기술적 진보와 함께 윤리적, 사회적 고려사항이 균형을 이루어야 할 것입니다.

순다르 피차이는 마지막으로 "우리는 연구에서 현실로(From research to reality)"라는 표현으로 이번 발표들을 요약했는데, 이는 수년간의 AI 연구 성과가 이제는 실제 제품과 서비스로 구현되어 사용자에게 직접적인 편익을 주는 단계에 이르렀음을 의미합니다. Google I/O 2025는 AI 혁명이 이제 기술이 아닌 생활이 되는 시점이 도래했음을 알리는 신호탄이었습니다.

https://www.youtube.com/live/o8NiE3XMPrM?si=zbJHXrrlbyz1wcfI&t=3888

keyword

작가의 이전글AI 시대의 착각과 현실어디서 플레이할 것인가작가의 다음글