멀티모달과 Agent 중심으로 1.5모델을 뛰어넘다
구글이 최신 AI 모델인 Gemini 2.0을 발표했습니다. 이번 버전은 Gemini 2.0 Flash Experimental로 공개되어 현재 웹 채팅 앱에서 사용이 가능하며(지금 바로 Gemini에 웹브라우저로 접속해보세요), 구글의 AI Studio 및 Vertex AI의 Gemini API를 통해 Preview로 제공됩니다. 이번 모델은 멀티모달 기능과 AI 에이전트로의 확장에 초점을 맞추고 있으며, 이전 버전과 비교해서 성능과 응답속도가 획기적으로 개선되었는데요. 단순히 텍스트 생성을 넘어, 주변환경을 인지하고 상호작용하며, 복잡한 작업을 수행하는 지능형 에이전트로서의 가능성을 열었다는 것이 핵심이라고 이야기하네요.
향상된 멀티모달 기능 : 네이티브 이미지 및 오디오 생성 기능을 통해 더욱 풍부한 사용자 경험을 제공합니다. 텍스트, 이미지, 동영상, 오디오 등 다양한 입력 데이터를 처리할 수 있으며, 이를 통해 복잡한 명령 수행, 긴 컨텍스트를 이해하고, 다국어 음성 생성 등의 작업을 지원하면서 네이티브 도구 사용도 가능해졌습니다.
에이전트 중심 설계 : 멀티모달 기능의 AI 모델을 가장 먼저 선보인 Gemini의 목표처럼, Gemini 2.0은 실제 환경과 상호작용해서 사용자의 목표를 달성하는 스스로 판단가능한 '지능형 에이전트'로서의 역할을 구현할 수 있습니다. 아래와 같은 기능들을 통해서 에이전트를 구현한다고 하는데요.
① 계획 및 실행 능력 : 주어진 목표를 달성하기 위한 일련의 단계를 계획하고 실행하는 고급 추론 및 멀티 스텝의 문제 해결능력을 가집니다. 예를 들어, "내일 아침 7시에 깨워줘"라는 요청에 단순히 알람을 설정하는 것이 아니라, 사용자의 일정을 확인하고 교통상황을 고려하여 최적의 기상시간을 제안할 수도 있습니다.
② 환경 인식 및 상호작용 : 다양한 멀티모달 입력과 정보를 종합적으로 이해하고 주변환경과 상호작용이 가능한데, 이는 로봇 공학, 자율주행, 스마트 홈 등 다양한 분야에 적용될 기반 기술입니다.
③ 지속적인 학습 및 개선 : 사용자와의 상호작용을 지속적으로 학습하여 성능을 개선해 나갈 수 있습니다. 사용자의 개별적인 니즈에 맞춰 더욱 개인화된 서비스 제공이 가능합니다.
구글에 따르면 Gemini Flash 2.0은 이전 모델인 Gemini 1.5 Pro 보다 두 배 빠른 실행속도를 가지고 있습니다. 또한 벤치마크에서 Anthropic의 Sonnet과 거의 동일한 성능이지만 훨씬 저렴한 가격에 공급이 가능할 것으로 예측됩니다. 거기에 .2.0 Flash는 이제 텍스트 및 조정 가능한 텍스트 음성 변환(TTS) 다국어 오디오와 혼합된 기본 생성 이미지와 같은 멀티모달 출력을 지원합니다. 또한 Google Search, 코드 실행 및 타사 사용자 정의 함수와 같은 도구를 기본적으로 호출할 수 있습니다.
특히, 개발자를 위해 구글에서는 Gemini 2.0을 Android Studio, Chrome DevTools를 포함한 다양한 플랫폼에 통합할 계획을 가지고 있습니다. Gemini Code Assist를 통한 향상된 코딩 지원도 Visual Studio Code와 IntelliJ, PyCharm과 같은 인기있는 IDE에서 사용할 수 있도록 제공한다고 합니다. (대환영!)
① 프로젝트 아스트라 (Astra) : 현실 세계에서 멀티 모달 이해를 사용하는 에이전트
Gemini 발표 초기에 가장 먼저 발표된 프로젝트로 구글 렌즈와 같은 기능으로 다양한 제품에 통합될 것으로 예상되는 AI 에이전트입니다. Gemini 앱과 구글 제품과 글래스같은 다른 폼팩터에 통합할 수 있도록 노력하고 있다고 하며, 여러 개발그룹에게 프로젝트 아스트라를 테스트 할 수 있도록 제공하기 시작할 예정이라고 합니다.
더 나은 대화: Project Astra는 이제 여러 언어와 혼합 언어로 대화할 수 있으며 억양과 흔하지 않은 단어를 더 잘 이해할 수 있습니다.
새로운 도구 사용: Gemini 2.0을 통해 Project Astra는 Google 검색, 렌즈 및 지도를 사용할 수 있으므로 일상 생활에서 도우미로 더 유용하게 사용할 수 있습니다.
더 나은 메모리: Project Astra의 제어력을 유지하면서 사물을 기억하는 능력을 개선했습니다. 이제 최대 10분의 세션 내 메모리가 있으며 과거에 나눈 더 많은 대화를 기억할 수 있으므로 사용자에게 더 잘 개인화됩니다.
향상된 대기 시간: 새로운 스트리밍 기능과 기본 오디오 이해를 통해 에이전트는 인간 대화의 대기 시간 정도에서 언어를 이해할 수 있습니다.
② 프로젝트 마리너(Mariner) : 복잡한 작업 수행에 도움이 되는 에이전트
프로젝트 마리너는 Gemini 2.0으로 구축된 초기 연구 프로토타입으로, 브라우저를 통해 인간과 에이전트의 상호작용을 탐구합니다. 이미지 및 텍스트를 포함한 웹 요소 등의 화면 정보를 이해하고 추론한 다음 실험용 크롬 익스텐션을 통해 해당 정보를 사용해 작업에 사용하는 에이전트 입니다.
사용자의 웹 브라우징 환경에서 여러 작업을 도와주는 어시스턴트 기능을 제공하지만, 브라우저의 활성화된 탭에서 입력, 스크롤 또는 클릭만 할 수 있도록 기능을 제안하고, 구매와 같이 민감한 작업을 할 때에는 반드시 사용자의 최종 확인을 받도록 하고 있습니다.
③ 프로젝트 쥴스 (Jules) : 개발자를 위한 에이전트
GitHub 워크플로에 직접 통합되는 실험적인 AI 기반 코드 에이전트인 Jules가 있습니다. Jules를 이용하면 AI 에이전트가 개발자들의 문제를 해결하고, 계획을 수립하고, 실행할 수 있으며, 이 모든 것은 개발자의 지시와 감독하에 이뤄집니다.
Jules는 아직 초기 단계지만 다음과 같은 기능을 제공하고 있습니다.
생산성 향상 : 비동기 개발의 효율성을 위해 발생하는 문제 분석과 코딩 작업을 Jules에 할당합니다.
진행 상황 추적 : 실시간 업데이트를 통해 최신 정보를 확인하고, 주의가 필요한 작업의 우선순위를 지정할 수 있습니다.
완전한 개발자 통제 : Jules가 세운 계획을 검토하고, 적절하다고 생각되는 경우 피드백을 제공하거나 조정이 가능합니다. Jules가 작성한 코드를 쉽게 검토하고, 프로젝트에 병합할 수도 있습니다.
현재 Jules는 엄선된 개발 그룹을 통해 테스트를 진행중이며, 2025년초에는 여러 개발자들이 신청할 수 있도록 labs.google.com/jules를 통해 업데이트 신청을 받고 있습니다.
이외에도 화면 콘텐츠를 분석하여 플레이어에게 실시간 게임 전략을 제공하는 Gemini 2.0 에이전트라거나, 이를 응용한 로봇 공학 분야에서도 향상된 공간 추론 기능을 테스트하는 것도 계획하고 있다고 하니 Gemini 2.0의 발전 방향이 역시 구글스럽긴 하다라는 생각이 들었습니다.
Gemini 2.0의 발표 덕분인지 오늘 하루만에 구글 알파벳 주가는 5.46%가 상승한 196.71달러를 기록했습니다. 2025년 상반기까지 GPT-4 Pro와 Gemini 2.0의 경쟁은 사용자 측면에서 재미있는 한 판이 될 것 같습니다.
> 출처 : Google introduces Gemini 2.0: A new AI model for the agentic era
The next chapter of the Gemini era for developers - Google Developers Blog