2025 AI 모델 업데이트 현황

Google, OpenAI, Meta

by Kimdoyeon


최근 몇 달 동안 Google, OpenAI, Meta가 연이어 중요한 AI 업데이트를 발표하면서 흐름을 따라가는 것 자체가 하나의 일이 되었다는 느낌을 받았다.


특히 실무에서 바로 도움이 될 기술이 무엇인지 구분하기 점점 어려워져 이번 글에서는 주요 모델과 유사한 기능을 가진 모델들을 중심으로 간단히(?) 정리했다.




1. Google 멀티모달 업데이트


1-1. Google Gemini 3, 멀티모달 통합

Gemini 3는 텍스트·이미지·코딩·영상 등 다양한 형태를 모두 처리하는 멀티모달 모델이다.


- 추론, 코딩 에이전트 기능이 기존 버전보다 크게 향상

- 다양한 환경 및 언어에서 높은 코딩 성능을 보이며 AI 탑백 대회 1위


프로덕트 디자이너 관점

Gemini 3는 “이해–생성–검증”을 모두 한 흐름에서 수행할 수 있어 컨셉 스케치, UX 구조화, 코드 기반 프로토타입까지 이어지는 멀티 단계 디자인 프로세스 자동화에 유리하다.



1-2. Google Nanobanana Pro, 텍스트·이미지 생성 고품질화

Nanobanana Pro는 Gemini 3 기반 이미지 생성·편집 모델이다.


- 텍스트 + 이미지 결합 인포그래픽 생성 능력 우수. 특히 한글 텍스트가 깨지지 않고 자연스럽게 표현됨

여러 장의 이미지를 통합해 다양한 비율·포맷으로 변환 가능

- 텍스트 이미지 생성 분야 벤치마크 1위 기록

- 이미지 품질이 기존 나노바나 대비 크게 향상


프로덕트 디자이너 관점

정보 구조, 인포그래픽, UI/UX 다이어그램 등 텍스트 기반 시각물 생산을 빠르게 해야 하는 작업에 최적화. 기획 문서 → 이미지/다이어그램 자동화가 가능해진다.



2. 영상 생성, Open AI Sora 2, Google Veo 3.1


2-1. OpenAI 소라 2 (Sora 2)

- 인물 기반 영상 생성에서 프롬프트 의존도 높음. (특정 인물 생성은 실패했으나 프롬프트 변경 시 전반적으로 자연스러운 움직임 구현)

- 세부 요소 완성도는 약간 아쉬움

- 대사·발음 싱크 등 사운드 정확도 우수

- 영상 톤은 다큐·생활 기록형 또는 ‘그림 같은 느낌’


디자이너 관점

감성 기반 영상, 사용자 스토리텔링, 튜토리얼·가이드 영상 등 정확한 시네마틱 연출보다 따뜻한 질감과 내러티브 중심 영상에 적합.



2-2. Google Veo 3.1 (BO 3.1)

- 인물 생성은 소라보다 자유롭게 되며 자연스러운 동작 구현이 강점

- 백플립같은 물리 동작이 비교적 자연스럽게 재현 (일부 어색함 존재)

- 영상 품질: 햇빛·배경·카메라 워크 등 시네마틱 퀄리티 우세

- 첫·마지막 프레임을 지정할 수 있는 강력한 컨트롤 기능 제공

- 사운드는 대사·소리 혼합 일부 부족

- 가격: 월 29,000원 구독


디자이너 관점

광고 영상, 브랜드 무드필름, 제품 런칭 영상처럼 고품질 카메라 무빙과 미학이 중요한 프로젝트에 적합. 또한 스토리보드 전체를 “정확하게 통제”해야 하는 연출형 영상에 강함.



2-3. Sora 2 vs Veo 3.1 비교


인물 생성

소라 2: 특정 인물 실패 사례 존재, 일반화하면 자연스러움

Veo 3.1: 인물은 변형되지만 움직임 자연스러움


물리 동작

소라 2: 정확성은 높지만 타이밍 다소 어긋남

Veo 3.1: 백플립 등 고난도 동작 안정적


사운드

소라 2: 입모양·대사 싱크 우수

Veo 3.1: 소리 혼합이 다소 어색


영상 품질

소라 2: 자연스러운 일상·다큐 스타일

Veo 3.1: 시네마틱·광고급 퀄리티


가격

소라 2: 무료 모델 존재 / Pro 월 200달러

Veo 3.1: 월 29,000원 구독


결론 소라 2는 감성·내러티브 중심, Veo 3.1은 시네마틱·브랜디드 콘텐츠 중심으로 시장이 분화되어 있다.



3. Meta SAM3, SAM 3D


1. SAM 3/3D 이란

Meta가 공개한 SAM 3는 이미지·영상 속 특정 객체를 자연어만으로 자동 탐지하고 분리하는 모델이다. “자동차 번호판 찾아줘” 같은 문장만 입력해도 객체를 전체 영상에서 알아서 추적해 준다. 복잡한 마스킹 작업을 완전히 대체하는 차세대 세그멘테이션 AI.


2. 주요 기능

- 자연어 또는 클릭으로 객체 탐지·분리

- 영상 전체에서 객체를 지속적으로 추적

- 픽셀 블러, 확대, 스케치 효과 등 다양한 후처리 기능 제공

- 편집 요소의 크기·위치·흐림 정도까지 세밀 조정 가능

- Meta는 해당 기능을 Instagram 편집 앱에 통합 예정

→ 누구나 간단한 텍스트만으로 고급 영상 편집이 가능해지는 변화.


3. 확장성

SAM 3는 콘텐츠 제작을 넘어 다양한 서비스 구현에 활용될 수 있다고 보고 있다. 아래는 그의 예시.

- 얼굴 자동 블러링 앱

- AR 환경에서 특정 객체 강조

- 실시간 객체 기반 인터랙션

→ UI/UX 혁신과 신규 서비스 개발의 기반이 될 수 있는 플랫폼형 모델.


Meta SAM 3는 자연어 기반 객체 탐지 정교한 영상 편집, 개발자·디자이너 모두에게 열리는 확장성이라는 세 가지 핵심을 통해 디지털 미디어 제작과 서비스 설계 방식을 크게 바꾸고 있다. 앞으로 더 많은 플랫폼에 적용되면 크리에이터, 개발자, 디자이너 모두에게 새로운 창작 환경과 UX 가능성을 열어줄 것이라고 보고 있다.



핵심 요약


모델이 워크플로우를 재구성

기획 → 디자인 → 프로토타입 → 영상 홍보 → 3D까지 모든 과정을 AI 하나로도 가능한 시대가 왔다.


작업 목적에 맞는 AI 모델 조합

Gemini 3 : 구조 정리, 기획 문서, 코딩 기반 프로토타입

Nanobanana : 인포그래픽 텍스트 포함 다이어그램

Sora 2 : 감성·내러티브 중심 영상

Veo 3.1 : 시네마틱·광고형 영상

SAM 3/3D : 공간·3D 구성


디자이너 능력의 무게중심이 “툴 사용 스킬”에서 “AI 모델 조합 전략”으로 이동하는 것으로 보인다. 이제는 필요한 작업을 어떤 조합으로 처리하는가가 중요해 보인다.

keyword
작가의 이전글디자인은 '무엇'이 아니라 '왜'를 그리는 일