brunch

2025년 AI 이미지 & 영상 모델 완벽 비교표

이거 모르면 돈 낭비! AI 이미지 만들기 전에 이 글부터 보세요

by 정채린


"AI 이미지, 그냥 '챗GPT'에 그려달라고 하면 되는 거 아니었어?"


만약 그렇게 생각했다면 당신의 소중한 돈을 낭비하거나, 나도 모르는 사이 저작권을 위반할 수도 있는

위험한 출발선에 서 있습니다.


Sora와 DALL-E 3는 뭐가 다를까요?

Stable Diffusion은 왜 전문가만 쓸 수 있다고 할까요?


라마, 트랜스포머, 디퓨전...(LLaMA, Transformer, Diffusion)의 암호 같은 단어들은 도대체 무슨 말일까요?

또한 '상업적 이용 가능', '워터마크 없음', '월 20달러'라는 조건은 무엇을 의미할까요?


이 글은 인터넷에 흩어진 수십 개의 리뷰와 유튜브 영상, 복잡한 라이선스 규정을 하나로 압축한

'2025년 AI 이미지/영상 도구 최종 가이드'입니다.


단순한 기능 비교를 넘어 각 AI의 기술적 계보와 작동 원리

숨겨진 비용 구조와 상업적 라이선스의 함정까지

전문가들만 알아들을 것 같은 어려운 용어들을 쉽게 알아들을 수 있도록 풀어내어

당신이 AI 도구를 선택하기 전에 알아야 할 모든 정보를 담았습니다.


이 글은 앞으로 당신이 겪을 수많은 시행착오와 불필요한 지출을 막아줄 가장 확실한 보험이 될 것입니다.




용어 정리


생성형 인공지능 산업의 발달로 정말 많은 AI 이미지 생성 도구들이 출시되었습니다.

그런데 선택지가 너무 적은 것도 문제지만, 선택할 수 있는 사항이 너무 많은 것도 문제입니다.


이 글에서는 대표적인 AI 이미지 생성 도구들을 살펴보고, 자신에게 맞는 도구를 선택하는 방법과 특징을 알려드리겠습니다.

먼저 몇 가지 용어를 정리하고 시작하겠습니다.


AI: 인공지능 (Artificial Intelligence)


LLM: 대규모 언어 모델 (Large Language Model)


회사: 서비스를 제공하는 기업의 이름 [예-삼성]


모델: 회사가 제공하는 특정 서비스나 제품의 공식 명칭 [예-갤럭시]


◎ 모델 종류: 이미지 모델, 영상 모델에 따른 모델의 공식 명칭 [예-갤럭시S, 갤럭시A, 갤럭시 폴드]


◎ 서비스명: 각 서비스의 공식 명칭 [예-자급제 폰, 통신사 폰]


모델 뒤의 숫자: 모델의 세부 버전을 구분하는 숫자나 기호 [예: S25, 4o]


통칭: 제품의 공식 명칭(모델) 대신, 그 회사의 가장 대표적인 제품 이름으로 불리는 비공식적인 명칭.

사실상 그 회사의 여러 서비스를 아우르는 이름처럼 사용됩니다.

[예: OpenAI의 'Sora'를 공식 명칭 대신 그 회사의 대표 서비스인 '챗지피티'라고 부르는 경우]


트랜스포머 (Transformer): 입력된 문장 전체를 순서대로 하나씩 처리하는 게 아니라, 모든 단어를 한 번에 동시에 처리하는 신경망 구조(Architecture). 이 병렬 처리 방식 덕분에 문장 내 멀리 떨어진 단어들 간의 관계도 효율적으로 파악할 수 있습니다.


어텐션 (Attention): 문장 내에서 특정 단어를 해석할 때, 다른 어떤 단어에 더 집중해야 할지 그 '중요도'를 계산하는 메커니즘. 각 단어는 다른 모든 단어와의 연관성을 수치화된 가중치로 부여받아, 이를 통해 문맥에 맞는 정교한 의미를 갖게 됩니다.


피드포워드 네트워크 (Feed-Forward Network): 어텐션을 통해 문맥 정보가 반영된 각 단어의 결과값을 받아, 비선형(non-linear) 변환을 통해 더 복잡하고 추상적인 패턴을 학습시키는 연산 층. 모델 전체의 표현력을 높여주는 역할을 합니다.





LLM 이미지 생성 원리


언어 모델인 LLM이 이미지를 다루게 된 건 멀티모달(Multimodal) 확장 덕분 입니다.

LLM은 문장을 숫자 벡터(embedding)으로 바꿔서 의미를 이해 합니다.

[예: “빵 위에 고양이가 앉아 있는 그림” → [0.12, -0.98, …]]


이미지도 픽셀을 그대로 쓰지 않고, 잠재 공간(latent space)이라는 압축된 벡터 표현으로 바꿀 수 있습니다.

따라서 “텍스트 벡터”와 “이미지 벡터”를 같은 공간에서 매핑할 수 있습니다.


텍스트와 이미지 쌍을 학습해서 “이 문장 ↔ 이 그림” 매칭을 학습합니다.


현재 이미지 생성 AI의 주류는 디퓨전모델입니다.

디퓨젼(Diffusion) 확산 모델의 원리:

1. 랜덤 한 노이즈 이미지에서 시작.

2. LLM이 해석한 프롬프트를 조건으로 줌.

3. 노이즈를 점차 제거하며 텍스트에 맞는 이미지로 변환.


해당 내용에 대해 더 자세히 알고 싶다면 [유튜브 3B1B 채널의 LLM 설명 영상을 참고하십시오]

0007.jpg

☞ 여기를 클릭하면 영상으로 넘어갑니다.





LLM 주요 계보 정리


그럼 이제 대형 언어 모델(LLM)의 대표 기업과 모델을 살펴보겠습니다.

파란색 글씨가 기업의 이름이며, 그 아래 쓰인 것들이 그 기업에서 나온 대표 LLM 모델들입니다.


1. OpenAI 계열 (폐쇄형, 오픈소스 아님)

GPT-1/2/3/4/4o/4.5/5 – OpenAI – 자체 개발(원모델: 없음, Transformer 논문 기반)

특징: 파생 모델 거의 없음(폐쇄형). 대신 API 중심 확장.


2. Anthropic 계열

Claude 1/2/3 – Anthropic – 자체 개발(원모델: 없음, GPT 영향은 받음)

특징: GPT 스타일은 참고했으나 직접 학습. 오픈소스 아님.


3. Google 계열

BERT – Google – Transformer 원논문

PaLM – Google – 자체 개발

Gemini – Google DeepMind – PaLM 발전 계열

특징: 연구 논문으로는 영향력 크지만 실제 파생모델은 제한적.


4. Meta 계열 (오픈소스, 파생 폭발)

LLaMA 1/2/3 – Meta – 자체 개발

파생:

Alpaca – Stanford – LLaMA

Vicuna – UC Berkeley 등 – LLaMA

Mistral – Mistral AI – (초기에는 LLaMA 기반, 이후 자체 모델로 발전)

Nous-Hermes, WizardLM 등 – 여러 커뮤니티 – LLaMA


5. Cohere 계열

Command R – Cohere – 자체 개발(원모델 없음)

특징: RAG(검색+생성) 특화.


6. 한국/일본/중국 주요

HyperCLOVA X – Naver – GPT·LLaMA 참고, 자체 개발

ERNIE – Baidu – 자체 개발, GPT류 참고

Tongyi Qianwen – Alibaba – 자체 개발

Sakura – 일본 연구진 – LLaMA 기반 파생

DeepSeek - 중국




AI 이미지 모델 정리 (2025년 기준)


1. 달리3 (DALL·E3) - OpenAI

Sora

가격 구조:

구독 기반 (무료 사용 가능, 유료 ChatGPT 플랜을 구독하면 더 나은 기능을 제공받을 수 있습니다.)


가격:

무료 요금제 - (제한된 우선순위)

플러스(Plus) 요금제 - 월 20달러 (더 나은 우선순위 제공)

프로(Pro) 요금제 - 월 200달러의 (더 많은 기능과 우선순위 제공)


라이선스: 무료 이용자 상업 이용 가능


특징: 디테일한 이미지, 상상력 높은 표현, 사용자 친화적 UX 특화

강점: 다양한 스타일과 커스터마이징 옵션 제공, 높은 인기와 평가



2. 플럭스 원 (Flux.1) - Black Forest Labs

Flux AI: Free Online Flux Kontext, Flux.1 AI Image Generator

가격구조:


가격:

무료 요금제 - 월 0원, 40크레딧, 15일 동안만 작업물 보관 됨, 상업 이용 불가

스탠다드 요금제 - 월 9.99달러, 5000크레딧, 더 좋은 품질의 AI이미지, 100일간 작업물 보관, 상업 이용 가능

파퓰러 요금제 - 월 19.99달러, 13000크레딧, 더 좋은 품질의 AI이미지, 100일간 작업물 보관, 상업 이용 가능

프로페셔널 요금제 - 월 29.99달러, 21000크레딧, 더 좋은 품질의 AI이미지, 100일간 작업물 보관, 상업 이용 가능


라이선스: 무료 이용자는 상업 이용 불가


특징: 최신 diffusion-transformer 하이브리드 구조, 뛰어난 프롬프트 정확도 및 스타일 다양성. 긴 텍스트 렌더링에도 강하며, 매우 세밀한 이미지 생성 가능

강점:



3. 위스크3-베오2 (Wisk3- Veo2) - Google DeepMind

Whisk - labs.google/fx

가격구조:

구독 기반


가격:

Google AI Pro1 요금제 - 월 20달러 (Veo 3 Fast3 모델 사용 가능, Flow 및 Whisk 전반에서 사용할 수 있는 월별 1,000 AI 크레딧)

Google AI Ultra2 요금제 - 월 250달러 (Veo 33 모델 사용 가능, Flow 및 Whisk 전반에서 사용할 수 있는 월별 25,000 AI 크레딧)


라이선스: 무료 이용자 상업 이용 가능, 워터마크 없음


기능: 텍스트 프롬프트로 이미지 생성

특징: 빠른 이미지 생성 / 무료 사용자도 상업 이용 가능

한계: 한식 및 음식 이미지 생성에 있어서 퀄리티 부족



4. 스테이블디퓨전 3.5

(Stable Diffusion 3.5 Large / SDXL) - Stability AI

https://stability.ai/

가격구조:

이중 모델: (1) 다양한 타사 플랫폼을 통한 종량제 API 액세스, (2) 자체 호스팅을 위한 TCO.


가격:

Segmind: GPU 초당 $0.001

Fal.ai: 메가픽셀당 $0.065.

AWS Marketplace: 인스턴스 유형에 기반한 복잡한 시간당 요금


라이선스:

Stability AI 커뮤니티 라이선스로, 비상업적 사용 및 연 매출 100만 달러 미만 기업의 상업적 사용에 무료입니다.

Stability AI License — Stability AI


특징: 오픈소스 대표주자, 품질·텍스트 정확도 향상, 3D 모델링 가능, 오디오 지원

강점: 자유도·커뮤니티·툴 풍부, 파인튜닝 용이

단점: 자체 호스팅 필요, 일반인 사용 어려움

(모델은 약 20GB이며 높은 VRAM을 가진 GPU가 필요합니다. 권장 사양으로는 NVIDIA A100 (40GB) 또는 RTX 5090이 있습니다. 사용자 보고에 따르면 최소 24GB의 VRAM이 필요하며, 양자화된 버전은 16GB 카드에 맞을 수 있습니다. RTX 4090 (24GB)과 같은 소비자용 카드도 사용 가능합니다.)


+보너스

※ 이미지툴만 알아도 충분하지만, 조금 더 정확한 정리를 위해 영상툴까지 알아보겠습니다.

※ 회사가 같아 보여도 서비스하는 명칭이나 버전이 다르니 참고하시기 바랍니다.


AI 영상 모델 정리 (2025년 기준)


1. 소라 (Sora) - OpenAI

Sora

가격 구조:

구독 기반 (유료 ChatGPT 플랜을 구독하면 해당 기능을 사용할 수 있습니다.)


가격:

플러스(Plus) 요금제 - 월 20달러 (제한된 우선순위 비디오 제공)

최대 720p의 해상도와 10초 길이의 동영상, 최대 2 개 동시 생성, 워터마크 있음

프로(Pro) 요금제 - 월 200달러의 (더 많은 비디오와 기능을 지원, 5초당 비용이 약 0.40달러)

더 빠른 생성, 최대 1080p의 해상도와 20초 길이의 동영상, 최대 5 개 동시 생성, 워터마크 없음


라이선스: 무료 이용자 상업적 이용 가능, 무료 이용자 워터마크 있음, 유료 이용자 워터마크 없음


기능: 텍스트·이미지 입력으로 영상 생성 및 기존 영상 리믹스, 스토리보드 기반 편집, 스타일 프리셋 제공

특징: 최대 1080p, 20초 길이, Plus/Pro 구독자만 이용 가능

장점: 스토리보드 기반 창작, 장면 구성 자유도 높음, Remix 기능 (Remix 기능: 기존 생성된 영상이나 장면을 재조합/수정할 수 있는 기능)

한계: 물리 연산이나 복잡한 동작 표현에서 오류 존재, 인간 묘사에도 제약



2. 플로우5-베오3 (Flow5 - Veo3) - Google AI

Veo - Google DeepMind

가격구조:

구독 기반


가격:

Google AI Pro1 요금제 - 월 20달러 (Veo 3 Fast3 모델 사용 가능, Flow 및 Whisk 전반에서 사용할 수 있는 월별 1,000 AI 크레디트)

Google AI Ultra2 요금제 - 월 250달러 (Veo 33 모델 사용 가능, Flow 및 Whisk 전반에서 사용할 수 있는 월별 25,000 AI 크레디트)


라이선스: 무료 이용자 상업적 이용 가능, 무료 이용자 워터마크 있음, 유료 이용자 워터마크 없음


기능: 텍스트 프롬프트로 영상 생성, 오디오 지원

특징: 물리 이해력 향상, Gemini Advanced를 통해 8초 클립 생성 가능

장점: 스타일 다양, 리얼리즘, 긴 영상 처리 가능성.

한계: 아직 제한된 액세스 및 클립 길이가 짧음.



3. 런웨이 젠-3 (Runway Gen-3 Aleph) - Runway AI

Welcome to Runway - Runway

가격구조:


가격:

무료 요금제 - 월 20크레딧, 2개의 비디오, 20개의 이미지 생성 가능, 워터마크 있음, 상업 사용가능 확인 불가.

라이트 요금제 - 월 14760원, 월 300크레딧, 30개의 비디오, 300개의 이미지 생성 가능, 워터마크 없음.

전문가 요금제 - 월 21402원, 월 800크레딧, 80개의 비디오, 800개의 이미지 생성 가능, 워터마크 없음.


라이선스: 무료 이용자는 상업 이용 불가


기능: 텍스트→영상, 정교한 키프레임 제어 및 포토리얼리즘 강조

장점: 업계 수준의 커스터마이징, 시각 품질 뛰어남

특징: 기업 대상, 알파 버전으로 계속 발전 중임.



4. 피카랩스 (Pika Labs) - PikaLabs

https://pika.art/

가격구조:

크레딧 시스템


가격:

무료 요금제 - 월 80 크레딧, 워터마크, 비상업적 사용. (Pika 1.5, Pikadditions, Pikaswaps, and Pikatwists (Turbo), Pikaffects)

스탠다드 요금제 - 월 $8 (연간 결제 시)에 700 크레딧. 상업적 사용 불가. (모든 Pika의 모델 사용 가능)

프로 요금제 - 월 $28 (연간 결제 시)에 2300 크레딧, 상업적 사용, 워터마크 없음. (모든 Pika의 모델 사용 가능)

팬시 요금제 - 월 $76 (연간 결제 시)에 6000 크레딧, 상업적 사용, 워터마크 없음. (모든 Pika의 모델 사용 가능)


라이선스: 무료 이용자는 상업 이용 불가


기능: 자연스러운 영상 생성, 카메라·모션 커스터마이징 가능

장점: 캐릭터 생성 일관성, 사용자 친화적 인터페이스

특징: 베타에서 자유롭게 이용 가능.


adsf.png



결론


그냥, SoraWhisk 를 쓰십시오

무료로 이용해도 상업적 이용이 가능하며

기능도 좋습니다.



도움이 되셨다면 라이킷! 눌러주세요 ♡ 응원도 부탁드립니다!



keyword
이전 07화'독자를 사로잡는' AI 이미지의 모든 것