지금 당장 써야 하는 멀티 모달 AI

챗GPT, 제미나이, 퍼플렉시티, 클로드, 그록까지 인공지능 뭘 쓰지?

Jun 2. 2025

어시스턴트

AI 분류에 대하여

거대 언어 모델(Large Language Models, LLM) 기반 생성형 AI는 현대 기술 혁신의 최전선에 있는 분야다. 이 기술은 방대한 텍스트 데이터로 학습된 인공 신경망을 통해 인간과 유사한 수준의 언어 이해 및 생성 능력을 보여주며, 다양한 형태로 우리 일상에 빠르게 자리잡고 있다.

거대 언어 모델 생성형 AI를 정확히 정의하는 것은 쉽지 않다. 기술적으로는 수십억에서 수천억 개의 매개변수(파라미터)를 가진 인공 신경망으로 방 대한 텍스트 데이터를 학습하여 확률적 언어 모델링을 수행하는 시스템을 말한다. 하지만 그 응용과 구현 형태는 매우 다양하다. 예를 들어 구글이 만든 거대 언어 모델 제미나이는 브라우저에서 텍스트를 입력해 글을 생산하 거나, 이미지를 출력할 수 있어 멀티모달 AI로 볼 수 있다. 동시에 안드로이드 휴대폰에 탑재되어 AI 어시스턴스 역할도 수행한다. 그렇다면 제미나이는 LLM이라고 불러야 할까? 아니면 멀티모달 또는 AI 어시스턴스라고 불러야 할까?

셋 다 틀렸다고 볼 수 없다. 다소 딱 맞지 않은 옷을 입은 느낌은 있겠지만, 생성형 AI를 분류하여 제공함으로써 얻는 이득이, 분류하지 않고 100가지 를 가나다순으로 나열하여 얻는 이득보다 크다고 판단해 이 책에서는 100가 지 AI를 가장 두드러진 특징을 고려해 분류해 설명한다. 분류 기준을 설명했으니 이제 본격적으로 첫 포문을 열어보자.

01 멀티모달 AI

멀티모달 AI 도구는 글, 그림, 소리, 동영상, 코드처럼 서로 다른 형태의 정보를 동시에 이해하고 처리할 수 있는 인공지능 기술이다. 예를 들어 우리가 친구에게 “이 사진 속 동물이 뭐야?”라고 물으면 사진을 보고 동물이 무엇인지말할 수 있는 것처럼, 멀티모달 AI는 이미지 속 대상에 대한 설명을 텍스트로생성하거나, 반대로 텍스트 설명을 바탕으로 이미지를 그려낼 수도 있다. 이기술은 단순히 텍스트 전용 AI나 이미지 전용 AI를 나란히 연결하는 수준을넘어, 서로 다른 정보 사이의 복잡한 관계를 학습하고 활용한다.

멀티모달 AI가 주목받는 이유는 현실 세계의 정보가 대부분 여러 형태로섞여 있기 때문이다. 예를 들어 “빛은 파동인가? 에너지인가?” 정답은 파동이면서 에너지다. 이처럼 우리 일상은 말과 글, 사진과 동영상이 함께 어우러져 있고, 이들 사이의 맥락을 이해해야만 정확한 판단이나 창의적인 결과물을 얻을 수 있다. 따라서 멀티모달 AI는 교육용 콘텐츠를 자동으로 제작하거나, 여행 사진에 맞춰 설명글과 배경 음악을 동시에 생성하는 등 다양한 분야에서 활용 가능성이 무궁무진하다.

멀티모달 AI 도구를 제일 먼저 소개하는 이유는, 사상 첫 AI 슈퍼 도구라고할 수 있는 챗GPT가 멀티모달이면서 가장 친숙한 AI 도구이기 때문이다. 지금 이순간에도 수억 명이 챗GPT를 이용하고 있다. 마치 검색엔진 시대에 네이버나 구글 같은 검색엔진에서 인터넷 여행을 시작했듯이, AI 시대에는 멀 티모달 AI가 그 자리를 대신할지도 모른다. 실제로 챗GPT의 등장 이후로 검 색엔진의 사용량을 상당부분 챗GPT가 빼앗아왔다.

멀티모달 AI는 글쓰기, 이미지 생성 등 다양한 기능을 제공한다. 앞으로 이 책에서 PART마다 제공하는 표에서 여러 차례 만나게 될 것이다. 이름 그대로 다재다능하기 때문이다. 멀티모달 AI별 특징 및 차트를 먼저 살펴보자.

스크린샷 2025-06-02 오전 10.13.01.png

최신 AI 도구 소식은 www.ai100.co.kr에서 확인할 수 있다.

위 차트에서 No.은 순위(랭킹)이 아니다. 인공지능 도구를 총 100개 뽑으면서 구별하고자 고유번호를 달아둔 것이다. 좋아요 표시, 배경색 유무가 더 의미가 있다. 배경색이 있으면 지금 당장 사용하라는 의미다. 없으면 계속 지켜보라는 의미다. 표 아래 덜그러니 이름만 있으면, 이런 것도 있다는 의미다.

나의 멀티 모달 생활

이 글을 읽는 분 중에 챗GPT를 사용해 본 적이 없는 분은 없을 거야~ 라는 생각으로 200달러짜리까지 사용해본 입장에서 몇 가지 멀티 모달 사용 패턴의 변화를 적어본다.

휴대폰에서는 챗GPT 앱을 사용한다. 타이핑이 휴대폰에서는 불편하므로 챗GPT의 고급 음성 모드를 사용해서 음성 질답을 한다. 고급 음성 모드는 서치(실시간 웹 검색)가 안 되기 때문에 학습한 시점 이전 정보만 대답을 제대로 한다. 발음을 또박또박 해야 인식이 되는 점도 감안해야 한다.

PC에서 업무상 필요한 자료를 찾을 때는 퍼플렉시티를 사용한다. 멀티 모달 AI가 가지고 있는 근본적인 문제점인 할루시네이션 현상이 가장 적은 모델로 볼 수 있다. 실시간으로 검색하여 정리하고 관련 링크도 제공하여, 사실 여부를 판단하여 활용하기가 편하다. 최근 구글검색 엔진도 업그레이드되어서 퍼플렉시티와 비슷한 결과물을 내놓고 있는데, 이미 나는 주에 구글링 한 번을 안 한다. 좀 늦은 감이 있지만, 구글의 행보는 긍정적으로 보인다. 이에 퍼플렉시티는 대학교 계정만 있으면 1년을 무료 이용할 수 있는 이벤트를 실시하고 있다. 딥 리서치 기능을 활용하려면 유료 계정을 사용했어야 했는데, 대학 무료 계정에서도 무제한으로 활용할 수 있어서 누워 있는데 입에 감이 떨어진 격이다.

리서치할 양이 많으면 제미나이를 활용한다. 제미나이는 챗GPT보다 한 번에 더 많은 문맥을 유지할 수 있다. 그래서 100가지 조사가 제미나이는 되고, 챗GPT는 안 된다. 제미나이는 책 분량, 챗GPT는 책의 한 꼭지 정도에서 가능하다(기술적으로 양 20배 차이가 난다).

이미 작성된 자료에서 분석은 노트북LM을 사용한다. 안 써본 사람은 있어도 한 번만 써본 사람이 없는 그러한 리서치 도구다.

간단한 그림 생성은 챗GPT(달리)를 이용한다.

상황이 이러하다 보니, 200달러짜리 챗GPT를 사용할 이유가 없어졌다. 아직은 20달러짜리를 유지하고 있지만 최근 열흘간 챗GPT를 안 쓰면서 다른 멀티 모달로 기존의 퍼포먼스와 퀄리티를 유지할 수 있는지 테스트 중이다. 해보니 지금까지는 별 문제가 없다.

그럼에도 초보자, 또는 직장인에게 단 하나만 추천한다면 챗GPT다. 왜냐하면 다 되기 때문이다. 용처에 맞게 사용하는 것은 좀 쓸 줄 아는 사람만의 영역이니까. 그래서 여기서는 퍼플렛시티와 제미나이, 챗GPT 중 무얼 소개할까 고민하다가 챗GPT를 소개한다.

챗GPT, 네가 다 해주는구나!

챗GPT는 명실상부 최고의 멀티모달 AI이다. 2022년 11월 출시되어 두 달 만에 100만 명을, 2023년 말에는 주간 활성 사용자가 1억 명을 돌파했다. 이 글을 쓰는 현재는 무려 주간 활성 사용자가 5억 명을 넘었다.

무료로도 글쓰기뿐 아니라 이미지 생성, 음성 대화 기능을 사용할 수 있다. 보고서 초안 작성이나 블로그 글쓰기, 외국어 회화 연습, 심지어 코드 작성까 지 해결할 수 있는 만능 해결사다.

자연어 대화 및맥락 유지 : 사용자의 질문과 이전 대화 내용을 고려해 연속된 대화를 수행하고, 심층적인 질의응답이 가능하다.

콘텐츠 생성·편집 : 블로그 글·보고서·이메일 초안 작성, 텍스트 요약·번역·교정 등 다양한문서 작업을 자동으로 지원한다.

코드 작성·수식계산 : 파이썬, 자바스크립트 등 주요 프로그래밍 언어로 코드를 생성·디버깅하고, 수학·통계 계산을 바로 수행한다.

이미지 이해·생성 : 이미지 입력을 분석해 사물과 장면을 이해하고, 텍스트 프롬프트로 이미지를 생성한다(달리, 소라).

음성 대화 음성 입력을 인식해 처리하고, 음성 출력 또는 텍스트로 대화한다(음성모드).

코딩 : 2025년 5월 코딩 전용 인공지능 모델인 코덱스Codex를 발표했다. o3보다코딩 능력이 5% 더 상향되었고, 깃허브 심층 리서치 기능을 제공한다.

챗GPT 입문하기

챗GPT가 쓴 책이 2023년에 베스트셀러에 오른 일이 있다. 당시는 지금에 한 참 못 미치는 성능이었지만, 기계가 글을 쓴다는 것 자체가 강력한 충격을 주 었다. 지금은 비교할 수 없을 정도로 성능이 발전했다. 글쓰기 실력의 이면에 는 방대한 데이터를 통한 학습이 있다. 사람이나 기계나 학습하여 지식을 쌓 으면 글쓰기에 도움이 되는 법이다.

챗GPT의 작문 능력은 모델에 따라 차이를 보인다. 챗GPT는 새로운 모델 을 프리뷰로 공개하고, 오래된 버전을 서비스에서 제거한다. 현재는 4o와 추 론 버전인 o4부터 제공한다. 4oGPT‑4o는 텍스트와 이미지 등 멀티모달 입력 처리 및 대화·도구 통합에 최적화된 범용 AI 모델이고, o4는 복잡한 연구·코 딩·수학·과학 문제 해결에 특화된 추론 모델이다. 추론이 필요하지 않다면 굳 이 o4를 쓸 필요는 없다. 생성에 더 시간이 오래들기 때문이다. 목적에 알맞 게 쓰면 된다. 예를 들어 파리 올림픽 금메달 개수를 물을 때는 4o를 쓰면 충 분하다. 캔버스 기능을 사용하면 생성한 글의 일부만 수정할 수도 있다.

챗GPT에게 원하는 글의 종류, 주제, 길이, 문체, 포함해야 할 핵심 내용 등 을 상세히 알려줄수록 결과물의 만족도가 높아진다. 또한 AI가 생성한 초안 을 그대로 사용하기보다는 필요에 따라 수정하고 보완하는 과정을 거치는 것이 바람직하다. 글쓰는 누구나 한 번쯤 해봤을 것이다. 그러니 그림 생성 방법을 예시로 살펴보겠다.

실습 01 ‘달리’로 이미지 생성하기

챗GPT는 달리DALL·E 모델을 사용해서 이미지를 그린다. DALL-E는 텍스트 설 명을 입력받아 이미지를 생성하는 인공지능 모델이다. 설명에 기반하여 새 로운 시각적 결과물을 창조한다는 점이 특징이다. 생성한 결과물의 일부 또 는 전체를 수정할 수도 있다. 화풍도 선택이 가능하다. 빈센트 반 고흐의 화 풍을 좋아한다면 고흐 화풍을 요청하면 된다. 저작권에 위배되지 않는 화풍 으로 요청하자. 이를 통해 사용자는 특정 개념, 속성, 또는 화풍 등을 조합한 이미지를 손쉽게 얻을 수 있으며, 최종 결과물로도 활용할 수 있고 창의적인 아이디어를 시각화해보는 데도 활용할 수 있다. 유명인의 얼굴이나 저작권 이 있는 이미지를 생성하는 데 제한이 있다. 챗GPT가 생성한 이미지를 유통 해 발생하는 저작권 침해의 책임은 유포한 사람에게 있다. 예를 들어 디즈니 는 라이선스 관리가 빡빡한 것으로 유명하다. 반면 지브리는 라이선스를 느 슨하게 관리하고 있다. 라이선스에 항상 유의하자.