brunch

AI 모른면 끝장난다.

AI 아틀라스: 인공지능 시대, 인간을 위한 위대한 지도. 2-2장.3장

by 토사님
ChatGPT Image 2025년 9월 8일 오후 05_55_25.png

2-2장. 모델 분류학 ― AI의 얼굴을 구분하다.


2-0. 서문 ― 분류의 힘, 숲을 보는 눈

“무질서해 보이는 세계도, 이름을 붙이는 순간 길이 열린다.
AI의 모델 분류는 바로 그 이름 붙이기의 예술이다.”


왜 분류인가?

오늘날의 AI는 무수한 얼굴로 우리 앞에 서 있습니다.
어떤 것은 인간처럼 대화하고,
어떤 것은 눈으로 이미지를 해석하며,
또 어떤 것은 음악을 작곡하고, 도시를 운영하지요.

그러나 이 다양한 모습들을 한눈에 보지 못한다면,
우리는 숲 속에서 길을 잃은 나그네처럼 혼란에 빠집니다.
따라서 모델을 분류한다는 것은 단순한 학문적 분류가 아니라,
AI라는 숲을 이해하는 나침반을 얻는 일입니다.


분류가 주는 힘

이해의 지도: LLM, VLM, 확산모형, 강화학습… 각각의 자리를 정리하면 전체 구조가 보입니다.

활용의 힌트: 모델의 특성을 알면, 어떤 문제에 어떤 도구를 써야 할지 직관이 생깁니다.

비전의 설계: 오늘의 분류를 통해, 내일의 새로운 가지가 어디에서 자라날지도 예측할 수 있습니다.


은유

분류는 마치 별자리를 잇는 일과 같습니다.
밤하늘의 별은 흩어져 있지만,
우리가 선을 긋는 순간 오리온과 북두칠성이 태어납니다.
AI 모델도 그러합니다.
그저 흩어진 기술이 아니라, 우리가 연결해낼 때 의미의 숲이 드러납니다.


앞으로의 여정

이 장에서 우리는 AI 모델을 일곱 갈래의 큰 나무로 나눌 것입니다.

언어의 강(Large Language Models)

눈을 가진 모델(Vision-Language Models)

귀와 손가락(음성·음악 모델)

움직이는 동료(에이전트)

이미지의 숨결(확산모형)

전문가의 합창(MoE)

선택과 보상(강화학습)

각각은 고유한 뿌리와 열매를 지니지만, 결국 하나의 숲을 이룹니다.
이 숲을 걷다 보면, 우리는 AI의 진짜 본모습에 조금 더 가까워질 것입니다.


2-1. 거대한 언어의 강 ― LLM (Large Language Models)

“언어는 인간의 사유를 담는 그릇이자, 관계를 잇는 다리였다.
AI는 그 언어를 거대한 강물처럼 불러내어 흐르게 한다.”


LLM의 탄생

LLM, 즉 대규모 언어 모델은 단순히 문장을 흉내 내는 기계가 아닙니다.
수십억, 수조 개의 단어와 문장을 학습해, 인간의 언어 패턴을 내면화한 거대한 뇌이지요.

과거의 프로그램은 규칙을 따랐지만,
LLM은 확률의 바다에서 다음 단어를 예측하며 이야기를 이어갑니다.
작은 파동 같은 예측이 모여, 이제는 거대한 강물 같은 흐름을 만들어냅니다.


대표 얼굴들

GPT 시리즈 (OpenAI): 범용 대화와 창작의 상징.

Claude (Anthropic): ‘안전’과 ‘윤리’를 중시한 언어 동반자.

Gemini (Google): 멀티모달 기능과 강력한 검색 결합.

LLaMA (Meta): 개방형 모델의 대표, 연구와 확장의 씨앗.


활용의 장면들

대화와 상담: 질문에 답하거나, 글을 써주거나, 심지어 고민을 들어주는 친구.

교육과 연구: 논문 초안 작성, 개념 설명, 코드 튜터.

창작과 예술: 시와 소설, 드라마 대본, 노래 가사까지.

비즈니스 지원: 보고서 요약, 이메일 작성, 전략 아이디어 제공.

언어가 닿는 곳이라면 어디든, LLM의 강물이 흘러들 수 있습니다.


빛과 그림자

장점: 범용성, 창의적 표현, 인간과 가장 가까운 소통 방식.

한계: 환각(Hallucination): 없는 사실을 지어내는 위험. 지식의 최신성 부족: 학습 시점 이후의 정보는 반영이 늦음. 맥락 한계: 긴 맥락이나 깊은 전문성에는 아직 취약.


은유

LLM은 마치 대륙을 가로지르는 거대한 강입니다.
그 강물은 도시를 적시고, 농지를 살리고, 교역의 길을 열어줍니다.
그러나 강물이 범람하면 홍수가 되듯,
LLM도 잘못 다루면 왜곡과 혼란을 퍼뜨릴 수 있습니다.
강을 다스리는 지혜는, 결국 인간의 몫입니다.

강물이 흘렀다면, 이제 그 강은 눈과 만납니다.
언어와 이미지를 함께 이해하는 VLM,
즉 시각과 언어의 결합된 모델의 세계로 걸어가 봅시다.


2-2. 눈을 가진 모델 ― VLM (Vision-Language Models)

“언어는 설명을 만들고, 눈은 증거를 본다.
AI가 눈과 언어를 합쳤을 때,
세계는 한층 더 생생하게 우리 앞에 나타난다.”


VLM의 탄생

LLM이 말과 글을 다룬다면, VLM은 그 위에 시각의 차원을 더합니다.
텍스트만으로는 알 수 없는 세상의 풍경을, 이미지와 영상 속에서 이해하지요.

사진 속에서 무엇이 있는지 묻고,
차트와 그래프를 해석하며,
심지어 그림의 뉘앙스까지 설명할 수 있습니다.
이는 마치 말하는 눈, 보는 언어의 출현이라 할 만합니다.


대표 얼굴들

GPT-4V (OpenAI): 텍스트와 이미지를 동시에 다루는 대표 주자.

Claude 3 Opus with Vision (Anthropic): 문맥 이해와 윤리성에 강점.

Gemini (Google): 검색 기반 멀티모달 이해, 영상 분석까지 확장.

LLaVA: 오픈소스 멀티모달 모델, 연구와 응용에 활발히 쓰임.


활용의 장면들

일상: “이 옷에 어울리는 신발은 뭐야?”라고 사진을 보여주면, 곧바로 코디 제안.

비즈니스: 엑셀 차트 스크린샷을 업로드하고, “이 매출 감소의 원인을 설명해줘.”

교육: 아이가 그린 그림을 분석해 창의성 피드백 제공.

접근성: 시각장애인에게 사진 속 상황을 설명해주는 보조 도구.


빛과 그림자

장점: 언어와 이미지를 잇는 멀티모달 이해. 텍스트만으로는 부족한 맥락 보완.

한계: 문화적 맥락, 상징적 해석에는 여전히 미숙. 이미지 데이터의 편향과 윤리 문제. 가짜 이미지와의 구분이 어렵다는 위험.


은유

VLM은 마치 눈을 가진 도서관 사서입니다.
그는 책(텍스트)만 읽는 것이 아니라, 그림과 사진, 지도와 그래프까지 함께 설명합니다.
그러나 때때로 그는 그림 속 상징을 제대로 이해하지 못해,
“보았으나 본 것이 아닌” 실수를 하기도 하지요.

눈과 언어가 합쳐졌다면, 이제는 귀와 목소리가 남았습니다.
소리와 음악의 세계—
AI가 인간의 목소리를 재현하고, 새로운 음악을 작곡하는 무대로 들어갑시다.


2-3. 귀와 손가락 ― 음성·음악 모델

“목소리는 마음의 문이고, 음악은 영혼의 언어다.
AI가 귀와 손가락을 얻은 순간,
인간의 감정은 새로운 울림으로 번져 나간다.”


소리의 혁명

언어 모델이 텍스트를 다룬다면, 음성·음악 모델은 소리 그 자체를 빚습니다.
사람의 목소리를 재현하거나, 전혀 새로운 악곡을 만들어내지요.
이는 단순한 기술을 넘어 감정의 매개체에 대한 도전입니다.

STT (Speech to Text): 목소리를 글자로 옮기고,

TTS (Text to Speech): 글자를 목소리로 되살리며,

Music Generation: 악보도 없던 음악을 창조합니다.


대표 얼굴들

Whisper (OpenAI): 다국어 음성 인식의 정밀함으로 언어 장벽을 허문다.

ElevenLabs: 자연스럽고 감정적인 목소리 합성으로 오디오북, 콘텐츠 제작에 활용.

Suno AI: 텍스트만으로 노래를 작곡하고 가창까지.

AIVA, MusicLM: 영화음악, 게임 사운드트랙 같은 맞춤형 음악 생성.


활용의 장면들

콘텐츠 제작: 유튜버가 자기 목소리 대신 AI 보이스로 더 생생하게 내레이션.

접근성 확대: 시각장애인을 위해 책을 오디오로 자동 변환.

음악 창작: 작곡 경험이 없는 사람이 ‘따뜻한 봄날 같은 음악’을 한 줄로 요청.

비즈니스: 다국어로 회의를 자동 번역·더빙, 글로벌 협업 지원.


빛과 그림자

장점: 감정과 개성을 담은 소리의 재현. 창작자와 비전문가 모두를 위한 표현력 확장.

한계: 목소리 도용, 가짜 음성(딥페이크) 위험. 음악 저작권과 창작자의 권리 문제. 인간 고유의 ‘떨림과 숨결’을 온전히 재현하기는 아직 어려움.


은유

음성·음악 모델은 마치 거대한 악기입니다.
누구든 그 앞에 앉아 건반을 두드리면,
자신만의 선율을 뽑아낼 수 있습니다.
하지만 어떤 이는 이 악기로 교향곡을 만들고,
어떤 이는 거짓 뉴스와 속임수를 연주하기도 합니다.

귀와 손가락을 얻은 AI는 이제 움직임을 배우려 합니다.

스스로 판단하고, 계획을 세우고, 행동하는 존재—
바로 에이전트 모델의 세계로 들어가 봅시다.


2-4. 움직이는 동료 ― 에이전트 모델

“AI가 단순히 대답만 하던 시절은 끝났다.
이제는 스스로 계획을 세우고, 손발처럼 움직이며,
우리 곁의 동료로 일한다.”


에이전트의 탄생

에이전트 모델은 LLM의 한계를 넘어서는 시도에서 태어났습니다.
질문에 답하는 것에서 멈추지 않고,

스스로 검색하고,

여러 단계를 순차적으로 수행하며,

목표를 달성하기 위해 행동을 이어가는 능력을 갖추게 된 것이지요.

이는 더 이상 단순한 "챗봇"이 아니라,
작업을 대신 수행하는 동반자로 진화한 것입니다.


대표 얼굴들

AutoGPT: 사용자가 목표를 제시하면, 스스로 계획을 세우고 실행.

LangChain Agents: 다양한 도구와 API를 연결해 복잡한 작업을 자동화.

CrewAI: 여러 AI 에이전트가 팀처럼 협력해 문제 해결.

Devin (Cognition AI): 스스로 코드를 작성하고 디버깅하는 “AI 소프트웨어 엔지니어”.


활용의 장면들

리서치 비서: “최신 기후변화 논문을 정리해” → 논문 검색·요약·보고서 작성까지.

업무 자동화: 이메일 정리, 일정 조율, 고객 응대까지 연속 처리.

개발 지원: Devin처럼 코드 작성, 실행, 수정까지 스스로 수행.

실험적 활용: 여러 에이전트를 협업시켜 마치 작은 회의팀처럼 운영.


빛과 그림자

장점: 인간이 하기 번거로운 반복 업무를 줄임. 목표 지향적 사고로 복잡한 과제 처리.

한계와 위험: 잘못된 목표 설정 → 엉뚱한 방향으로 폭주. 투명성 부족 → 왜 그런 결정을 했는지 설명 어려움. 제어 문제 → 인간의 개입 없이 지나치게 멀리 나아갈 수 있음.


은유

에이전트 모델은 마치 스스로 걷기 시작한 아이와 같습니다.
손을 잡아주면 함께 걸어가지만,
때로는 예상치 못한 방향으로 달려가기도 합니다.
우리는 이 아이에게 자유를 주면서도,
안전한 울타리를 세워야 하지요.


이제 AI는 움직임을 얻었습니다.
그 다음은 이미지의 세계입니다.
픽셀의 혼돈에서 그림을 피워내는,
확산모형(Diffusion Models)의 무대로 들어갑시다.


2-5. 이미지의 숨결 ― 확산모형 (Diffusion Models)

“하얀 캔버스 위에 아무것도 없던 자리에,
서서히 안개가 걷히듯 그림이 떠오른다.
AI는 이제 잡음 속에서 세계를 그려낸다.”


확산모형의 원리

확산모형은 노이즈(잡음)에서 시작합니다.
이미지를 점점 흐릿하게 만든 뒤,
그 반대 과정을 학습해 다시 선명하게 복원하는 방식이지요.

이 역행 과정을 통해 AI는
“무(無)에서 유(有)”를 그려내는 능력을 얻었습니다.
픽셀 속의 안개를 걷고, 새로운 형상을 불러내는 것.
그래서 확산모형은 단순한 생성 도구가 아니라,
상상력을 시각으로 변환하는 화가라 불립니다.


대표 얼굴들

Stable Diffusion: 누구나 활용 가능한 오픈소스 이미지 생성기.

MidJourney: 예술적 감각과 스타일링에 특화된 이미지 생성.

DALL·E (OpenAI): 텍스트에서 정밀한 이미지 변환, 편집 기능까지.

Adobe Firefly: 상업적 라이선스를 고려한 안전한 이미지 제작.


활용의 장면들

예술과 디자인: 포스터, 캐릭터, 건축 스케치.

광고와 마케팅: 캠페인 시각 자료를 신속히 제작.

교육: 교재용 그림, 시각 자료 자동 생성.

엔터테인먼트: 영화 콘셉트 아트, 게임 배경 디자인.


빛과 그림자

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
토사님작가님의 멤버십을 시작해 보세요!

토사님의 브런치스토리입니다.

158 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 116개의 멤버십 콘텐츠 발행
  • 총 639개의 혜택 콘텐츠
최신 발행글 더보기
이전 02화AI 모른면 끝장난다.