생성형 AI 이해(텍스트·이미지 중심 개론)

by 푼크트


1. 서론: 생성형 AI를 ‘배운 친구’로 이해하기


1.1 생성형 AI를 처음 마주할 때의 혼란


생성형 AI, 특히 텍스트와 이미지를 만들어 내는 시스템은 처음 접하면 마치 “갑자기 생겨난 새로운 지능”처럼 느껴진다. 몇 줄의 문장을 입력했을 뿐인데, 논리 구조를 갖춘 기사나 제안서 초안을 쓰고, 한 번도 본 적 없는 공간·제품·캐릭터 이미지를 생성한다.

그러나 생성형 AI를 디자이너에게 친밀한 비유로 다시 풀어 보면, 이 시스템은 “엄청나게 많은 예시를 보고 말투와 스타일을 배운 친구”에 가깝다. 즉 완전히 새로운 개념을 창조하는 초월적 존재라기보다, 방대한 양의 텍스트·이미지 예시를 흡수한 뒤 그 안에서 패턴을 찾아내고, 그 패턴을 따라 말하거나 그리는 패턴 모방자에 가깝다.

이 절에서는 텍스트 생성 AI와 이미지 생성 AI를 각각 “말투를 배운 친구”, “그림 스타일을 배운 친구”로 비유해 설명하고, 왜 이 친구들이 때때로 틀리거나 이상한 답을 내놓는지, 즉 확률적 생성과 환각(hallucination)의 문제를 디자인 관점에서 개론적으로 정리한다.


1.2 디자이너에게 필요한 수준의 이해


디자이너에게 필요한 것은 수학·알고리즘의 세부 구현을 꿰뚫는 능력이 아니다. 오히려 다음과 같은 수준의 이해가 중요하다.

이 도구가 어떤 방식으로 예시를 학습하고,

어떤 논리로 다음 단어·다음 픽셀을 선택하며,

그래서 어떤 유형의 오류와 편향을 필연적으로 가질 수 있는지를 감각적으로 아는 것.

이해의 목표는 “내부 코드를 구현하기 위해서”가 아니라, “어디까지 신뢰하고 어디부터는 의심해야 하는지”에 대한 실무적 감각을 갖추기 위한 것이다.



2. 텍스트 생성 AI: 말투와 논리를 배운 친구


2.1 많은 글을 읽고 말투를 익힌 친구


텍스트 생성 AI, 즉 대규모 언어 모델(LLM)을 가장 단순하게 비유하면, 엄청난 양의 글을 읽고 말투·어휘·논리 구조를 통계적으로 익힌 친구이다. 이 친구는 특정 언어나 도메인(에세이, 논문, 기사, 광고 카피 등)에 특화된 말하기 습관을 몸에 익혔다고 상상할 수 있다.

이 친구에게 “이런 상황에서, 이런 사람을 대상으로, 이런 톤으로 말해 달라”고 요청하면, 그동안 본 적이 있는 수많은 문장 패턴 중에서 “이런 요구 조건에 그럴듯하게 맞을 법한 말하기 방식”을 꺼내 조합해 응답한다.

디자이너 입장에서 보면, 이 친구는 다음과 같은 도움을 줄 수 있다.

리서치 메모를 정리해 논리적 구조를 갖춘 요약문으로 재작성

특정 톤 앤 매너(친근함, 전문성, 중립성 등)를 갖춘 설명문 작성

제안서, 브랜드 스토리, UX 설명문, 인터페이스 마이크로카피 초안 생성


즉 이 친구는 “말을 잘하는 동료”처럼 행동하지만, 그 말의 근거를 실제로 이해한다기보다, “이 상황에서 사람들이 보통 어떻게 말해 왔는지”의 패턴을 통계적으로 복제하는 데 가깝다.


2.2 다음 단어를 고르는 게임: 확률적 생성의 직관


언어 모델의 내부를 완전히 해부하지 않더라도, 기본 아이디어는 한 가지 게임으로 요약할 수 있다.

“이 앞에 나온 단어들을 보고, 다음에 올 단어를 가장 그럴듯하게 맞혀 보라.”


모델은 수많은 문장 예시를 학습하면서, “이런 단어·구문들이 앞에 있을 때, 사람들은 보통 다음에 어떤 단어를 많이 쓴다”는 확률 분포를 익힌다. 텍스트 생성 과정에서 모델은 매 순간 이 분포를 참고해 다음 단어를 하나씩 선택하고, 이렇게 선택된 단어들이 이어져 문단이 되고 글이 된다.

이때 중요한 점은, 모델이 “진실”이나 “사실”을 선택하는 것이 아니라, “그럴듯함”을 선택한다는 것이다. 예를 들어,

“서울은 대한민국의 …” 뒤에는 “수도”가 나올 확률이 매우 높다.

“포스터 디자인에서 그리드는 …” 뒤에는 “레이아웃”이나 “구조”, “질서” 같은 단어가 나올 확률이 높다.


모델은 이런 확률적 패턴을 참고해 다음 단어를 고른다. 따라서 결과는 대체로 자연스럽고 문법적으로도 타당하지만, 사실성이 항상 보장되지는 않는다.


2.3 왜 가끔 틀리는가: 환각(hallucination)의 구조


텍스트 생성 AI가 때때로 틀리거나 존재하지 않는 정보를 그럴듯하게 말하는 이유는, 바로 이 “그럴듯함 기반 선택” 때문이다. 모델은 다음과 같은 방식으로 오류를 낸다.

실제로 존재하지 않는 책, 논문, 제품명을 그럴듯한 형식으로 만들어낸다.

데이터에 없는 사실을 자신 있게 단정적인 문장으로 말한다.

문맥상 자연스럽지만, 실제 역사·과학·법률 상으로는 틀린 내용을 서술한다.


이는 모델이 “거짓말”을 의도해서가 아니라, “이런 패턴의 문장 다음에는 보통 이런 식의 문장이 이어지더라”는 통계적 습관만을 따르기 때문이다.

디자이너 입장에서 보면, 텍스트 생성 AI는 “문서의 형태와 어조를 정리하는 데 매우 유능한 친구”이지만, 사실 검증과 책임 있는 단정은 여전히 사람이 맡아야 한다. 특히 숫자, 인용, 법적 표현, 과학적 설명 등은 반드시 별도의 검증이 필요하다.



3. 이미지 생성 AI: 스타일과 구성을 배운 친구


3.1 수많은 이미지를 보고 그림체를 익힌 친구


이미지 생성 AI 역시 비슷한 방식으로 이해할 수 있다. 이 시스템은 매우 많은 이미지와, 그 이미지에 붙어 있는 설명 텍스트(캡션)를 함께 보며, 둘 사이의 관계를 학습한 친구이다.

예를 들어, 모델은 다음과 같은 데이터 쌍을 수도 없이 본다.

“minimalist living room interior, warm light, wooden floor” ↔ 해당 스타일의 거실 이미지

“brutalist building, concrete facade, strong shadows” ↔ 거친 콘크리트 질감의 건축 사진

“flat illustration, pastel color, people working on laptops” ↔ 플랫 스타일 일러스트


이 과정을 통해 모델은 “이런 텍스트 설명이 붙은 이미지들은 대체로 이런 색·형태·질감·구성을 가진다”는 패턴을 익힌다. 디자이너가 프롬프트에 “따뜻한 조명, 미니멀, 우드톤, 작은 서재”라고 입력하면, 모델은 과거에 이런 설명과 함께 등장했던 이미지들에서 공통적인 스타일과 구성 요소를 추출해 새로운 이미지로 합성한다.


3.2 노이즈에서 이미지를 꺼내는 과정: 직관적 설명


구체적인 알고리즘(예: 확산 모델)을 몰라도, 이미지 생성 과정은 다음처럼 직관적으로 설명할 수 있다.

처음에는 완전히 잡음(noise) 뿐인 화면이 있다.

모델은 “이 잡음 속에 어떤 이미지가 숨어 있다고 가정”하고,

프롬프트(텍스트 설명)를 참고하면서, 단계적으로 잡음을 줄이고 패턴을 강화해 나간다.

여러 단계를 거치며, 점점 프롬프트의 의미에 부합하는 형태·색·구도가 화면에 드러난다.


이 과정은 마치 사진 암실에서 점점 상이 나타나는 과정 또는 “안개 속에서 형태가 천천히 또렷해지는 과정”에 비유할 수 있다. 모델은 무작위에서 출발하지만, 학습된 패턴을 이용해 “이런 텍스트라면 이런 이미지를 만들면 사람들이 그럴듯하다고 느낄 것이다”라는 방향으로 잡음을 정리해 나간다.


3.3 왜 손가락이 이상하거나, 구조가 비틀려 보일까


이미지 생성 AI가 만들어 낸 그림에서 손가락이 이상하게 많은 경우, 계단 디테일이 기묘하게 휘어지는 경우, 건축 구조적으로 불가능한 형태가 나오는 이유 역시 같은 구조에서 비롯된다.

모델은 인간 손의 해부학적 구조를 이해하는 것이 아니라, “손이 포함된 이미지들에서 발견되는 픽셀 패턴”을 학습한다.

건물의 구조 안정성을 계산하는 것이 아니라, “브루탈리즘 건축 사진들에서 반복되는 형태적 특징”을 학습한다.


따라서 이미지 생성 AI는 시각적으로 그럴듯한 손 모양, 건물 형태, 공간 구도를 복제하려고 할 뿐, 그것이 실제로 기능적·물리적으로 가능해야 한다는 제약을 인지하지 못한다.

디자이너 입장에서는, 이미지 생성 AI가 “무드와 스타일, 구도 아이디어를 빠르게 시각화할 수 있는 도구”라는 점을 인정하면서도, 디테일 레벨에서의 구조·인체·타이포·제품 기능성 등은 반드시 직접 검토·수정해야 한다는 점을 항상 염두에 두어야 한다.



4. 공통 메커니즘: 확률, 패턴, 그리고 ‘그럴듯함’


4.1 텍스트와 이미지, 다른 재료·비슷한 사고법


텍스트 생성 AI와 이미지 생성 AI는 다루는 재료(단어 vs 픽셀, 혹은 잠재 벡터)가 다르지만, 사고 방식은 놀랄 만큼 비슷하다.

둘 다 매우 많은 예시를 본다.

그 예시에서 공통 패턴을 추출한다.

새로운 요청(프롬프트)이 들어오면, 그 패턴을 조합해 “가장 그럴듯한 결과물”을 만들어 낸다.


다시 말해, 이들은 어떤 절대적 기준에서 “옳은 답”을 찾는 것이 아니라, 학습 데이터 안에서 통계적으로 자주 등장했고, 사람들에게 자연스럽게 느껴지는 조합을 찾아낸다.


4.2 확률 분포를 따른 선택: 정답이 아니라 경향


생성형 AI의 내부에는 “이런 조건에서는 이런 결과가 나올 가능성이 높다”는 확률 분포가 자리 잡고 있다.

언어 모델은 “앞에 온 단어들”을 조건으로, “다음에 올 단어”에 대한 확률 분포를 가진다.


이미지 모델은 “텍스트 설명과 현재까지 만든 잠재 표현”을 조건으로, “다음 변형 단계에서 어떻게 노이즈를 줄일지”에 대한 확률 분포를 가진다.


생성 과정은 이 분포에서 하나의 선택지를 뽑는 과정이다. 설정에 따라 약간 더 “안정적인 선택”(늘 가장 확률이 높은 것만 고르는 방식)을 할 수도 있고, 조금 더 “창의적이고 다양해 보이는 선택”(확률이 낮은 단어·패턴도 일부 섞는 방식)을 할 수도 있다.

결과적으로, 생성형 AI의 출력은 예측 가능하면서도 변동성이 있는, ‘경향성 있는 우연’의 산물이다. 이 점이 도구의 장점(다양한 변주와 신선한 조합 제공)이자, 동시에 위험(일관성 부족, 틀린 정보, 구조적 오류)으로 작용한다.



5. 왜 틀리고, 왜 이상해 보이는가: 환각과 한계


5.1 환각(hallucination): 자신감과 사실성의 불균형


생성형 AI가 가장 많이 지적받는 문제는 이른바 환각(hallucination) 현상이다. 이는 모델이 사실이 아닌 정보를 마치 사실인 것처럼 그럴듯하게 생성하는 현상을 가리킨다.

존재하지 않는 논문, 책, 저자를 자연스러운 형식으로 만들어 낼 때

실제로는 일어나지 않은 사건을 “있었던 일”처럼 서술할 때

법·의학·과학 관련 지식에서 틀린 설명을 매우 단정적인 어조로 제시할 때


이 모든 것은 모델이 “진실 여부”를 판단하지 않기 때문에 일어난다. 모델의 목표는 단지 “앞뒤 문맥과 스타일 상 자연스러운 문장”을 만드는 것이고, 그 문장이 사실과 일치하는지는 별도의 평가 기준으로 다뤄지지 않는다.

디자이너가 이 점을 이해해야 하는 이유는, 텍스트 생성 AI를 사용할 때 “말이 잘 된 것”과 “내용이 옳은 것”을 구분하는 훈련이 필수이기 때문이다.


5.2 데이터 편향과 불균형


또 다른 문제는 학습 데이터의 편향이다. 텍스트든 이미지든, 모델이 본 예시들은 특정 문화권, 시대, 스타일, 관점에 더 많이 치우쳐 있을 수밖에 없다.

검색 엔진 상위 결과 위주로 수집된 텍스트는, 이미 인기가 있거나 주류화된 담론에 편향되기 쉽다.

이미지 데이터셋은 특정 인종, 체형, 공간 유형, 라이프스타일을 과대표집할 수 있다.


그 결과, 생성형 AI는 자주 등장했던 스타일과 구성을 더 쉽게 재현하고, 드물게 등장했던 스타일과 구성은 무시하거나 왜곡할 가능성이 크다. 디자이너 관점에서 이는, “AI가 만들어 주는 것이 곧 트렌드의 정답인 것처럼 보이지만, 실제로는 데이터 편향의 반영일 수 있다”는 점을 의미한다.

따라서 생성형 AI를 사용할 때는, 다양성과 맥락을 의식적으로 점검해야 한다. 예를 들어 특정 문화권의 일상, 비주류 취향, 소수자의 경험 등을 주제로 디자인할 때, AI가 자동 생성한 이미지·텍스트는 의도와 반대되는 편견을 강화할 수 있다.


5.3 현실 제약의 부재: 물리, 기능, 법규에 대한 무감각


생성형 AI는 물리적, 기능적, 법적 제약을 내장하고 있지 않다.

공간 이미지는 구조·설비·법규(채광, 피난, 안전 기준)를 고려하지 않는다.

제품 이미지는 실제 생산 방식, 소재 한계, 인체공학적 제약을 고려하지 않는다.

서비스 설명문은 조직 구조, 예산, 법적 규제, 인력 구성 현실을 반영하지 못한다.


따라서 디자이너는 생성된 결과를 그대로 도면·설계·계약서 수준으로 올릴 수 없다. 오히려 “제약 없는 상상”을 빠르게 시각화해 주는 도구로 이해해야 하며, 그 다음 단계에서 현실의 제약을 적용하는 작업이 반드시 뒤따라야 한다.



6. 디자이너를 위한 생성형 AI 이해의 정리


6.1 ‘잘 배운 친구’이지만, 모든 것을 아는 존재는 아니다


텍스트 생성 AI와 이미지 생성 AI는, 각각 말투와 논리, 스타일과 구도를 잘 배운 친구라고 요약할 수 있다. 이 친구는 다음과 같은 특성을 가진다.

수많은 예시를 보고 패턴을 익혔다.

주어진 상황과 요구에 맞게 그 패턴을 조합해, 그럴듯한 결과물을 빠르게 만들어 낸다.

그러나 실제로 무슨 말을 하는지, 무엇을 그리는지에 대한 의미·사실·윤리·물리적 타당성을 스스로 충분히 판단하지 못한다.


따라서 생성형 AI는 초안 초고, 무드 탐색, 아이디어 확장, 스타일 변주에 매우 강력한 도구지만, 최종 결정과 책임 있는 판단은 여전히 디자이너의 몫으로 남는다.


6.2 활용과 경계의 기준


디자이너가 생성형 AI를 사용할 때 세 가지 기준이 유용하다.

“이 작업은 패턴을 모아 표현하는 일인가, 아니면 현실 제약과 책임이 필요한 판단인가?”

“지금 이 결과에서 형식적 그럴듯함과 내용적 타당성을 어떻게 구분할 것인가?”

“이 도구가 학습한 데이터의 편향과 한계는 무엇일 수 있는가?”


이 기준 위에서 생성형 AI를 이해하면, 도구에 휘둘리는 대신, 도구를 자신의 워크플로 안에 전략적으로 배치할 수 있다. 텍스트·이미지 중심의 생성형 AI 이해는, 이후 보다 구체적인 프롬프트 설계, 결과물 편집, 오류 관리, 윤리적 사용 기준을 논의하기 위한 기초가 된다.



수요일 연재