Generative Artificial Intelligence
인공지능은 오랫동안 “식별하고 예측하는 기술”로 생각되었습니다. 데이터를 분류하고, 특정 상황의 결과를 예측하고, 조건에 맞게 의사결정을 돕는 용도로 말이죠. 하지만 최근 몇 년 사이, 전 세계를 완전히 바꿔놓은 새로운 흐름이 등장했습니다. 바로 '생성형 AI(Generative AI)'입니다. 식별하고, 계산하고, 판단하는 것을 넘어, 텍스트, 이미지, 음악, 프로그램 코드까지 ‘새로운 콘텐츠를 만들어내는 능력’을 갖춘 AI입니다.
생성형 AI는 말 그대로 새로운 데이터를 생성하는 AI입니다. 인간이 추상적이고, 예술적 사고나 언어와 음악적인 표현을 통해 무언가를 만들어내듯, 모델이 학습한 내용을 바탕으로 새로운 문장, 새로운 이미지, 새로운 코드를 만들어냅니다.
기존의 전통적인 머신러닝은 이메일이 스팸인지, 소비자가 추가로 구매할 상품을 추천하는 방식으로 입력한 데이터에 따른 분류와 예측을 수행했습니다. 반면 생성형 AI는 전혀 다른 질문에 답합니다.
“문장을 이어서 만들어줘.”
“이런 상황을 바탕으로 새로운 기획 아이디어를 제안해.”
“이런 사항의 이미지를 그려줘.”
“이 코드를 작성해.”
모델은 기존 데이터의 의도를 이해한 뒤, 그 데이터와 의도를 확률적으로 확장하여 새로운 결과물을 만들어냅니다. 즉, 생성형 AI는 단순한 ‘자동화의 도구’가 아니라, 창작의 파트너로 진화한 것입니다.
그렇다면 생성형 AI는 어떻게 이렇게 복잡한 창작 활동을 수행할 수 있을까요? 그 중심에는 트랜스포머(Transformer) 구조가 있습니다. 2017년 Google의 연구원들이 발표한 이 구조는 AI 연구의 혁신이었고, 지금의 GPT, Claude, Gemini, LLaMA 같은 모델들도 모두 이 트랜스포머 기반입니다.
1) 핵심 원리: ‘문맥을 이해하는 능력’
트랜스포머는 '어텐션(attention)'이라는 메커니즘을 활용해 문장 전체의 관계를 파악합니다. 예를 들어 “은행에서 돈을 인출했다”라는 문장에서 ‘은행’은 금융 기관을 의미한다는 맥락을 이해하는 식이죠. 단어 하나만 보는 것이 아니라, 전체 문맥을 동시에 바라보며 의미를 추론합니다. 이 능력이 생성형 AI의 품질을 결정합니다.
2) 확률적 토큰 생성
생성형 AI의 텍스트 생성은 사실 ‘다음 단어가 될 확률’을 계산하는 과정입니다. “오늘 날씨가" 다음 단어가 “맑다”일지 “춥다”일지 "맛있다" 일지는 모델이 학습한 방대한 데이터를 기반으로 확률적으로 선택됩니다. 이 단순한 과정이 수백억 번 반복되면, 사람처럼 자연스러운 문장이 생성됩니다.
3) 무지막지하게 큰 파라미터(Parameters)
파라미터는 모델이 학습을 통해 기억하는 규칙의 개수로 이해할 수 있습니다. 이 규칙이 기존의 모델들과는 차원이 다르게 큽니다. GPT-3는 약 175억 개이고, 중국의 AI 스타트업 문샷 AI(Moonshot AI)가 공개한 Kimi K2 같은 모델은 1조 개의 파라미터를 보유하고 있습니다. 파라미터가 많다는 것은 더 많은 패턴을 이해하고 더 복잡한 생성 작업을 수행할 수 있다는 뜻입니다.
4) 프롬프트, 임베딩, 벡터
생성형 AI가 입력을 이해하는 과정에도 중요한 기술이 있습니다.
- 프롬프트 : AI에게 던지는 지시문
- 임베딩 : 단어를 숫자 벡터로 변환하는 과정
- 벡터 공간 : 의미가 가까운 단어들이 서로 가까운 위치에 배치되는 공간
덕분에 AI는 “사과”와 “과일”이 의미적으로 가깝다는 사실을 수학적으로 이해할 수 있습니다.
생성형 AI는 하나의 기술이 아니라, 다양한 모델 종류로 구성된 하나의 큰 생태계입니다. 크게 세 가지 유형이 있습니다.
1) 텍스트 생성 모델
가장 익숙한 형태로, 자연어 처리와 대화 형식의 생성 작업에 특화되어 있습니다. 기획서 작성, 분석 보고서 초안, 이메일 자동 생성 등 기업 환경에서 가장 실용적인 유형입니다. 가장 많이 사용되는 형태로, OpenAI의 GPT 계열이 대표적입니다.
2) 이미지와 비디오 생성 모델
이미지는 주로 확산(diffusion) 모델이 사용됩니다. 노이즈에서 시작해 점점 이미지를 정교하게 복원하는 방식으로 동작하죠. 이 덕분에 최근에는 사진과 분간이 어려울 정도의 고품질 이미지가 생성됩니다. Diffusion과 GAN 기반의 모델들이 있습니다.
3) 멀티모달 모델
멀티모달 모델은 텍스트, 이미지, 오디오 등 여러 형태의 정보를 동시에 이해하고 생성합니다. 예를 들어 텍스트 설명을 기반으로 이미지와 음성을 동시에 만드는 식입니다. 제품 설명과 제품 이미지로 브로셔를 자동으로 제작하고, 동영상의 내용을 텍스트로 요약 정리하거나, 설명과 이미지의 고객 문의를 자동으로 응답하기도 합니다.
생성형 AI는 단순히 모델의 성능을 높이는 기술이 아닙니다. 기업이 콘텐츠를 만들고, 업무를 설계하고, 고객과 대화하는 표현 방식 자체를 바꾸는 기술입니다. 앞선 AI가 “판단과 자동화”의 시대였다면, 생성형 AI는 “창작과 협업”의 시대를 열었습니다.
참고
1) Generative artificial intelligence. https://en.wikipedia.org/wiki/Generative_artificial_intelligence
2) Attention Is All You Need. https://arxiv.org/abs/1706.03762
3) Transformer. https://en.wikipedia.org/wiki/Transformer_(deep_learning)
4) Kimi K2: Open Agentic Intelligence. https://arxiv.org/abs/2507.20534
5) Diffusion model. https://en.wikipedia.org/wiki/Diffusion_model
6) Generative Adversarial Networks. https://arxiv.org/abs/1406.2661
7) Multimodal interaction. https://en.wikipedia.org/wiki/Multimodal_interaction