4. ChatGPT와 LLM을 알아보자

전문 지식은 필요 없지만, AI를 '어느 정도' 이해하고 싶은 당신께

by 먀 ai

몇 년 전만 해도, '당신은 AI를 사용하나요?'라는 질문에 '그렇다'라고 답하는 사람이 많지 않았습니다. 이미 유튜브에서 영상을 추천해 주고 스노우와 같은 카메라 앱을 통해 재밌는 사진을 찍을 시절이었는데도 말이지요. 그만큼 대중은 인공지능에 익숙지 않았는데요. 이제는 많이들 AI를 친숙하게 여깁니다. 일등공신은 뭐니 뭐니 해도 ChatGPT라는 점은 부정할 수 없습니다.


ChatGPT가 무엇인지 알기 위해서는, 먼저 알아야 하는 개념이 있습니다. 바로 LLM과 GPT인데요. 차근차근 살펴보겠습니다.


LLM, GPT, 챗GPT... 서로 무슨 사이일까?

구조를 간단히 정리하자면, LLM이라는 큰 기술 범주 안에 GPT가 있고, 그 GPT를 기반으로 만든 '서비스'가 ChatGPT라고 할 수 있습니다.

LLM이 '노이즈 캔슬링 기술'이라면 챗GPT는 '에어팟'에 해당하고, GPT는 애플이 에어팟을 만드는 데에 사용하는 특정 기술 이름이라고 볼 수 있습니다. 애플이 자사의 노이즈캔슬링 기술을 'iCancel'이라고 지었다고 가정해 볼까요? 누구든 노이즈캔슬링 이어폰을 만들 수 있지만, 제품을 '에어팟'이라고 부르고, 그 안에 사용되는 기술을 'iCancel'이라고 부를 수 있는 곳은 애플 한 군데밖에 없습니다.


즉, GPT와 챗GPT는 오픈AI가 소유한 상표명입니다.


LLM(대형 언어 모델)이란 무엇일까?


우선, LLM은 Large Language Model의 약자입니다. 말 그대로, "엄청 큰 규모로 만들어진 언어 모델"이라는 뜻이지요.


기본적으로, 언어 모델(Language Model)은 사람이 쓰는 말을 이해하고, 이어지는 말을 예측하는 모델입니다. 사람이 쓰는 말을 '자연어'라고 표현하기도 하는데요. 규모가 큰 거대언어모델, 즉 LLM은 인간처럼 자연어를 배우고 이해하고, 또 자연어로 답하는 AI라고 볼 수 있습니다.


LLM의 가장 기본적인 작동 방식은 '다음 단어 예측'입니다.

수백억~수천억 개의 문장과 단어를 통해 패턴을 학습한 LLM은, 지속적으로 다음에 올 가능성이 높은 단어를 예측해서 제공하기 때문에, 인간이 말하는 것처럼 문장을 생성할 수 있습니다. 말을 자연스럽게 하지만, 착각을 하면 안 됩니다. LLM은 인간처럼 생각을 해서 말을 하는 게 아니라, 통계적으로 가장 그럴듯한 단어를 예측해 이어 붙이는 인공지능 모델일 뿐입니다.


GPT란 무엇일까?


GPT는 오픈AI에서 개발한 대형 언어 모델(LLM) 시리즈입니다. 현재까지 GPT-1부터 GPT-4까지 여러 버전이 발전해 왔는데요. Generative Pre-trained Transformer의 약자입니다.


약자를 하나씩 풀어볼까요?

Generative(생성하는) → 새 글, 새 답변을 만들어내는 능력

Pre-trained(사전 학습된) → 대량의 데이터를 미리 학습시켜 놓은 상태

Transformer(트랜스포머 구조) → 언어 이해 기술로, 문장 전체를 한 번에 보고 단어들 간 관계를 파악하는 구조 (문맥 이해에 탁월)


즉, '대량의 텍스트를 미리 학습해, 새롭고 자연스러운 문장을 뽑아내는 인공지능 모델'입니다.


GPT 시리즈는 계속 발전해 왔습니다.


1. GPT-1: 작은 데이터로 실험 (2018년)

2. GPT-2: '와, 이거 꽤 자연스럽네?' 하고 주목받음 (2019년)

3. GPT-3: 본격 대중화, 아주 자연스러운 대화 가능 (2020년)

4. GPT-4: 더 똑똑하고, 더 신중하게 대답 (2023년)


현재 우리가 사용하는 ChatGPT 무료 버전은 GPT-3.5, 유료 버전은 GPT-4 Turbo를 기반으로 작동합니다. GPT-4 Turbo는 GPT-4 기반으로 만들어진 더욱 빠르고 효율적인 모델인데요. GPT-4와 성능은 유사하지만, 속도와 비용 면에서는 더 최적화된 형태라고 볼 수 있습니다. 단, GPT-4 Turbo가 GPT-4와 완전히 동일한 모델인지는 알려진 바가 없어요!


그럼 이제, 대망의 ChatGPT에 대해 알아볼까요?


ChatGPT란 무엇일까?

ChatGPT는 이름 그대로, chat(대화)하는 GPT입니다.


GPT 모델을 기반으로, 사람과 자연스럽게 대화하도록 특별히 훈련시킨 오픈AI의 서비스라고 볼 수 있는데요. GPT는 언어 모델로서 텍스트 데이터로 다양한 일을 할 수 있지만, ChatGPT처럼 자연스러운 대화는 어려울 수 있습니다. 반면, ChatGPT는 대화에 특화된 모델이기 때문에 우리와 편하게 소통이 가능합니다.


ChatGPT는

GPT 모델을 기반으로 하고,

대화 데이터에 추가 훈련(Fine-tuning)을 했고,

RLHF(인간 피드백을 통한 강화학습) 기법으로

좀 더 '사람처럼' 친절하게, 일관성 있게 답변하도록 만들었습니다.

*위에 나오는 용어들은 나중에 천천히 알아볼 테니 걱정하지 마세요!


쉽게 말해, ChatGPT는 GPT 모델에 예절 교육과 대화 기술을 더한 버전입니다. GPT는 언어 모델로서 다양한 작업에 사용될 수 있지만, 대화에 특화돼 있진 않기 때문에 무뚝뚝하게 정보를 전달할 수 있습니다. 하지만 ChatGPT는 대화 흐름을 고려하고, 친절하고, 맥락을 잘 이어가려고 해요. 가끔 골 때리는 말투로 우리를 당황시키기도 하지만요!





Q. 모든 LLM은 GPT인 걸까?

아니에요. 모든 GPT는 LLM이 맞지만, 그 반대는 아닙니다. GPT는 오픈AI가 만든 LLM 시리즈의 이름일 뿐이에요. Google의 Gemini, Meta의 LLaMA, Anthropic의 Claude도 전부 LLM이지만 GPT는 아닙니다.


Q. GPT를 오픈AI가 만들었다면, 다른 회사는 'GPT'라는 이름을 쓸 수 없는 걸까?

맞아요. GPT는 오픈AI가 만든 고유한 모델 시리즈의 이름이기 때문에, 명칭 자체는 브랜드나 상품명에 가깝습니다. 갑 티슈와 크리넥스 개념으로 생각할 수 있어요.


Q. 그럼 GPT를 만드는 기술 자체를 사용 못 하는 걸까?

아니에요. GPT를 만드는 기술 개념은 공유될 수 있어요. ‘트랜스포머 구조’나 ‘사전 학습’ 같은 기법은 누구나 사용할 수 있는 보편적인 방식이니까요. 하지만 같은 방식을 썼더라도, 오픈AI 외에는 모델을 'GPT'라고 부를 수 없습니다.


Q. ChatGPT는 성능이 더 좋은 GPT인 걸까?

아니에요. ChatGPT는 GPT라는 언어 모델 위에 대화 능력을 덧붙인 형태라고 볼 수 있는데요. GPT 모델을 기반으로 만들어졌기 때문에, GPT보다 '성능이 더 좋다'라고 보기는 어렵습니다. 다만 '대화'를 특히 더 잘하도록 설계되어 있을 뿐이지요. 지능은 같지만, 말투나 표현방식이 다르다고 볼 수 있습니다.




우리에게 익숙한 이름인 ChatGPT와 포괄적인 기술 개념인 LLM, 그리고 GPT에 대해 알아보았습니다.


그런데 ChatGPT에게 건네는 말도 나름의 전문 용어가 있다는 사실, 알고 계신가요? 다음 글에서는 프롬프트파인튜닝 등, LLM의 성능을 좌우하는 요소에 대해서 알아보겠습니다.


전문적인 지식까지는 아니어도, AI를 어느 정도 이해하고 싶으시다면 다음 주 글도 기대해 주세요!



먀. AI 뉴스레터를 구독하시면 매주 재밌는 AI 이야기를 받아보실 수 있어요!



keyword
이전 04화3. 데이터를 알아보자