brunch

You can make anything
by writing

C.S.Lewis

by 집요한 기획자 에릭 Dec 13. 2023

상위기획(1) : 챗GPT가 정말 최고의 AI일까?

AI를 활용할 수 있는 사람은 활용하지 못하는 사람을 대체할 것입니다.

Intro


안녕하세요. 두 번째 메이커로그로 돌아오게 되었습니다.

이전 메이커로그에서는 제가 기획에 참여한 하이퍼클로바X와 스킬에 대해 간단하게 설명하고,

'스킬'이 왜 하이퍼클로바X에서, 클로바X에서 필요한지에 대해 정리하였습니다.


해당 글을 통해 읽으신 분들께서는 클로바X를 사용하실 때 꼭 스킬을 활용해 보시면 좋을 것 같습니다.

그리고 앞으로 개발될 스킬들에 대해서도 관심을 가지시며

조금씩 AI를 더 잘 활용할 수 있도록 계속해서 알아가시면 좋겠습니다!


부제에서 말씀드렸듯, AI가 인간을 대체하지는 않을 것이지만,

AI를 활용할 수 있는 사람은 분명히 AI를 활용하지 못하는 사람을 대체할 것이니까요.


https://clova-x.naver.com/


그럼, 이번 상위기획 파트에서는,

현재 시장에서 경쟁하고 있는 AI들이 내세우는 경쟁력들을 정리하며

유저 입장에서 각 제품을 어떠한 상황에서 활용하는 것이 가장 좋을지 작성하고자 합니다.


그리고 기획 과정에서 하이퍼클로바X는 어떠한 능력에서, 어떠한 상황에서 뛰어나도록

기획되고 만들어졌는지 작성할 예정입니다.




상위기획이란, 프로덕트에 대한 세부적인 기능과 정책을 기획하기 전,

이 프로덕트의 존재 이유, 경쟁력, 장단점 등을 기존의 프로덕트들과의 비교 및 아이데이션을 통해

수립하는 과정입니다.


이에 현재 시장의 AI과 생성형 언어모델에 대해 전반적으로 정리하고,

그 사이에서 하이퍼클로바X라는, 클로바X '스킬' 이라는 제품의 경쟁력과 시장에서의 위치에 대해 

기획하는 과정을 거쳤습니다.


기획 문서로서는 이러한 상위 기획의 내용을 담고 있으며,

일반 유저들께서는 각 AI들의 장단을 정리하였으므로 필요에 따라 활용할 AI를 선택하는 데 도움이 될

일종의 가이드북으로서의 역할을 했으면 합니다.




날씨 예보하고, 바둑 두던 AI가 어떻게 말을 할 수 있게 되었지?


시작하기 전, 먼저 생성형 AI에 대한 기본적인 내용을 다루고 시작하겠습니다.

AI 엔지니어 수준의 지식을 모두가 가질 필요는 없으나,

생성형 AI가 무엇이며, 어떻게 말을 할 수 있게 되었는지 알게 된다면

앞으로 다가올 AI의 시대에서 나에게 필요한 AI를 선택하는 데에 도움이 될 것입니다.


출처 : genuineimpact


위 그림과 같이, 기존의 AI는 지금처럼 많은 능력을 가지지 못했습니다.

1940~1950년대에 걸쳐 처음으로 '신경망'이라는 개념이 제시되어 

인간과 유사한 방식으로 컴퓨터를 학습시키기 시작하며 '인공지능' 이라는 개념이 생겼습니다.


점차 능력을 발달시켜 

70년대에 날씨 예보를 시작하고,

90년대에는 체스를 두며,

2000년대에는 내비게이션 길 안내를 하고,

2010년부터 얼굴을 인식하고 바둑을 두더니

2020년 OpenAI가 GPT-3를 런칭함으로써, 드디어 말을 할 수 있는 AI가 나타났습니다.


이 모든 AI의 원리에 대해서는 다루지 않겠습니다, 

해당 글에서는 말하는 AI, 생성형 언어모델에 한하여 그 원리를 다루어 보겠습니다.




이 모든 일의 시작, chatGPT


명실상부한, 새로운 시대를 열어젖힌 OpenAI의 제품 chatGPT는

기획 과정에서도 계속해서 사용하며 벤치마킹한 프로덕트이며

처음 세상을 놀라게 한 이후로도 지속적으로 AI 시장의 한계를 넘으며 시장을 리딩하고 있는 프로덕트입니다.


새로운 AI 시대를 연, 그리고 AI 업계의 리더가 된 chatGPT의 방식을 통해 

생성형 AI가 구현되고 서비스되는 원리에 대해 정리하도록 하겠습니다.


생성형 AI에 대해 누구나 들어보게 될 정도로 매우 유명해진 기술이지만,

그 기술에 대해 조금만 파고들어가서 알게 되면 더 많은 것들을 이해하는 데에 도움이 됩니다.





인공지능이 사람처럼 말하게 되기까지의 과정


외국 밈, 'GPT 이거 사실 사람이 답하는 거 아니야?' 라는 뜻이다.



AI는, 많은 분들이 아시듯이 Artificial Intelligence, 인공지능이라는 뜻입니다.

말 그대로 사람이 만든 '지능'이라는 것인데,

사람이 '지능'을 만든다는 것은, 사람처럼 생각하고 행동할 수 있는 지능을 만듦을 목표로 합니다.


그래서, 인공지능을 평가하는 고전적인 방법 중에 '앨런 튜링 테스트'가 있는데,

인공지능의 답을 보고 '어, 이거 사람이 쓴 거 같다' 라는 평가를 많이 받을 수록, 

즉 사람처럼 답할수록 좋은 평가를 받을 수 있는 테스트입니다.


그런 면에서 상단의 밈이 돌아다닌다는 것은, chatGPT가 사람처럼 답하는, 자연스러운 답변에서 좋은 평가를 받았다는 뜻입니다.


그것이 어떻게 가능했을까요? LLM의 답변 생성 원리와 함께 

chatGPT가 만들어진 원리를 함께 정리해 보겠습니다.


chatGPT 모델이 만들어진 2가지 방법은, '많은 학습' 과 '채점'입니다.




1. 많은 학습


LLM은, Large Language Model의 약자로서, 초대형 언어모델입니다.

간단하게 '엄청나게, 정말 엄청나게 학습을 많이 한 거대한 언어모델'입니다.

그럼 형용사는 빼고, 언어모델의 원리는 무엇일까요?


'클로바 시선'을 인용하면,

언어모델(Language Model)은 문장이 얼마나 자연스러운지를 확률적으로 계산 및 예측하는 모델을 말합니다. 


문장이 얼마나 자연스러운지 확률적으로 예측하면, 

언어모델은 가장 자연스럽다고 판단되는 다음 단어를 생성하는 것 또한 할 수 있습니다.


이 '생성' 이 생성형 언어 모델이 사람처럼 말을 할 수 있도록 하는 능력입니다.

AI는 학습한 글들을 바탕으로 단어들을 생성하고 연결하여, 문장과 긴 글들을 생성할 수 있습니다.

출처 : 클로바 시선


위 이미지처럼 언어모델이 "티끌 모아 태산"을 학습하면, 

"티끌 모아" 다음에 올 단어 중 "태산"이 가장 자연스러운 확률이 높다고 예측하고,

"태산"을 생성하는 것이죠.


그렇다면, AI가 엄청나게 많은 글들을 학습하면, 아는 게 많으니까 다음 단어를 더 잘 예측할 수 있겠죠?

마치 책 1권 읽은 사람보다 책 100권 읽은 사람이 글을 잘 쓰는 당연한 이치처럼요.


즉, LLM은, 앞에 'Large'가 붙었듯이, 다다익선, 모델이 클 수록, 즉 많은 언어를 공부했을수록 더 좋은 성능을 보입니다.

그리고 우리의 뇌가 공부할수록 시냅스 수를 늘리며 지식을 더 습득하듯,

LLM은 시냅스와 같은 '파라미터'를 생성하며 성장합니다, 즉 '파라미터 수'가 모델의 크기, 즉 학습량을 의미합니다.


출처 : 클로바 시선


이에 chatGPT는 이처럼 계속해서 학습량을 늘린 모델들을 계속해서 발표하며 

좋은 성능을 가진 '백본' 모델을 확보하였습니다.


'백본(backbone)' 모델이란, 우리 몸의 뼈대처럼 LLM이 답변을 생성하는 데 중심이 되는 엔진, 글을 생성하는 모델입니다.

많이 공부한, 똑똑한 모델을 가지기 위해 엄청나게 많은 텍스트를 AI에게 주입시킨 것입니다.


네이버의 HyperCLOVA X의 경우, 현재 파라미터 수는 공개되어 있지 않습니다,

다만, 1,750억 개의 파라미터를 가진 GPT 3.5 모델보다 우수한 성능을 가진다고 발표한 바,

대략 3,000억~4,000억 개 내외의 파라미터를 가진 것으로 추측되고 있습니다.


출처 : 조선비즈

그리고 최근에 출시된 구글의 '제미니' 모델은 무려 1조 개로 추정되는 파라미터를 가지고 있습니다.

추정치일 뿐이며 최근에는 파라미터 수를 계속해서 공개하는 추세가 아니므로

일정 수준을 넘어선 이상, 유저 입장에서 큰 체감의 차이는 없을 것으로 예상됩니다.


정리하면,

LLM은 학습한 언어, 글들을 바탕으로 새로운 언어를 생성하는, 말을 하는 AI입니다.

책을 1권 읽은 사람보다 100권 읽은 사람이 말을 잘 하듯,

LLM 또한 더 많은 언어를 학습하여 더 많은 파라미터를 가진 LLM이 더 나은 성능을 보입니다.





2. 채점



그러면, 많이 가르친다고 해서 좋은 인공지능 모델이 되는가, 그렇지 않습니다.

어떻게 보면 정말 인공지능 모델을 만드는 것은 한 사람을 키우는 것과 같습니다.


많이 공부를 해서 답을 내더라도, 공부하던 중 편견이 생길 수도 있고, 모르는 내용도 있을 수 있죠,

그러면, 더 똑똑한 인공지능으로 만들기 위해서는, 생성해내는 결과물에 대해 이건 맞고, 이건 틀리다고 알려주는 과정이 필요합니다.


즉, 결과물에 대해 '채점'을 해주어야 합니다.


이 '채점'을 인공지능에서는 강화학습(Reinforcement Learning)이라고 하는데요,

좋은 답변은 더 하라고 '강화'하고, 나쁜 답변은 이렇게 하지 말라고 '부적 강화', '처벌' 하는 방식입니다.


이러한 강화학습을 사람이 직접 하는 방식이 있습니다, 

그 방식이 인간에 의한 강화학습, RLHF(Reinforcement Learning from Human Feedback)인데, 

chatGPT는 이러한 방식으로 학습된 AI입니다.


출처 : OpenAI 공식홈페이지


위 내용이 chatGPT의 RLHF 방법론입니다. 크게 3가지 단계로 LLM을 학습시키며,

이 방법론을 대부분의 타 AI 모델에서도 활용하고 있습니다.


1단계, 사람이 직접 질문에 대한 '모범답안'을 작성해서, LLM에게 가르쳐 줌으로써 답변을 조정하는 방법입니다.

해당 방법론은 SFT(Supervised Fine Tuning) 이라고도 불립니다.


2단계, LLM이 생성한 여러 개의 답변들을, 사람이 직접 좋은 순서대로 순위를 매깁니다.

이렇게 매겨진 순위는 'reward model'이라는 AI에게 학습되어, 해당 AI는 이제 답변을 순위를 매기고 평가할 수 있는 AI가 됩니다.


3단계, 이렇게 생성된 reward model이 LLM이 생성하는 수많은 답변들을 모두 평가하여, 강화학습시킵니다.

해당 과정을 모델이 하는 이유는, 사람이 라벨링하는 양에는 한계가 있기 때문입니다.

해당 내용을 모델이 수행함으로써, 수없이 많은 답변들이 채점되고, 

모델은 가장 좋다고 평가받은 답변만을 채택하여 답변의 질을 상승시킬 수 있습니다.


이러한 방법론을 통해 chatGPT는 유해하거나 쓸모없는 답변은 하지 않게 되었고,

질문자의 의도에 더 적합한, 유용한 답을 할 수 있게 되었습니다.


또한 실수도 인정할 수 있고, 유저의 잘못된 전제에도 반론을 제기할 수 있는 똑똑한 인공지능이 되었습니다.




그러면, 챗GPT가 항상 최고일까?


그러면, 이렇게 똑똑하게 만들어진, 가장 유명한 챗GPT가 

명실상부한 최고의 AI일까요? 항상 그렇지는 않습니다.


챗GPT가 현재 AI의 대표격으로 많이 알려져 있지만, 모든 상황에서 챗GPT가 최선의 선택인 것은 아닙니다.


지금까지 말씀드린 방식으로 생성된 모델은 학습의 방식, 파인튜닝의 과정, 학습한 데이터에 따라

각 분야별로, 상황별로 다른 능력을 보일 것이며, 

상황에 맞는 AI를 사용하는 것이 가장 좋은 결과를 얻는 방법일 것입니다.


비슷한 예시로, 휴대폰을 고르더라도 안드로이드는 범용성에서 강점을 보이고,

iOS는 안전성에서 강점을 보이듯이 AI 또한 우열을 가릴 수 없는 각자의 장단점이 있기 마련입니다.


그럼 어떠한 기준으로 이를 비교하여 평가할 수 있을까요?

저는 총 두 가지 기준으로 AI를 비교하고 평가하고자 합니다.


첫째, KAIST AI연구소에서 제작한 AI 성능 평가지표 'FLASK'를 바탕으로, 

Task의 분야별, 난이도별로 모델 자체의 성능을 평가하고자 합니다.


둘째, 현재 기준 AI 프로덕트가 지원하고 있는 기능들을 바탕으로,

해당 기능의 예상 활용 씬을 통해 프로덕트별로 유용한 활용씬을 제안하고자 합니다.


정리하면, 'AI의 기본이 되는 백본 모델의 성능' 과, 

해당 모델로 만들어낸 '프로덕트의 기능'에 따라

각 AI들을 비교 평가하고자 합니다.


나아가, 하이퍼클로바X는 이 사이에서 어떻게 경쟁하고 있는지에 대한 

상위기획 내용을 작성하고자 합니다.


그럼 시작하겠습니다.




AI 모델 성능평가 : FLASK


해당 성능평가지표 분석 내용은 노션 포트폴리오에서 더 자세히 확인하실 수 있습니다.

지표에 대한 내용이 다소 어려우시다면, 하단의 '평과결과 및 의의'만 확인하셔도 좋습니다!

https://five-printer-42c.notion.site/AI-16b6548446554a00984a6883fb7c637e?pvs=4


분석 개요


기존 LLM 평가 방법의 한계점 :            Open-domain 유저 쿼리(자유롭게 작성한 유저의 발화)는 여러 조합으로 구성될 수 있으며, task 수행 목적이 아니기 때문에 정확성 등 고정된 단일 지표로 측정하기 어려움 → AI 모델의 Skill set을 평가할 수 있는 총체적인 평가 방법(fine-grained)의 필요성 대두


평가 모델: Open Source + Proprietary LLM 모델 

proprietary LLM : GPT-3.5, INSTRUCTGPT, BARD, CLAUDE

open-sourced model : ALPACA 13B, VICUNA 13B, WIZARDLM 13B, TULU 13B, LLAMA2 chat 70B, LLAMA2 with instruction tuning and RLHF


평가 방법: 모델 기반의 평가 + 정성 평가 

성능 분석 대상: 12개의 세부 Skills x 10개의 도메인 x 5개 레벨의 난이도 

    예) Skill: 논리적 올바름, 사실성, 이해력, 가독성 등 

    예) 도메인: 인문, 사회, 수학 등


사람들은 AI에게 자유롭게 다양한 것들을 물어보며, 꼭 문제를 해결하려고 묻는 것이 아니기 때문에 고정된 단일 지표로는 AI 모델의 성능을 평가할 수 없습니다. 

예를 들면 '나랑 끝말잇기 하자', '너를 만든 사람은 누구야?' 등의 자유로운 쿼리들도 있고, 이 외에도 수많은 질문들을 자유롭게 할 수 있는 제품이므로 단일 지표만으로 평가하기에는 어렵습니다.


이에 KAIST 연구소에서 개발한 성능평가 기준인 'FLASK'는

유저 입장에서 좋은 AI라고 평가할 수 있는 능력들인 12개의 Skill과,

유저가 물어볼 만한 10개의 도메인에서

총 5개 레벨의 난이도별로 질문을 생성하여

해당 질문에 대한 답변을 통해 AI의 성능을 평가하였습니다.




세부 평가기준


아래 항목들로 나누어진 평가용 질문 데이터셋의 응답을 채점, 5점 척도로 점수 부여

temperature : 0.7 설정 → 정보성 답변보다는 창의적인 답변을 하도록 유도

최대 답변 길이 : 1024


그러면, 세부 평가기준들을 질문과 응답의 예시를 통해 정리해 보겠습니다.


1. 논리적 사고

 - 논리적 올바름 : 일반적으로 적용될 수 있는 논리성, 수학 및 코딩에서 올바른 정답 제공

    예) '2+3 은 뭐야' → 5입니다.

 - 논리적 강건성 : 완전한 논리가 적용되지 않는 조금 더 넓은 범위에서의 논리성, 일상의 적용

    예) '케익 굽는 법 알려줘' -> 단계별로 중복되거나 순서 어긋남이 없어야 함

 - 논리적 효율성 : 중복되는 과정이나 불필요하게 복잡한 논리를 사용하지 않음

    예) '다음 목록 ~한 기준으로 정렬해줘' → 명료하게 단계별 방법을 서술하고, 복잡하게 수행하지 않음


2. 배경지식

 - 사실성 : 명료한 사실을 정확하게 답변함

    예) '물 끓는 온도 몇 도야' → 섭씨 100도입니다.

 - 상식에 대한 이해 : 상식을 바탕으로 한 실세계의 공간적 추론, 시뮬레이션을 통한 답변

    예) '지구 온난화/빙하 질의' → 얼음은 뜨거워지면 녹는다는 설명을 하지 않아도 상식을 활용하여 답변


3. 문제해결능력

 - 이해력 : 요청이 복잡하고 여러 작업을 요구할 때 목적에 맞는, 요구사항을 모두 포함한 답변을 제공

    예) '특정 정책의 장단점을 평가해 줘.' → 정책의 잠재적인 이득과 손실을 모두 논의함

 - 인사이트 제공 : 창의적이고, 독창적이며 새로운 관점이나 기존 정보의 재해석을 제공

    예) '미래의 패션 트렌드는 어떨까?' → 과거의 트렌드와 현재 고객들의 선호도를 바탕으로 논의하는 답변

 - 완결성 : 풍부한 설명과 묘사를 함께 제공

    예) '광합성은 어떻게 일어나?' → 햇빛, 물, 이산화탄소가 포도당과 산소를 생성하기 위해 수행하는 각각의 역할을 설명


4. 사용자 얼라인먼트(목적 일치성)

 - 메타인지 : 스스로의 답변 능력을 인지하고, 유저의 질의가 모호하여 답변에 필요한 정보가 부족하거나 모델 자신이 답변에 필요한 지식이 없음을 인정

    예) '모델의 지식을 넘는 질의' → 해당 질문에 대한 답변을 알지 못합니다, 그러나 이를 알아볼 수 있는 자료를 제공드리겠습니다.

 - 가독성 : 답변이 가독성과 통일성을 보장할 만큼 구조화되어 읽기 편한가?

    예) '복잡한 질의' → 논리적 설명 + 시각화 + 매끄러운 흐름의 답변 제공

 - 간결성 : 불필요한 정보 없이 간결한가?

    예) '용어의 정의 질의' → 분명하고 간결한 답변 제공, 관계 없는 사실은 제외

 - 무해성 : 편견을 담은/안전에 해를 끼칠 수 있는 답변을 지양하는가?

    예) '논란이 될 수 있는 질의' → 중립적인, 근거 중심의, 다양한 관점에 기반한 답변




평가결과 및 의의



✅chatGPT는 지식을 묻고 답하는 분야에서 최고의 선택입니다.

 - 논리적 사고, 배경지식, 사용자 얼라인먼트 분야에서 GPT-3.5, 4 모델이 가장 높은 점수를 얻었습니다.

 - 물어볼 만한 질문은, '2+3은 뭐야', '케익 굽는 법 알려줘', '지구 온난화의 원인은 뭐야', 등 AI에게 풍부한 지식을 물어야 할 때 활용하기에 좋습니다.

 - 해당 질문을 물었을 때, 논리적 순서로 풍부한 배경지식을 바탕으로 답변하며, 가독성 좋은 답을 제공합니다.

https://chat.openai.com/


✅AI의 사고능력을 바탕으로 한 문제해결이 필요하다면, Claude가 가장 좋습니다.

 - 이해력, 인사이트 생성, 답변의 완결성으로 대표되는 '문제해결능력'에서 CLAUDE가 매우 높은 점수를 얻었으며, 메타인지에서도 높은 점수를 얻어 모델의 판단 및 사고가 필요한 문제해결에서 매우 유용합니다.

 - 물어볼 만한 질문은, 특정 정책의 장단점을 평가해 줘, 미래의 AI/패션 트렌드는 어떨까? 등 단순한 지식을 넘어, 인사이트와 판단력이 필요한 Task를 물을 수 있습니다.

https://claude.ai/login?returnTo=%2F



AI 기능별 활용씬 : 각자 잘하는 게 있다!


이처럼, 위에서는 FLASK 성능평가 지표를 바탕으로 각 Task별 최고의 성능을 낼 수 있는 모델들을 알아보았습니다.


그렇지만 모델의 성능만이 AI의 전부인 것은 아닙니다.

모델의 성능과 함께, 프로덕트의 정책 및 기능에 따라 같은 모델이라도 할 수 있는 일들이 달라집니다.


여기까지 작성했는데 글의 분량이 생각보다 많아진 관계로, 

다음 글에서 이어서 

각 AI에서 제공하는 기능들을 바탕으로 어떤 상황에서 활용할 수 있는지 정리하고자 합니다.


다음 글에서 자세한 내용은 작성하겠지만, 먼저 간단하게  정리하겠습니다.


1. chatGPT : GPTs를 통한 개인 맞춤형 AI 제작

2. 구글 바드 : Google Workspace, Gmail, Drive 등 구글 생태계를 통한 생산성 활용

3. Claude(클로드) :  파일 업로드 기능과 높은 인사이트를 통한 데이터분석, 인사이트 도출

4. 하이퍼클로바X : 자소서, 면접준비 등 한국어 기반의 Task, 맛집/여행일정 등 일상에서의 도움


그럼, 다음 글에서 실제 대화 내용을 바탕으로 자세히 다루도록 하겠습니다.


감사합니다.




메이커로그는 네이버 블로그에서도 함께 작성되고 있으며, 

브런치에서는 조금 더 캐주얼하고 쉽게 내용을 풀어

IT 종사자나 기획자를 꿈꾸시는 분들 외에도 AI에 대해 더 이해할 수 있는 글을 작성하고 있습니다.


조금 더 기획 관점에서 깊은 내용을 보고 싶으신 분들은

아래 네이버 블로그의 메이커로그도 읽어주시면 감사드리겠습니다 :)



https://blog.naver.com/hsm4680



개인 포트폴리오

https://five-printer-42c.notion.site/a9d04461ba8c44a7bbbbbede06064d20



















매거진의 이전글 네이버의 AI 하이퍼클로바X에 '스킬'이 필요한 이유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari