brunch

You can make anything
by writing

C.S.Lewis

by Dan Lee Jun 29. 2023

ChatGPT 이모저모

다들 AI 얘기뿐이다.

올해 시장 자체가 얼어있어서 많은 어려움을 겪고 있는데 ChatGPT 관련만 유일하게 아주 호황이다.

원리와 구조에 대해 많은 자료들이 쏟아져 나오고 이제는 새로운 서비스화된 상품들이 출시되고 있다.

나름 여러 자료를 검토해 보고 정리한 자료를 공유해 본다.




ChatGPT 모델 정의 

보통 사람이 대화를 하는 것처럼 자연어 처리 기술을 사용하여 질문과 답을 이어나가는 모델

입력된 문자의 다음 단어를 예측하는 언어 모델 

전자화된 대규모 데이터셋의 학습을 통해 생성되어 자연스러운 대화 가능 

인간 피드백을 통한 강화학습(RLHF, Reinforcement Learning from Human Feedback) 방식


OpenAI & MS 관계

MS는 OpenAI에 2019년도에 $ 10억 투자

추가로 2023년도 1월에 $ 100억(약 12조 3000억 원) 투자 발표, 투자는 수년간 진행 예정

투자로 인해 오픈 AI 지분 49% 취득 예정


학습 데이터 양(GPT3.5 기준)

학습한 데이터 570GB

매개변수 1750억 개

웹 크롤링 4,100억 개

논문, 보고서 등 웹 텍스트 190억 개

인터넷 기반 말뭉치 670억 개

인터넷 사전(위키) 30억 개


아키텍처  

입력 처리(Input Handling): 사용자의 입력 문장이 전처리 과정을 통해 모델로 전달 문장은 토큰화 및 특정 형식으로 변환되어 모델이 이해할 수 형태로 변환

언어 모델(Language Model): GPT3.5 언어 모델은 입력 문장을 이해하고 응답을 생성 이전 대화 문맥과 사용자의 입력을 고려하여 다음 응답을 예측 대화의 일관성과 의미를 유지 및 자연스러운 응답을 생성할 수 있는 능력 보유

대화 관리(Dialogue Management): 대화의 흐름과 응답의 일관성을 관리하기 위한 대화 관리 기능 포함 사용자의 이전 입력과 모델의 응답을 추적 및 적절한 대화 응답을 유지하여 필요한 정보 제공

출력 생성(Output Generation): 언어 모델이 생성한 텍스트는 출력 생성단계에서 후처리 되어 최종 응답으로 제공 특수 토큰을 처리하거나 텍스트의 일부 삭제 등의 후처리 작업 수행


활용 범위 

챗봇 개발, 언어 번역 & 교정, 프로그래밍, 모든 종류의 창작물 작성, 텍스트 요약, 자료 정리, 분석 & 시사점 도출 등 연구 논문 작성, 일반인의 법률 서비스 접근 기회 확대 및 이용 편의성 제공, 법률 전문 자료 분석, 건강, 시술, 관련 상황별 맞춤 전문 건강 관련 정보 제공, 신약 개발 연구 활용 등


한계점 

기능적 요소 

공정성 & 정확성 2021년 이전 데이터 학습으로 이후 사건에 대해 부정확함, 대규모 학습 데이터를 기반으로 답변을 하기 때문에 잘못된 정보나 편향된 콘텐츠를 전달 가능 

인간 피드백을 통한 강화학습(RLHF) 적용한 결과 인간의 결함과 실수를 쉽게 모방할 우려 높음 

할루시네이션(hallucination) : AI가 존재하지 않는 환각을 보는 것처럼 없는 답변, 틀린 답변을 제시

사업적 요소 

클라우드 초기와 같이 서비스의 수익 모델이 뚜렷하지 않음 

ChatGPT 의의는 ‘생성 AI의 시대를 개막’했다는 점으로 생각하는 것이 바람직함


시사점 

위에 지적된 기능적 한계점은 기술로 극복될 것이다. 차별, 혐오 발언 등 보완이 필요한 부분에 정책이 세워질 것이고 아주 빠르게 기술적으로 대응될 것이다. 다양한 API와 Plugin 들이 출시되고 있고 GPT-4 출시로 초거대 AI 기술 진전은 생각이나 느낌보다 더 가속화되고 있다.


학습을 통해 지식을 습득하는 시대의 변화가 일어나고 있다. 대규모 기계 학습이 인간이 스스로 학습을 통해 지식을 쌓아가는 과정을 생략하게 하고 있다. 일정 분야에서는 그러한 노력이 필요 없는 세상이 시작되었다고 감히 말할 수 있게 되었다.


지식을 얻기 위해 노력이 줄어든다라는데 왠지 모를 서글픔이 느껴진다. 지식(知識)이란 ‘어떤 대상에 대하여 배우거나 실천을 통하여 알게 된 명확한 인식이나 이해’로 우리가 직접 경험 및 각종 미디어를 통해 전달되는 타인의 경험을 학습함으로써 스스로 해오던 영역이었는데.


돈을 지불하고 그 노력을 구입하는 사람과 그렇지 않은 사람과의 지식의 차이를 상상 이상이 될 것이고 기업에서 역시 데이터를 기반으로 한 인공지능이 더 나은 의사결정을 할 수밖에 없는 상황이 펼쳐질 것이다. 후진국과 선진국 그 어디에서도 인터넷만 되는 환경이라면 모든 사람이 평등한 환경을 제공받을 수 있는 영역은 IT의 Software 뿐이라고 확신하며 꽤 긴 시간을 살아왔는데 이제는 역대 극간을 만들어 주는 영역이 되었다는 것도 앞으로 큰 숙제를 남겼다는 생각이 든다.


X세대는 개인 컴퓨터 중심의 시대, M세대는 인터넷, 전자 상거래, SNS 중심의 시대, Z세대는 유튜브 등 미디어 활용의 중심의 시대 살았다면 다음 세대는 AI 중심의 시대를 시작하는 세대가 될 것이다.


*참고

[NIA] ChatGPT는 혁신의 도구가 될 수 있을까_2023

삼성SDS-ChatGPT-기술-분석-백서(Mar.2023)-last-updated-230405 등

작가의 이전글 토익 공부를 시작합니다.
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari