안녕하세요, 뤼튼 머신러닝 팀의 리드를 맡고 있는 '케빈'입니다.
회사의 업무용 협업 툴에서 가장 시끄러운 채널이 있습니다. 바로 ‘생성 AI(Generative AI, 이하 Gen AI)’ 관련 소식을 공유하고 토의하는 ‘Gen AI 인사이트’ 채널입니다. 팀원 모두가 관심 있게 본 오픈소스 프로젝트, 소식, 기사 및 논문 등을 가리지 않고 공유하고 있으며, 저 역시 해당 채널을 가장 시끄럽게 만드는 멤버 중 한 명입니다.
특히 3월은 Gen AI에 큰 변화가 있었던 한 달이었습니다. 매일 아침 일어날 때마다 어떤 소식이 저를 또 놀라게 할지 기대하고 설렜습니다. 한 달 동안 정말 많은 정보가 쏟아졌기 때문에 이를 잘 소화해서 뤼튼 내에 공유하기 위해 많은 노력을 했습니다.
이번 글에서는 3월에 뤼튼 내부에서 공유한 여러 정보 중 Gen AI 업계에 중요하고 큰 변화를 예고하는 소식들을 중심으로 설명해보겠습니다.
3월의 시작은 오픈AI의 ChatGPT API 공개였습니다. ChatGPT API는 기존 Completion API와 달리, 대화 기록을 기반으로 요청하는 메시지 구조로 되어있습니다. 역할을 ‘System’, ‘User’, ‘Assistant’로 나눌 수 있기 때문에 기존 ChatGPT에서 페르소나를 주입하는 명령어들을 System에, 실제 사용자가 입력하는 텍스트를 User에, AI의 제안을 Assistant로 배정하는 것이 일반적입니다. 요청마다 메시지 구성을 매번 새롭게 바꿀 수 있기 때문에 응용할 수 있는 방안이 여러 가지가 있을 것으로 예상됩니다.
ChatGPT API는 기존 GPT-3.5 모델과 다른 ‘토크나이저(입력 문장을 단어 또는 최소 단위로 쪼개고, 사전에 등록된 숫자로 변환하는 단계)’를 사용하는데요. 한국어 처리에 있어 더 적은 토큰을 소모하기 때문에 이전 GPT-3.5 모델보다 다양한 방면에서 사용할 수 있습니다.
ChatGPT API의 등장으로 주목할 부분은 두 가지입니다. 첫 번째는 ChatGPT에 검색 결과나 문서 정보를 주입할 수 있다는 점입니다. 검색 처리 기술, 문서 처리 기술이 수반된다면 해당 정보를 사전에 ChatGPT 메시지 구조에 통합하는 방식으로 해결할 수 있습니다. 따라서 메시지 구성 내 정보를 어떤 방식으로 주는지에 대한 엔지니어링 기술이 ChatGPT API를 잘 활용할 수 있는 경쟁력이 될 수 있을 것입니다.
두 번째는 전체 메시지를 관리하기 더 용이해졌습니다. 전체 대화에 허용되는 데이터는 결국 ‘4,096’ 토큰으로, 사용자의 요청 질의에 따라 필요한 대화만 잘 불러올 수 있으면 계속 지속하는 대화 경험을 제공할 수 있을 것입니다. 또 회사 입장에서는 대화를 계속 유지함으로써 비용 절감의 효과를 누릴 수 있을 것으로 보입니다.
지난 2월 메타에서 대규모 언어 모델인 ‘LLaMA(Large Language Model Meta AI)’를 오픈소스로 공개해 큰 화제가 되었습니다. 작은 파라미터(기계가 학습할 수 있는 성능 단위) 수의 모델이지만, 학습 데이터를 많이 늘려 오픈AI ‘GPT-3’, 구글 ‘PaLM(Pathways Language Model)’, 그리고 딥마인드의 ‘Chinchilla’와 비슷한 성능을 보였습니다.
놀랍게도 LLaMA가 공개된지 아직 한 달도 지나지 않아서 스탠퍼드 대학교의 한 연구팀에서 이를 파인튜닝(기계∙시스템 등의 미세 조정)한 모델을 공개했습니다. 바로 ‘Stanford Alpaca 7B’입니다. LLaMA 모델 중에서 파라미터가 70억 개로 가장 작은 버전으로 개발됐으며, GPT-3.5 모델인 ‘text-davinci-003’을 기반으로 명령어 데이터를 구축했습니다.
기본 데이터를 구축하는데, 비용은 약 100 달러(한화 약 12만 9,800원)가 들었으며, 해당 모델의 크기가 워낙 작고 GPT-3.5와 성능이 비슷해서 이를 이용한 다양한 활용 사례가 많이 생겨나고 있습니다.
최근에는 알파카에 한국어를 학습시킨 모델 ‘KoAlpaca’도 공개가 되었습니다!
LLaMA 기반의 모델은 상업적으로 활용이 불가능하지만, ‘대신 파라미터가 적어도 훌륭한 성능을 낼 수 있다’는 가능성을 보여주었습니다. 짧은 시간 내 상업적으로도 활용 가능한 오픈소스 모델이 등장하거나 많은 기업이 가성비 좋은 모델을 만들고자 하는 시도가 생길 것으로 예상됩니다.
공식 출시 전부터 온갖 루머가 많았던 ‘GPT-4’가 공개되었습니다. GPT-4는 이전 GPT보다 더 긴 맥락의 대화를 이해할 수 있고, 이미지로 된 데이터를 입력할 수 있는 것이 가장 큰 특징입니다.
공개 직후 바로 ChatGPT 플러스 요금제를 사용 중이라면 GPT-4 모델을 바로 사용할 수 있었습니다. 다만 ChatGPT API 모델인 ‘Turbo’와 속도 차이가 나기 때문에 다소 답답함을 느낄 수도 있습니다. 내부적으로 테스트해보니 한국어 유행어도 어느 정도 이해할 수 있을 만큼 기존 ChatGPT API 대비 한국어 이해 능력이 올라갔습니다.
실제 리포트에 따르면, MMLU(Massive Multitask Language Understanding, 대규모 멀티태스킹 언어 이해) 기준 한국어 성능 점수가 77점으로 GPT-3.5의 영어 성능과 견주는 수준이 됐습니다.
또한, GPT-4는 ‘환각 효과(Hallucination, 사실이 아닌 걸 결과물로 생성하는 효과)’ 현상이 많이 개선되었는데요. 틀린 답변을 무작정 생성했던 GPT 3.5와 달리 근거를 제시하면서 답변하지 않거나 모르는 내용에 대해서는 ‘모른다’고 답변하는 경우가 많아졌습니다.
정보를 제공하는 측면에서는 이러한 변화점은 좋을 수 있지만, 창의성을 요구하는 측면에서는 인공지능의 상상을 볼 수 없어 약간 아쉽습니다. 이미지 입력 테스트는 아직 사용해보지 못했지만, 더 넓은 활용 범위를 보여줄 수 있을 것으로 예상됩니다. 이미지 입력이 가능한 GPT-4가 사용 가능해졌을 때 뤼튼 역시 빠르게 사용자들이 체험할 수 있도록 준비하겠습니다!
마이크로소프트가 자사 오피스 프로그램에 GPT를 적용한 ‘MS 오피스 코파일럿(MS office Copilot)’이 발표했습니다.
지금까지 Gen AI 소식이 기술에 치중되었다면, MS 오피스 코파일럿은 실제 사용자가 경험하는 상호 작용에 초점이 맞춰져 있습니다. 저희도 대규모 언어 모델(Large Language Model, LLM) 및 ChatGPT의 등장 이후로 인간과 인공지능 간의 상호 작용이 무엇보다 중요해지겠다고 생각하고 있었는데, MS 역시 많이 고민했던 것으로 보입니다.
가까운 미래, AI와 협업하는 경험이 익숙해질 순간에 우리가 AI에게 어떤 도움을 받을 수 있을지, 우리가 어디에 더 집중할 수 있을지, 이전에 할 수 없었던 것들을 어떻게 할 수 있을지를 고민하는 시기라고 생각됩니다.
오픈AI가 ChatGPT를 각종 서비스의 데이터를 쉽게 연동할 수 있는 플러그인을 발표했습니다. 검색, 브라우징 등 다양한 기능과 연결할 수 있게 실행할 수 있기 때문에 ChatGPT가 할 수 있는 영역이 더 넓어질 것으로 보입니다.
ChatGPT 출시 이후 이를 더 다양하게 활용하기 위해 여러 오픈소스 프로젝트와 확장 프로그램들이 있었는데요. Plugin이 더 대중화되면 이제 더 쉽고 간단하게 많은 서비스의 기능들을 결합해서 사용할 수 있게 될 것입니다. 사실 Gen AI 시대가 도래하면서, ‘모바일 다음의 시대’라는 목소리가 높아지고 있는데요. ChatGPT Plugin가 이를 더 가속시킬 것 같습니다.
과연 이러한 기술들을 이용해 누가 제2의 애플 앱스토어와 구글 안드로이드가 될 것인지 벌써 관심이 높은데요. 뤼튼이 이러한 흐름을 선도할 수 있도록 앞으로 더 치열하게 노력하겠습니다.
그 외에도 정말 다양한 AI 소식이 3월에 있었지만, 이를 모두 전달하기에는 너무 길어질 것 같아 간략하게 제목만 공유하겠습니다!
Stanford HAI에서 공개한 Generative AI: Perspectives
마이크로소프트의 윤리 AI 팀 해고
구글의 PaLM API
앤스로픽(Anthropic)의 Claude API Wait List Open
구글의 Bard 퍼블릭
스태빌리티 AI(Stability AI)의 Clipdrop(이미지 편집 소프트웨어 기업) 인수
한 장의 이미지를 다양한 변형으로 생성하는 스테이블 디퓨전(Stable Diffusion) Reimagine
이미지, 비디오, 3D 생성 서비스를 빌딩할 수 있는 클라우드 서비스 NVIDIA Picasso
인공지능 이미지 생성 크리에이터 Adobe Firefly
3월에 나온 소식들을 보면 언어 모델뿐만 아니라 이미지 생성 모델도 높은 품질로 빠르게 개선되고 있는 걸 알 수 있습니다. 3월의 AI 소식은 여기까지입니다. 그 어느 때보다 빠르게 변화하는 AI 시대를 쉽게 알 수 있도록 더 좋은 인사이트를 가지고, 4월에 돌아오겠습니다