brunch

You can make anything
by writing

C.S.Lewis

by delight Dec 03. 2023

맞춤 GPT에 비전API도, 오픈AI 업글 왜 중요한가

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 Thomas Smith가 미디엄에 쓴 글을 정리한 것입니다.

최근 개발자 컨퍼런스에서 오픈AI는 생성AI 플랫폼에 몇 가지 주요 기능을 추가했다고 발표했다. 기술적으로 보일지 모르지만 오픈AI가 한 새로운 발표는 작년 이맘때 챗GPT가 그랬던 것처럼 세상을 바꿀 수 있는 잠재력이 있다. 오픈AI 발표한 핵심 내용과 이것이 중요한 이유는 다음과 같다.

앱에 눈이 생기다(Your App Has Eyes)

오픈AI가 한 발표들 중 가장 흥미로운 것들 중 하나는 API를 통해 GPT-4 비전 플랫폼을 사용할 수 있다는 것이었다. 그전에 오픈AI는 챗GPT 인터페이스를 통해서만 비전 플랫폼을 공개했다. 비전(Vision)은 매우 강력하지만 다소 제한적이었다 사용하려면 챗GPT에 로그인하고 이미지를 한 번에 몇 개씩 수동으로 업로드해야 했다.

오픈 API에 비전을 추가한 것은 획기적인 변화다. 이제 개발자들은 수동 프로세스를 사용할 필요 없이 자신의 애플리케이션에 비전 기능을 직접 구현할 수 있다.

내 회사인 가도 이미지스(Gado Images)와 같은 미디어 회사들은 비전 플랫폼을 사용해 수만 개 또는 수백만 개 이미지로 구성된 데이터베이스에 있는 시각적 콘텐츠를 이해할 수 있다. 이러한 기능을 통해 컬렉션에서 중요한 부분을 훨씬 더 쉽게 찾을 수 있다.

이는 일부 초기 사례일 뿐이다. 이제 개발자들은 GPT-4 V비전을 사용해 빌드할 수 있으므로 많은 종류 앱과 소프트웨어 플랫폼들에 이를 탑재할 수 있다. 대부분의 경우 고객들은 GPT-4 플랫폼이 포함되어 있다는 사실조차 모를 것이며, 단지 비주얼 작업 방식이 크게 업그레이드된 것만 경험하게 될 것이다. 다시 말해 GPT-4 비전이 API로 출시되었다는 것은 이제 컴퓨터가 세상을 보고 이해할 수 있다는 것을 의미한다.

달리3도 API로(DALL-E3 in the API)

API에 추가된 또 다른 주요 기능은 오픈AI 달리(DALL-E)3다. 오픈는 API를 통해 달리2를 출시했지만, 생성된 이미지는 특히 미드저지와 같은 최신 시스템 출력과 비교할 때 그다지 좋지 않았다. API에 달리2가 추가됨에 따라 컴퓨터가 세상을 볼 수 있는 것처럼, 이제 설득력 있고 사실적인 비주얼을 만들 수 있게 됐다. 예를 들어, 기업들은 이를 사용해 블로그 플랫폼에 자동 일러스트레이션을 구현하거나 동화책에 사용할 그림을 자동으로 만들 수 있다.

달리3는 거의 모든 스타일로 사실적인 비주얼을 만들 수 있다. 나는 블로그 게시물에 사용할 일러스트를 만드는 데 이 기능을 사용했는데, 그 중 몇 개는 입소문이 났다. 그래픽이 큰 요인이라고 생각한다.

책을 소화하다(Ingest a Book)

또 다른 흥미로운 발표는 GPT-4 컨텍스트 창이 12만8000 토큰으로 확장되었다는 것이다. 도대체 이게 무슨 뜻인지 궁금해서 고개를 갸웃거리는 이들도 많을 것이다. 대부분의 사람들은 토큰, 컨텍스트 창 또는 토큰이 LLM과 어떤 관계가 있는지 잘 모른다. AI 시스템에서 컨텍스트 창은 주어진 시간에 처리할 수 있는 텍스트 또는 기타 입력과 출력의 총량을 의미한다.

사용자가 GPT-4 또는 챗GPT와 상호 작용할 때 시스템은 해당 대화 중에 사용자가 말한 모든 내용과 모든 응답을 지속적으로 살펴본다. 이를 통해 응답을 개선하고 일관된 방식으로 사용자와 '채팅'하는 것처럼 보이도록 하는 데 필요한 중요한 컨텍스트를 얻을 수 있다.

긴 블로그 게시물이나 기타 긴 형식 메시지를 보내거나 모델과 매우 긴 대화를 나누는 경우, 이전에는 8000토큰까지만 가능했던 컨텍스트 창은 쉽게 소진될 수 있다(토큰은 단어의 일부로, 8,000토큰 창은 약 6,000단어에 해당한다).

컨텍스트 창 크기는 모델이 처리할 수 있는 내용에 큰 차이를 만들어낸다. 컨텍스트 창이 짧으면 책이나 긴 형식의 기사, 긴 대본 등과 같은 긴 입력을 처리하지 못한다.모델이 긴 결과도 내놓을 수 있다. 때문에 12만8000개 토큰 컨텍스트 창을 도입한 것은 큰 의미가 있다. 12만8000개 토큰은 약 300페이지 분량 책 한 권을 수집하기에 충분하다. 즉, GPT-3는 이제 책 한 권 분량의 입력을 받아 책 한 권 분량의 출력을 생성할 수 있다.

소설을 분석하는 데 이 시스템을 사용하지 않더라도, 컨텍스트 창은 길수록 중요하다. 예를 들어, 비즈니스 컨텍스트의 경우 중요한 프로세스에 대한 50페이지 분량 표준 운영 절차서 전체를 입력하고 광범위한 질문을 한 다음 1만 단어 분량 문서를 반환받을 수 있다.

'컨텍스트 창'이라는 이름에서 알 수 있듯이, 컨텍스트 창이 길면 모델이 훨씬 더 많은 컨텍스트를 사용자와 주고받으면서 훨씬 더 많은 데이터를 다룰 수 있다. 따라서 더 긴 대화를 나누고 더 많은 지식을 축적해 응답을 생성할 수 있다. 이 모델은 10만개 토큰 창을 가진 주요 경쟁사인 앤트로픽 클로드(Claude)에 보다 대응한다.(최근 앤드로픽은 클로드2.1을 내놨는데, 컨텍스트 창이 20만개로 확장됐다)

맞춤형 GPT(Bespoke GPTs)

이것이 아마도 오픈AI가 출시한 것들 중 가장 큰 변화일 것이다. 이제 누구나 간단한 웹 인터페이스를 사용해 본질적으로 미세 조정된 버전의 챗GPT를 만들 수 있다. 이러한 맞춤형 커스텀 GPT를 통해 사용자는 코딩을 하거나 프로그램을 직접 호스팅할 필요 없이 다른 사람들과 상호 작용할 수 있는 자신만의 AI 시스템을 만들 수 있다.

사람들은 이미 맞춤형 GPT를 사용해 시각적 일기 예보까지 모든 것을 만들고 있다. 만드는 방법은 간단하다. 모델에 몇 가지 지침과 샘플 입력 및 출력을 제공하고 액세스할 수 있도록 원하는 문서를 업로드하기만 하면 된다.

여러분들이 카피 에디터라고 가정해 보자. 출판물 전체 스타일 가이드를 업로드할 수 있다. 그런 다음 맞춤형 GPT에 전달된 문서를 살펴보고 스타일 가이드에 얼마나 잘 맞는지 평가해 변경 사항을 제안하도록 지시할 수 있다. 그런 맞춤형 GPT를 발행물 작성자와 공유할 수 있다. 작성자는 맞춤형 GPT를 통해 직접 기사를 실행해 발행물 스타일 가이드와 관련된 자세한 피드백을 받을 수 있다.

기본적으로 자동화된 버전 또는 최소한 첫 번째 통과를 할 수 있을 만큼 충분히 좋은 버전을 갖게 되므로 귀중한 사람의 시간을 절약할 수 있다. 상상할 수 있듯 이러한 맞춤형 GPT 기능을 제한하는 것은 사람들 상상력과 시스템과 데이터를 공유하려는 의지뿐이다. 이와 관련해 신중하게 접근해야 해야 할 필요는 있다. 커스텀 GPT가 사용자에게 훈련 데이터를 공개했다는 보고가 있었다. 독점적이거나 기밀인 내용을 업로드하는 경우 유출될 위험이 있다.

이러한 제한이 있긴 하지만, 맞춤형 GPT를 만들 수 있다는 것은 큰 장점이다. 오픈AI는 사람들이 이러한 맞춤형 시스템을 사고 팔 수 있는 스토어를 만들겠다고 약속하기도 했다. 이러한 측면은 애플의 수익성 높은 앱 스토어 출시와 비교되기도 했다. 애플 앱스토어에서 모든 개발자가 아이폰 사용자에게 앱을 판매할 수 있는 것처럼, 오픈AI 스토어에서는 거의 모든 기능에 대한 맞춤형 GPT를 만든 다음 사용자에게 액세스 비용을 쉽게 청구할 수 있다. 이것이 어떻게 진행될지는 아직 정확히 알 수 없지만, 정말 유용한 도구를 만들 수 있는 잠재력이 있으며, 훈련 기술(또는 맞춤형 모델에 공급할 수 있는 수많은 유용한 데이터)을 가진 사람들에게 많은 돈을 벌 수 있게 해줄 것이다.

이들 변화가 왜 중요한가

다시 말하지만, 이러한 변화 대부분은 고도로 기술적인 것처럼 느껴진다. 하지만 실제로는 챗GPT 출시만큼이나 큰 영향을 미칠 수 있는 잠재력이 있다. 기술 생태계는 일반적으로 월드 가든에서 시작된다. 1990년대 초 AOL을 떠올려보라. 당시 인터넷은 일부 학술 기관을 제외하고는 대부분 신중하게 통제된 채팅방과 이메일과 같은 기능으로 구성됐고 대부분 한 회사에서 관리했다.

하지만 생태계가 성숙해지면서 확장됐다. AOL과 다른 ISP들이 오픈 웹에 대한 액세스를 용이하게 하면서 인터넷은 번성했다. 위키피디아와 같은 리소스는 물론 온라인 쇼핑, 화상 회의, 심지어 원격 의료와 같은 생명을 구하는 서비스까지 편리하게 이용할 수 있게 됐다.

마찬가지로 초기 스마트폰은 제한된 수의 리소스들에 대한 접근을 제공했고 대부분 제작자가 제어했다. 앞서 언급한 앱스토어가 출시되고 안드로이드 OS가 출시되고 서드파티 앱과 콘텐츠가 폭발적으로 증가하면서 스마트폰의 잠재력이 본격적으로 나타났다. 생성 AI도 비슷한 시점에 와 있다. 이전에는 대부분 사람들이 개별 기업이 제공하는 고도로 통제된 인터페이스를 통해 AI 시스템과 상호작용했다. 콘텐츠를 생성하는 챗봇을 사용하고 싶으면 챗GPT로 갔다. 사진이 필요하면 디스코드에 접속해 미드저니 봇에 메시지를 보냈다.

지난주 오픈AI가 내세운 변화는 AI 생태계를 완전히 새로운 방향으로 이끌고 있다. 예를 들어 오픈AI는 수년 동안 외부 개발자가 시스템과 인터페이스할 수 있는 API를 제공해 왔다. 하지만 강력한 시각적 기능과 대규모 컨텍스트 창을 개발자에게 공개하기로 한 결정과 GPT를 커스터마이징할 수 있는 코드 없는 도구를 구축하기로 한 것은 오픈AI가 엄격하게 통제되는 챗GPT 인터페이스를 넘어 기술을 중심으로 진정한 생태계를 구축하겠다는 의지의 표현이기도 하다.

개발자에게는 놀라운 소프트웨어를 구축할 수 있는 새로운 툴킷을 제공한다는 점에서 매우 반가운 소식이다. 하지만 사용자들에게도 큰 소식이다. 기업들이 오픈AI API를 사용해 기존 소프트웨어에 더 많은 생성 AI 도구를 구축함에 따라 앱이 훨씬 더 스마트하고 시각적이며 효율적으로 발전하게 될 것이다. 생성AI는 웹사이트에 로그인해 사용하는 도구가 아니라, 사용자가 상호작용하는 모든 기술을 미묘하게 개선하는 근본적인 레이어가 될 것이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari