Oepn AI 개발자 컨퍼런스에서 발표한 현제 AI 개발단계를 살펴봅니다
안녕하세요 메타저고리입니다.
지난 영상에 이어 오늘은 오픈 에이아이 데브데이날 발표한 Open AI의 새로운 기능들이 얼마나 달라졌는지를 사례를 보겠습니다.
## Assistant API
많은 발표 중 여행 어시스턴트의 이용 사례를 가지고 왔습니다.
어시스턴트 API를 이용해 여행 도우미를 둘수 있습니다.
숙소와 비행기표도 알아봐주고 친구 여러명이 함께 갈때는 비용도 나눠서 계산해 줍니다.
또 도착지에서 해야할것 등의 정보도 제공해 줍니다.
지도에 직접 확인할수 있는 모든 함수도 사용해서 시각적으로 잘 보여줍니다.
개발자의 설명을 직접 들어보겠습니다.
전세계 탐험가의 1 달러짜리 랜딩페이지라고 상상 해 보세요.
GPT4를 사용해서 이런 목적지 아이디어를 생각해냈습니다.
먼저 이미지는 Dall E 3 API를 통해 만들었습니다. 간단한 도우미를 이용해서 이 앱을 향상 시켜봅니다.
먼저 GPT4 playground로 이동합니다. 먼저 이름을 지칭하고 모델을 지칭 합니다. 저는 GPT 4 turbo를 선택합니다.
여기에는 몇가지 도구를 선택합니다.
코드 해석기를 켜고 검색후 저장합니다. GPT 어시스턴트가 할 준비는 이게 다입니다.
여기에 두가지 새로운 기본요소가 있는데 스레드와 메세지를 통합할수 있습니다.
새로운 사용자마다 새 스레드를 생성하겠습니다.
이런 사용자가 어시스턴트와 소통하면 스레드에 메세지를 추가하겠습니다.
그러면 언제든지 어시스턴트를 실행하여 응답을 앱으로 다시 스트리밍 할 수 있습니다.
그럼 이제 앱으로 돌아가서 시도해 볼수 있습니다.
앱으로 돌아와서 헤이, 빠리로 가자 라고 말해보겠습니다
이게 다입니다. 몇줄의 코드로 사용자는 이제 앱 내에서 매우 전문적인 도우미를 사용할 수 있습니다.
1. 첫째 함수 호출:
제일 좋아하는 기능은 함수 호출입니다.
이제 추가 지연 시간 없이 json 출력을 보장하며 처음으로 여러 함수를 한번에 호출할 수있습니다.
두번째로 다시 물어보겠습니다.
가서 해야할 일 10 가지가 뭐지?
10가지 해야할일을 보여주는데 어시스턴트는 오른쪽에 보이는 지도에 주석을 추가 하는 기능을 포함하기 까지 합니다.
이 기능을 잘 알고 있다는 뜻입니다.
이런 통합을 통해서 자연어 인터페이스가 앱의 구성요소 및 기능과 원활하게 상호작용 할수 있습니다.
이제 어시스턴트가 실제로 조치를 취하는 AI 와 UI간에 구축할수 있는 조화를 실제로 보여줍니다.
2. 두번째 검색, 검색, 이러한 즉각적인 사용자 메시지를 넘어 우리 보조자에게 더 많은 지식을 제공하는 것입니다.
여기에 영감을 얻어 파리행 티켓을 예매했습니다. PDF를 끌어 다 넣습니다.
이 뒤에서 일어나는 일은 검색이 이런 파일을 읽는 것이고 이 PDF에 대한 정보가 화면에 나타나는 것입니다.
이 pdf는 작은 양이지만 어시스턴트는 광범위한 텍스트에서 복잡한 제품 사양에 이르기까지 긴 형식의 문서를 구문 분석 할수 있습니다.
에어 비앤비에도 예약한적이 있어서 그 내용도 대화에 끌어다 놓겠습니다.
수많은 개발자들이 자신을 구축하는 게 얼마나 어려운지 들었습니다.
자체적으로 계산해야하고 청킹 알고리즘을 설정해야 합니다.
자 이제 되었습니다. 모든 api의 호출에는 검색 이상의 기능이 있습니다. 모든 대화를 입력할때 키값, 저장소 설정, 컨텍스트 창 처리 메세지 직력화 등을 의미합니다. 이제 이 새로운 상태 저장 API를 사용하면 이러한 복잡성이 완전히 사라졌습니다. Open ai 가 api를 관리한다고 해서 이게 블랙 박스 라는 의미는 아닙니다. 실제로 대시보드 내에서 도구가 수행하는 단계를 바로 확인할수 있습니다. 다시 플레이그라운드로 와서 스레드를 클릭하면 이게 현재 작업중인 것으로 생각되는 스테드입니다.
3. 코드 해석기: 코드 해석기를 통해 ai 는 즉시 코드를 작성하고 실행할수 있습니다.
4명의 친구와 에어비앤비에서 묵을건데 내 몫과 비행기 표는 얼마야? 라고 한다면,
여기서 일어나는 일은 코드 해석기가 이 쿼리에 응답하기 위해 일부 코드를 작성해야 한다는것을 알아차린 것입니다.
이제 파리에 머무른 날 수와 친구 수를 계산합니다. 또한 환율 계산도 수행하고 있습니다. 물론 복잡한 수학은 아니지만 그림을 얻을수 있습니다.
만약 많은 숫자를 처리하고 차트를 그리는 매우 복잡한 금융 앱을 구축한다고 상상해 보세요.
요약하자면
사용자 대화 상태를 관리하고 지식 및 검색, 코드 해석기와 같은 외부 도구를 활용하고,
마지막으로 고유한 기능을 호출하여 작업을 수행하는 어시스턴트를 빠르게 생성할 수 있는 방법을 살펴봤습니다.
한가지 더 있습니다.
Devday 작업하면서 이 이벤트에 대한 모든것을 알고 잇는 작은 맞춤 도우미를 만들었는데,
오늘 하루 종일 돌아다니면서 채팅 인터페이스를 사용하는대신 음성을 사용하는게 어떨까 하는 생각이 들었습니다.
휴대폰을 볼수 있게 하겠습니다.
마이크를 열고 터미널 로그를 불러옵니다.
터미널 로그에 음성으로 데브데이 참여한 사람들에게 인사해 달라고 요청해보겠습니다.
음성으로 얘기 해줍니다. (Tap to speech) 역시 api에서 선택할수 있는 것들입니다.
6개 음성과 여러 언어를 사용할수 있습니다.
노트북 뒤에서 무슨 일이 일어나고 있는지 로그도 볼수 있습니다.
위스퍼를 사용하여 음성 입력을 텍스트로 변환하고 gpt 4 turbo의 도우미를 사용하고
마지막으로 새로운 tts(tap to speech) api를사용하여 말하게 됩니다.
함수 호출 덕분에 어시스턴트가 인터넷에 연결하고 사용자를 위해 실제 작업을 수행할수 있으면 상황이 훨씬 더 흥미로와 집니다.
여기서 좀더 흥미로운 일을 해보자면 devday 참석자 무작위로 5명을 선택해서 그들에게 open ai 크레딧으로 500달러 주실수 있나요?
한번 영상 보시죠.
새로운 도구 및 방식과 결합된 어시스턴트 API에 대한 간략한 개요는 모두 최종 사용자를 위한 서식있는 텍스트 또는 음성 대화의 단순성에서 시작됩니다.
https://youtu.be/Qjd957vNBVo?si=e-T-D0m_oBzuH3sZ
출처: 유튜브 메타저고리