학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 번역 과정에서 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 안드레센 호로위츠에 올라온 글을 정리한 것 입니다.
거대 언어 모델(LLM)은 1주일 분량 코드를 단 몇 초 만에 작성하는 것부터 사람과 나누는 대화보다 훨씬 더 공감할 수 있는 대화를 생성하는 것까지 마법 같은 경험을 제공하면서 기술 업계를 강타하고 있다. 수천 개 GPU 클러스터로 수조 개 데이터를 학습한 LLM은 놀라운 자연어 이해력을 보여주며 카피 및 코드 같은 분야를 혁신해 새롭고 흥미로운 생성AI 시대로 우리를 이끌고 있고 있다. 다른 신기술들과 마찬가지로 생성 AI도 일부 비판에 직면해 있다. 이러한 비판 중들 일부는 현재 LLM이 가진 기능의 한계를 반영하는 것이기도 하지만, 우리는 이러한 장애물을 근본적인 결함이 아니라 혁신을 위한 기회로 보고 있다.
우리는 머신러닝 분야에서 단기적인 기술 혁신을 보다 잘 이해하고 창업자와 운영자들이 다가올 미래에 대비할 수 있도록, 가장 크고 최첨단 모델을 적극적으로 구축하고 훈련하는 선도적인 생성 AI 연구자들 몇 명과 이야기를 나눴다. 앤트로픽(Anthropic) CEO 다리오 아모데이(Dario Amodei), 코히어(Cohere) CEO 에이단 고메즈(Aidan Gomez), 캐릭터AI(Character.AI) CEO 노암 샤제르(Noam Shazeer), AI21 랩스(Labs) 요아브 쇼함(Yoav Shoham) 등이다.
이들과의 대담에서 우리는 스티어링, 메모리, '팔과 다리'(Arms and legs), 멀티모달 등 4가지 핵심 혁신이 생성AI 판에 다가오고 있음을 확인했다. 이 글에서는 이들 주요 혁신이 향후 6개월에서 12개월 동안 어떻게 발전할지, 그리고 AI를 비즈니스에 통합하는 데 관심이 있는 창업자들이 이러한 새로운 발전을 어떻게 활용할 수 있을지 살펴 본다.
스티어링(Steering)
많은 창업자들은 이들 모델이 편견을 유발하고 재생산할 가능성이 있기 때문에 제품과 워크플로에 LLM을 구현하는 것을 당연히 경계한다. 이들 우려를 해결하기 위해 몇몇 선도적인 모델 회사들은 모델 출력에 더 나은 제어 기능을 부여하고 모델이 복잡한 사용자 요구 사항을 더 잘 이해하고 실행할 수 있도록 지원하는 향상된 스티어링을 연구하고 있다. 노암 샤지르는 이와 관련해 LLM을 어린이에 비유한다.
"[모델에] 보다 잘 지시할 수 있는 방법의 문제다... LLM에는 우리가 원하는 것을 하도록 지시하는 올바른 방법이 필요하다는 문제가 있다. 어린 아이들도 마찬가지다. 그들은 때때로 무언가를 지어내고 환상과 현실을 확실히 파악하지 못한다."
모델 제공업체들 사이에서 가드레일(Guardrails) 및 LMQL과 같은 도구가 출현하면서 조정 가능성 측면에서 괄목할 만한 진전이 있었지만, 연구자들은 계속해서 발전을 거듭하고 있으며, 이는 최종 사용자가 LLM을 더 잘 활용할 수 있도록 하는 열쇠라고 생각한다.
예측 불가능한 행동으로 인해 막대한 비용이 발생할 수 있는 엔터프라이즈 기업들에서는 향상된 조정 기능이 특히 중요하다. 아모데이는 LLM이 주는 예측 불가능성이 "사람들을 놀라게 한다"고 지적하며, API 제공업체로서 "고객의 눈을 똑바로 보고 '아니요, 이 모델은 이렇게 하지 않을 것이다'라고 말할 수 있거나 적어도 거의 그렇게 하지 않을 것이다"라고 말할 수 있기를 원한다고 말한다.
LLM 출력을 개선함으로써 창업자는 모델 성능이 고객 요구와 일치할 것이라는 확신을 가질 수 있다. 또 개선된 조정 기능은 광고와 같이 정확도와 신뢰성이 보다 중요한 산업들에서 광범위하게 채택될 수 있는 기반을 마련할 것이다.
아모데이는 "법률, 의료, 금융 정보 저장 및 금융 베팅 관리부터 회사 브랜드를 지켜야 하는 분야까지 다양한 사용 사례가 있을 것으로 보고 있다. 예측 및 특성화하기 어려운 것은 사람은 원치 않을 것이란 설명이다. 더 나은 조정을 통해 LLM은 전반적인 의도를 더 잘 이해할 수 있기 때문에 프롬프트 엔지니어링을 덜하면서도 보다 복잡한 작업을 수행할 수 있다.
메모리(Memory)
LLM으로 구동되는 카피라이팅 및 광고 생성 앱은 이미 큰 성과를 거뒀다. 이들 앱은 마케터, 광고주, 신생 기업가들 사이에서 빠르게 채택되고 있다. 그러나 현재 LLM 결과물 대부분은 비교적 일반화돼 있어 개인화 및 문맥 이해가 필요한 사용 사례에 활용하기 어렵다.
프롬프트 엔지니어링과 미세 조정을 통해 어느 정도 개인화를 제공할 수 있지만, 프롬프트 엔지니어링은 확장성이 떨어지고 미세 조정은 어느 정도 재교육이 필요한데다 대부분 비공개 소스 LLM들과 긴밀히 협력해야 하므로 비용이 많이 드는 편이다. 모든 개별 사용자를 위해 모델을 미세 조정하는 것은 많은 경우 실현 가능하지 않거나 바람직하지 않다.
회사가 제작한 콘텐츠, 회사가 쓰는 특정 전문 용어 및 특정 컨텍스트에서 LLM이 학습하는 인컨텍스트 학습은 특정 사용 사례에 맞게 더욱 정제되고 맞춤화된 결과물을 생성하는 성배와도 같은 기능이다. 이를 실현하기 위해서는 LLM에 향상된 메모리 기능이 필요하다. LLM 메모리에는 컨텍스트 창(context windows)과 리트리벌(retrieval, 검색)이라는 두 가지 주요 구성 요소들이 있다. 컨텍스트 창은 모델이 학습된 데이터 말뭉치(corpus)외에 모델이 처리하고 출력에 정보를 제공하는 데 사용할 수 있는 텍스트다.
리트리벌은 모델이 학습한 데이터 말뭉치가 아닌 데이터 본문('컨텍스트 데이터')에서 관련 정보 및 문서를 검색하고 참조하는 것을 말한다. 현재 대부분 LLM은 컨텍스트 창이 제한적이고 기본적으로 추가 정보를 검색할 수 없으므로 개인화된 결과물을 생성할 수 없다. 하지만 컨텍스트 창이 더 커지고 검색 기능이 개선되면 LLM은 개별 사용 사례에 맞춰 훨씬 더 정제된 결과물을 직접 제공할 수 있다.
특히 확장된 컨텍스트 창을 통해 모델들은 보다 많은 양의 텍스트를 처리하고 대화를 통해 연속성을 유지하는 등 컨텍스트를 보다 잘 유지할 수 있다. 따라서 긴 기사를 요약하거나 긴 대화에서 일관되고 맥락에 맞는 정확한 응답을 생성하는 등 긴 입력 내용을 더 깊이 이해해야 하는 작업을 수행하는 모델 능력이 크게 향상될 것이다. 이미 컨텍스트 창은 상당한 개선이 이뤄지고 있다 GPT4.0은 8000 및 3만2000 컨텍스트 창을 지원한다.. GPT-3.5 및 ChatGPT 컨텍스트 창은 4000 및 1만6000이다. Claude는 최근 컨텍스트 창을 무려 100,000 토큰으로 확장했다.
추론 비용과 시간은 프롬프트 길이에 따라 준 선형(quasi-linearly) 또는 심지어 4제곱으로 증가하기 때문에 확장된 컨텍스트 창만으로는 메모리를 충분히 개선할 수 없다. 리트리벌 메커니즘은 프롬프트와 가장 관련성이 높은 문맥 데이터로 LLM 훈련에 사용된 말뭉치를 보강하고 개선한다. LLM은 하나의 정보에서 학습되고 일반적으로 업데이트하기 어렵다. 소함에 따르면 리트리벌을 통해 얻을 수 있는 두 가지 주요 이점은 다음과 같다. 첫째, 학습 당시에는 없었던 정보 소스에 액세스할 수 있다. 둘째, 작업과 관련 있다 생각되는 정보에 언어 모델을 집중할 수 있다.
Pinecone과 같은 벡터 데이터베이스는 관련 정보를 효율적으로 검색하기 위한 사실상의 표준으로 부상했다. 벡터 DB는 LLM 메모리 계층 역할을 하면서 모델이 방대한 양의 정보에서 적합한 데이터를 빠르고 정확하게 검색하고 참조할 수 있도로 지원한다.
향상된 컨텍스트 창과 리트리벌 기능은 대규모 지식 저장소나 복잡한 데이터베이스를 탐색하는 것 등 엔터프라이즈 사용 사례들에 매우 유용할 것이다. 기업은 내부 지식, 과거 고객 지원 티켓 또는 재무 결과와 같은 독점 데이터를 미세 조정 없이 LLM 입력을 위해 보다 잘 활용할 수 있게 된다. LLM 메모리가 개선되면 교육, 보고, 내부 검색, 데이터 분석 및 비즈니스 인텔리전스, 고객 지원과 같은 영역에서 개선되고 심층적인 맞춤형 기능이 제공될 수 있다.
개인 사용자 영역에서는 컨텍스트 창과 리트리벌 기능이 개선되어 사용자 경험을 혁신할 수 있는 강력한 개인화 기능이 가능해질 것이다. 노암 셰이저는 "각 사용자에 맞게 맞춤 설정할 수 있는 메모리 용량이 매우 크면서도 대규모로 비용 효율적으로 서비스를 제공할 수 있는 모델을 개발하는 것이 가장 크게 풀릴 사례가 될 것이라고 보고 있다.
"여러분 치료사가 여러분 삶에 대해 모든 것을 알기를 원하고, 선생님은 여러분이 이미 알고 있는 것을 이해하기를 원하며, 인생 코치는 현재 진행 중인 일에 대해 조언을 해줄 수 있기를 원한다. 모두 맥락이 필요하다."
에이단 고메즈도 마찬가지로 이에 대한 기대가 크다. 그는 "이메일, 캘린더, 다이렉트 메시지 등 나만의 고유한 데이터에 대한 액세스 권한을 모델에 부여하면 모델이 다른 사람과 관계, 친구나 동료와 대화하는 방식 등을 파악해 그 맥락에서 최대한 유용하게 도움을 줄 수 있다"고 말한다.
팔과 다리': 모델에 도구 사용 기능 제공(Arms and legs”: giving models the ability to use tools
자연어 처리 모델이 가진 진정한 힘은 자연어가 행동의 통로가 될 수 있도록 하는 데 있다. LLM은 일반적이고 잘 문서화된 시스템은 정교하게 이해하지만, 이러한 시스템에서 추출한 정보로 실행할 수는 없다. 예를 들어 OpenAI ChatGPT, Anthropic 클로드, Character AI 릴리는 항공편을 예약하는 방법을 자세히 설명할 수는 있지만 기본적으로 항공편을 직접 예약할 수는 없다(ChatGPT 플러그인과 같은 발전이 이같은 한계를 뛰어넘기 시작하고 있지만). 아모데이는 "이론적으로는 이 모든 지식을 가지고 있지만 이름과 버튼을 연결하는 매핑이 부족할 뿐"이라고 말한다. 케이블을 연결하는 데는 많은 훈련이 필요하지 않으며, 움직일 줄 아는 뇌는 있지만 아직 팔이나 다리가 붙어 있지 않은 상태라는 설명이다.
우리는 시간이 지남에 따라 기업들이 LLM 도구 사용 능력을 꾸준히 개선하는 것을 보고 있다. Bing, Google과 같은 기존 기업들과 Perplexity, You.com과 같은 스타트업들은 검색 API를 도입했다. AI21 Labs는 계산기, 날씨 API, 위키 API, 데이터베이스 등 미리 정해진 도구 세트와 모델을 결합해 독립형 LLM의 많은 결함을 해결한 Jurassic-X를 출시했다. OpenAI는 ChatGPT가 Expedia, OpenTable, Wolfram, Instacart, Speak, 웹 브라우저, 코드 인터프리터와 같은 도구와 상호 작용할 수 있는 플러그인을 베타 버전으로 출시했다. 이것은 애플 '앱스토어'와 비교되는 순간이었다. 그리고 최근에는 개발자가 원하는 외부 도구에 원하는 기능을 연결할 수 있는 함수 호출 기능을 GPT-3.5와 GPT-4에 도입했다.
지식 검색에서 행동 지향으로 패러다임을 전환해 팔과 다리를 추가하면 기업과 사용자 유형에 걸쳐 다양한 사용 사례를 창출할 수 있다. 개인 사용자들의 경우, LLM이 곧 레시피 아이디어를 제공한 다음 필요한 식료품을 주문하거나 브런치 장소를 제안하고 테이블을 예약할 수 있게 될 것이다. 기업에서는 LLM을 연결해 앱을 더 쉽게 사용할 수 있다. 아모데이는 "UI 관점에서 사용하기 매우 어려운 기능의 경우 자연어로 설명하는 것만으로도 복잡한 작업을 수행할 수 있다"고 말한다. 예를 들어, Salesforce와 같은 앱의 경우 LLM 통합을 통해 사용자가 자연어로 업데이트를 제공하면 모델이 자동으로 해당 변경 사항을 적용해 CRM 유지 관리에 필요한 시간을 크게 줄일 수 있다. Cohere 및 Adept와 같은 스타트업은 복잡한 도구에 LLM을 통합하기 위해 노력하고 있다.
고메즈는 2년 내에 LLM이 Excel과 같은 앱을 사용할 수 있게 될 가능성이 점점 커지고 있지만, "아직 개선해야 할 부분이 많이 남아 있다. 매력적이지만 취약한 도구를 사용할 수 있는 1세대 모델이 등장할 것이다. 결국에는 '이 도구 기능은 이렇고 사용 방법은 이렇다'라는 설명과 함께 어떤 소프트웨어든 모델에 제공할 수 있고, 모델이 이를 사용할 수 있는 꿈의 시스템을 갖추게 될 것이다. 특정 도구와 일반 도구로 LLM을 보강할 수 있게 되면, 이를 통해 실현되는 자동화는 우리 분야에서 최고의 보석이 될 것이다"라고 말한다.
멀티 모달리티
채팅 인터페이스는 많은 사용자에게 흥미롭고 직관적이지만, 인간은 언어를 쓰거나 읽는 것만큼 또는 그보다 더 자주 듣고 말한다. 아모데이는 "모든 것이 텍스트가 아니기 때문에 AI 시스템이 할 수 있는 일에는 한계가 있다"고 지적한다. 멀티모달리티, 즉 오디오 또는 시각 형식으로 된 여러 유형 콘텐츠를 원활하게 처리하고 생성할 수 있는 기능을 갖춘 모델은 이러한 상호작용을 언어 그 이상으로 변화시킨다.
GPT-4, Character.AI, Meta의 ImageBind와 같은 모델은 이미 이미지, 오디오 및 기타 모달리티를 처리하고 생성하고 있다. 기본적인 수준이지만 빠르게 개선되고 있다. 고메즈는 "오늘날 우리 모델은 문자 그대로 시각 장애인이지만, 이는 바뀔 것이다. 우리는 사용자가 볼 수 있다고 가정하는 그래픽 사용자 인터페이스(GUI)를 많이 구축했다"고 말한다.
LLM이 다양한 양식을 더 잘 이해하고 상호 작용할 수 있도록 발전함에 따라 브라우저와 같이 오늘날 GUI에 의존하는 기존 앱도 사용할 수 있게 될 것이다. 채팅 인터페이스 외부에서도 참여할 수 있게 될 소비자들에게 더욱 매력적이고, 연결되며, 포괄적인 경험을 제공할 수 있다. "멀티모달 모델과 훌륭한 통합을 통해 훨씬 더 매력적으로 사용자와 연결될 수 있습니다."라고 Shazeer는 강조한다. 현재로서는 대부분의 핵심 인텔리전스가 텍스트에서 나오지만 오디오와 비디오가 이러한 것들을 더 재미있게 만들 수 있다는 것이다. AI 튜터와 화상 채팅부터 AI 파트너와 TV 파일럿 스크립트 반복 및 작성에 이르기까지, 멀티모달리티는 다양한 소비자 및 기업 사용 사례에서 엔터테인먼트, 학습 및 개발, 콘텐츠 생성을 변화시킬 수 있는 잠재력이 있다.
LLM에는 현실적인 한계가 있지만, 연구자들은 단기간에 이러한 모델을 놀랍도록 개선해 왔으며, 실제로 이 글을 쓰기 시작한 이래로 여러 번 업데이트해야 했으니 이 분야에서 이 기술이 얼마나 빠르게 발전하고 있는지를 알 수 있다. 고메즈도 이에 동의한다. 그에 따르면 LLM이 20번 중 1번은 사실과 다르다는 것은 분명 여전히 너무 높은 수치다. 하지만 이런 시스템을 구축한 것은 이번이 처음이고 사람들 기대치는 상당히 높다. 우리는 그 격차를 충분히 좁혔기 때문에 비판은 인간이 할 수 있는 것들에 초점이 맞춰져 있다.
특히 창업자들이 제품을 개발하고 회사를 운영하는 방식을 변화시킬 이 4가지 혁신에 대해 기대가 크다. 장기적으로는 그 잠재력이 더욱 커질 것이다. 아모데이는 "언젠가는 모든 생물학적 데이터를 읽고 '여기 암 치료제가 있'라고 말할 수 있는 모델을 갖게 될 것"이라고 예측한다. 현실적으로 최고 새로운 애플리케이션은 아직 알려지지 않았을 가능성이 높다. Character.AI에서는 사용자가 이러한 사용 사례를 개발할 수 있다: "앞으로 수많은 새로운 애플리케이션이 개발될 것이다. 어떤 애플리케이션들일지 말하기 어렵다. 수백만 가지가 있을 것이고, 사용자들은 소수 엔지니어보다 이 기술로 무엇을 할 수 있을지 더 잘 알아낼 수 있다."
창업자와 기업이 이러한 새로운 도구와 역량을 갖추게 되면서 이러한 발전이 우리 생활과 업무 방식에 가져올 혁신적인 효과가 기대된다.