학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 번역 과정에서 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 안드레센 호로위츠 웹사이트에 실린 글을 정리한 것입니다.
우리는 지난 몇 년 동안 대규모 언어 모델(LLM)이 주류가 되는 것을 지켜봐 왔으며, B2B 애플리케이션 맥락에서 이를 구현하는 방법을 연구해 왔다. 엄청난 기술 발전과 LLM이 일반적인 시대정신으로 자리 잡았음에도 불구하고, B2B 사용 사례를 위한 생성 AI 애플리케이션은 여전히 첫 번째 물결에 불과하다고 생각한다.
기업들이 사용 사례들을 구체화하고 자사 제품을 중심으로 해자를 구축하려고 노력함에 따라 현재 "제1의 물결"에서 보다 집중적인 "제2의 물결"로 접근 방식과 목표가 전환될 것으로 보고 있다.
그 의미는 다음과 같다. 지금까지 생성 AI 애플리케이션은 압도적으로 정보 다이버전스(divergence)에 초점을 맞춰졌다. 즉, 일련의 지침들에 따라 새로운 콘텐츠를 생성한다. 웨이브 2(Wave 2)에서는 정보를 융합하는 AI 애플리케이션이 더 많이 등장할 것으로 예상된다.
즉, 사용 가능한 정보를 종합해 더 적은 콘텐츠를 보여줄 것이다. 따라서 웨이브1과 대조하기 위해 우리는 웨이브2를 합성 AI( synthesis AI, SynthAI)라고 부른다. 웨이브1이 애플리케이션 계층에서 어느 정도 가치를 창출했다면, 웨이브2는 한 단계 더 높은 수준의 기능 변화를 가져올 것으로 예상하고 있다.
아래에서 설명하겠지만, 궁극적으로 B2B 솔루션 간 경쟁은 뛰어난 AI 기능들보다는 이러한 기능들이 기업들이 가치 있는 엔터프라이즈 워크플로우를 소유(또는 재정의)하는 데 어떻게 기여하는지에 보다 초점이 맞춰질 것이다.
웨이브1: 컨슈머에서 엔터프라이즈로 가로지르기
웨이브1을 분석하려면 먼저 B2C 애플리케이션과 B2B 애플리케이션을 구분하는 것이 유용하다. 소비자로서 생성AI를 사용할 때, 우리 목표는 재미와 공유할 무언가를 갖는 것에 맞춰져 있다. 여기에서 품질이나 정확성은 우선순위가 높지 않다: AI 모델이 예술 작품이나 음악을 생성해 디스코드(Discord) 채널에서 공유하는 것은 재미 있는 일이다.
우리는 '더 많이=생산적=좋은 것'이라고 믿는 심리적 경향이 있기 때문에 자동화된 제작에 끌리는 편이다. 더 오래 공유할 수 있는 것이 더 인상적이기 때문에 품질이 떨어지더라도 이를 감수하는 대표적인 사례가 바로 챗GPT(ChatGPT)의 부상이다.
B2B 애플리케이션의 경우 목표가 다르다. B2B 애플리케이션들에선 시간과 품질에 대한 비용 편익 평가가 먼저 이뤄진다. 당신은 같은 시간에 더 좋은 품질을 생성하거나 같은 품질을 더 빠르게 생성할 수 있기를 원한다. 이것이 B2C에서 B2B로의 첫 전환이 실패하는 지점이다.
우리는 품질이 중요한 업무 환경들에서 B2B 애플리케이션들을 사용한다. 그러나 오늘날 AI가 생성하는 콘텐츠들은 대부분 반복적이고 위험도가 낮은 작업에 적합하다. 예를 들어, 생성 AI는 광고나 제품 설명을 위한 짧은 문구들을 작성하는 데 적합하며, 많은 B2B 애플리케이션이 이 분야에서 인상적인 성장을 보이고 있다. 하지만 이후 B2B 무대들에서 혁신과 협업과 관련해 보다 가치 있는 의견이나 주장을 작성하는 데는 생성 AI 신뢰성이 떨어지는 것을 봐왔다. (AI가 생성한 콘텐츠가 설득력이 있거나 확신에 차 있더라도 부정확한 경우가 많음)
한 모델은 SEO 스팸을 생성할 수 있지만 예를 들어 소프트웨어 개발자들을 위한 신제품을 발표하는 블로그 게시물들은 그것이 정확하고 타깃 고객들이 공감할 수 있도록 하려면 인간이 상당한 양을 다듬을 필요가 있다.
점점 더 보편화하고 있는 또 다른 예는 아웃바운드 영업 이메일을 작성하는 것이다. 생성 AI는 일반적이고 콜드(Cold) 아웃바운드 이메일에는 유용하지만 정확한 개인화 측면에선 신뢰도가 떨어진다. 유능한 영업 담당자들 관점에서 볼 때, 생성 AI는 짧은 시간에 더 많은 이메일을 작성하는 데 도움이 될 수 있지만, 응답률을 높이고 궁극적으로 미팅 예약으로 이어지는 이메일을 작성하려면(이는 담당자의 평가 기준이다) 담당자가 여전히 조사를 수행하고 잠재 고객이 듣고 싶어 하는 내용에 대해 판단력을 발휘해야 한다.
본질적으로 웨이브 1은 브레인스토밍 및 초안 작성 단계에서 보다 실질적인 글쓰기에 성공했지만, 궁극적으로 창의성과 도메인 전문성이 보다 요구될수록 보다 많은 사람의 개선이 필요하다.
워크플로우 파괴에 따른 비용(또는 이점)은 무엇인가?
생성 AI가 긴 블로그 게시물에 유용한 경우에도 프롬프트는 정확하고 관행에 맞는 것이어야 한다. 즉, AI가 긴 형식으로 표현하기 전에 작성자가 블로그 게시물 내용이 나타내는 개념을 이미 명확하게 이해하고 있어야 한다. 그런 다음, 만족스러운 최종 결과를 얻기 위해 작성자는 결과물을 검토하고, 프롬프트를 반복하며, 전체 섹션을 다시 작성해야 할 수도 있다.
극단적인 예로 ChatGPT를 사용하여 법률 문서를 생성하는 경우를 들 수 있다. 물론 그렇게 할 수는 있지만, 이 프롬프트에는 법률에 익숙한 사람이 필요한 모든 조항을 제공해야 하며, ChatGPT는 이를 사용해 더 긴 형식 문서 초안을 생성할 수 있다. 거래 동의서에서 결산 문서로 넘어가는 과정을 생각해 보라. AI는 주요 당사자 간 협상 프로세스를 수행할 수는 없지만, 모든 주요 조건들이 설정되면 생성 AI가 더 긴 결산 문서 예비 초안을 작성할 수 있다. 하지만 당사자들이 서명할 수 있는 최종 상태로 문서를 완성하려면 숙련된 변호사가 결과물을 검토하고 편집해야 한다.
이것이 바로 B2B 맥락에서 비용 편익 평가가 세분화되는 이유다. 지식 근로자로서 우리는 워크플로우에 AI 기반 단계를 추가하는 데 시간을 투자할 가치가 있는지, 아니면 그냥 직접 수행해야 하는지 평가한다. 오늘날 웨이브 1 애플리케이션을 사용하면 직접 수행하는 것이 더 낫다는 답이 자주 나온다.
웨이브 2: 의사 결정 개선을 위한 정보 융합
차세대 AI 애플리케이션으로 넘어가면서 초점은 정보 생성에서 정보 합성( synthesis of information)으로 전환될 것으로 예상된다. 지식 업무에서는 의사 결정이 매우 중요하다. 직원들은 불완전한 정보를 바탕으로 의사결정을 내리기 때문에 보수를 받는다. 이러한 의사결정을 실행하거나 설명하기 위해 생성되는 콘텐츠의 양은 중요치 않다. 많은 경우, 길수록 좋은 것이 아니라 그저 길어질 뿐이다.
작성된 코드 줄 수는 엔지니어링 생산성의 좋은 척도가 아니며, 제품 사양이 길다고 해서 반드시 구축해야 할 사항이 더 명확해지는 것은 아니다. 슬라이드 데크가 길다고 해서 항상 더 많은 인사이트를 제공하는 것은 아니라는 등 많은 격언들이 이를 뒷받침한다.
헥스(Hex) CEO이자 공동 창립자인 Barry McCardel은 인간과 컴퓨터 공생을 믿으며 LLM이 어떻게 우리의 업무 방식을 개선할 수 있는지에 대해 강조한다:
"AI는 인간을 대체하는 것이 아니라 인간을 증강하고 개선하기 위해 존재한다. 세상을 이해하고 의사 결정을 내릴 때는 사람이 함께해야 한다. AI가 할 수 있는 일은 우리가 가치 있고 창의적인 일에 더 많은 뇌파를 적용해 하루에 더 많은 시간을 중요한 일에 할애할 수 있을 뿐만 아니라 최고 업무에 집중할 수 있도록 도와주는 것이다."
AI가 인간 의사결정을 어떻게 개선할 수 있을까? 우리는 LLM들이 실제 의사 결정 자체는 아니더라도 의사 결정 품질 및/또는 속도를 개선하는 합성 및 분석(SynthAI)에 초점을 맞춰야 한다고 생각한다. 여기에서 가장 분명한 응용 분야들은 인간이 직접 소화할 수 없는 방대한 양의 정보를 요약하는 것이다.
앞으로 합성AI(SynthAI)의 진정한 가치는 인간이 더 나은 의사결정을 더 빨리 내릴 수 있도록 돕는 데 있을 것이다. 우리는 ChatGPT 사용자 인터페이스와 거의 정반대 인터페이스를 그리고 있다: 축약된 프롬프트에 기반해 긴 형식 응답을 작성하는 대신, 방대한 양의 데이터에서 이를 요약하는 간결한 프롬프트를 리버스 엔지니어링할 수 있다면 어떨까? 많은 양의 정보를 최대한 효율적으로 전달할 수 있는 UX를 다시 생각해 볼 기회들이 있다고 생각한다. 예를 들어, 조직 내 모든 회의 메모를 보관하는 멤(Mem)과 같은 AI 기반 지식 베이스는 새로운 프로젝트를 시작할 때 참고해야 할 관련 의사 결정, 프로젝트 또는 사람을 선제적으로 제안해 이전 조직 지식을 탐색하는 데 몇 시간(심지어 며칠)을 절약할 수 있다.
아웃바운드 영업 이메일 예로 돌아가서, AI가 뉴스 보도, 실적 발표, 인재 이동 등을 기반으로 타깃 고객들 구매 의향이 가장 높은 시점을 파악해 관련 영업 담당자에게 알려주는 것도 한 가지 잠재적인 활용 사례다. 그러면 AI 모델은 종합된 리서치를 기반으로 이메일에서 언급해야 할 가장 중요한 이슈 한두 가지와 해당 대상 계정과 가장 관련성이 높은 제품 기능을 제안한다. 아이러니하게도 이들 입력값은 웨이브 1 솔루션에 입력될 수 있지만, 가치는 합성 단계에서 나온다. 그리고 영업 담당자는 잠재 고객 한 명에 대해 조사하는 데 몇 시간을 절약할 수 있다.
이러한 합성을 충분히 높은 품질로 보장하기 위한 근본적인 변화는 대규모 일반 모델(large-scale, generic models)에서 도메인 및 사용 사례별 데이터셋에 학습된 보다 세밀하게 조정된 모델을 포함해 여러 모델을 활용하는 아키텍처로 전환하는 것이다.
예를 들어 고객 지원 애플리케이션을 구축하는 회사들은 주로 회사 과거 지원 티켓(support tickets)에 액세스할 수 있는 지원 중심 모델을 사용할 수 있다. 그러나 일반적이지 않은 경우들에 대해서는 GPT로 돌아갈 수 있다. 미세 조정된 모델과 데이터셋이 독점적인( proprietary) 것일 경우, 이러한 구성 요소가 속도와 품
질을 제공하는 데 있어 해자가 될 수 있는 기회가 있다.
합성AI 구현하기
웨이브 2가 어떤 모습일지 생각해보면, 합성 AI를 통해 가장 큰 이점을 얻을 수 있는 사용 사례는 두 가지가 모두 있을 때라고 생각한다.:
사람이 모든 정보를 수동으로 선별하는 것이 실용적이지 않을 정도로 정보의 양이 많은 경우.
신호 대 잡음비가 높은 상황
이를 통해 웨이브 2 애플리케이션이 제공할 결과 유형과 웨이브 1 결과가 어떻게 다른지 생각해 볼 수 있다. 아래에서 몇 가지 예를 통해 비교를 생생하게 보여주려 했지만 이들 사례가 모든 것을 포괄하는 것은 아니다.
워크플로우를 장악하기 위한 싸움
자연스럽게 기존 기록 시스템과 워크플로우 솔루션들 간 AI 증강 기능을 포함하려는 경쟁이 벌어지고 있다. 새로운 AI 네이티브 솔루션들도 나오고 있다. 이 경쟁에서 핵심은 누가 AI 합성 기능을 구축할 수 있느냐가 아니라 누가 워크플로우를 소유할 수 있느냐에 있다. 기존 솔루션의 경우, 공급업체들은 AI를 통해 기존 워크플로우를 개선함으로써 기존 워크플로우를 강화하기 위해 경쟁하고 있다. 도전자들의 경우, 공급업체는 동급 최고 AI 구현을 쐐기로 박고 이를 확장해 워크플로우를 재정의하려고 할 것이다.
동시에 우리는 원시 피드백을 수집하는 기존 플랫폼과 통합하고 AI를 사용해 사용자 피드백을 요약하는 데만 집중하는 새로운 스타트업들이 나오는 것을 보고 있다.
아웃바운드 영업 사용 사례와 관련해 ZoomInfo는 최근 GPT를 플랫폼에 통합한다고 발표하고 데모 동영상을 공유했다. 이 비디오에서 특정 부분은 앞서 설명한 웨이브 2 사례와 크게 다르지 않다. 이와 유사하게, AI 퍼스트 접근 방식을 통해 아웃바운드 영업 프로세스를 최대한 자동화하는 데 집중하는 새로운 스타트업들도 이미 나오고 있다.
AI가 업무 방식을 변화시킬 수 있는 잠재력은 무궁무진하지만 아직은 초기 단계에 머물러 있다. B2B 애플리케이션에서 생성 AI는 더 많은 콘텐츠를 생성하는 것을 넘어 업무를 더 빠르고 효과적으로 수행할 수 있는 합성 AI로 발전해야 한다. B2B 애플리케이션에서는 누가 워크플로우를 소유할 수 있는지에 대한 끊임없는 경쟁이 벌어지고 있으며, AI 네이티브 애플리케이션들은 이러한 경쟁을 더욱 흥미진진하게 만들 것이다.