brunch

토큰 소싱

AI 시대의 첫 번째 기회와 최종 해자

by 김윤서

본 글은 Ribbit Capital의 리포트를 한국어로 재해석한 것이며, 총 4편으로 구성됩니다.

본 편을 읽기 전, 1편을 읽고 오시는 것을 강력히 추천드립니다.


1. AI 전환: 토큰 관점에서 비즈니스 재설계하기 (링크)

2. 토큰 소싱: AI 시대의 첫 번째 기회와 최종 해자

3. 에이전트 혁명: 도구가 아니라 결과를 파는 시대 (링크)

4. 지능의 풍요: 무엇이 희소해지는가 (링크)




당신의 회사는 어떤 토큰을 제공합니까?
그리고 그 토큰은 절대 복제될 수 없나요?



16sse3xope741.jpg?width=640&crop=smart&auto=webp&s=b349d5df0f24435d6ea6de6980cac128625614c0 샘 월튼의 개인 경비행기 (1946년)


나폴레옹은 항상 지형 측량사를 데리고 다녔고, 월마트 창업자 샘 월튼은 소도시 상권을 살피기 위해 직접 경비행기를 몰았습니다. 이들은 모두 남들이 보지 못하는 데이터를 집요하게 모으고 분석해 자신만의 지도를 그렸습니다.


오늘날의 많은 창업가들도 똑같은 일을 하고 있습니다. 그들은 기계가 인간 세상을 이해할 수 있도록, 각 영역에서 인간 시스템의 지도를 만들고 있습니다. 그리고 도구가 바로 "토크나이저 (Tokenizer)"입니다.



토크나이저: AI 시대의 첫 번째 기회


ChatGPT Image Nov 19, 2025, 04_04_47 AM.png


겉보기엔 단순한 서비스들이 AI 시대의 첫 번째 킬러 앱이 될 것입니다. 대부분 회의 내용이나 문서를 정리해 주는 소프트웨어처럼 보이지만, 이들은 AI 시대의 가장 중요한 문제 하나를 해결합니다.


기계가 이해할 수 없던 세계를, 기계가 이해할 수 있는 토큰으로 변환하는 것


이 변환은 두 가지 흐름으로 나타납니다.


1. 휘발되는 데이터를 실시간으로 포착해 토큰으로 변환


현재를 데이터 범람의 시대라고 하지만, 실제로 의사결정을 만들어내는 대부분의 정보는 아예 기록조차 되고 있지 않습니다.


의사와 환자 간의 대화

고객의 오프라인 동선

세일즈 콜 중 고객의 표정과 반응

프로젝트 우선순위 조율 프로세스


매 순간마다 중요한 정보가 생성되지만 대부분 공기처럼 사라집니다. 이 문제를 해결하는 것이 변환 토크나이저입니다. 대표적으로 아래와 같은 서비스들이 있습니다.


Otter : 회의·전략 미팅의 음성을 구조화된 문서로 변환

Jump : 자산관리 상담 내용을 액션 리스트로 변환

Gong : B2B 세일즈 미팅을 구조화된 토큰으로 변환


한 번의 변환으로 조직 전체가 공유 가능한 새로운 맥락이 생기고, 이 작은 변화가 10배~100배의 정보 레버리지를 만듭니다.


2. 이미 존재하지만 기계가 읽지 못하는 데이터를 정제


많은 대기업들이 “우리는 페타바이트급 데이터를 보유하고 있습니다!”라고 말합니다. 그리고 대규모 데이터를 기반으로 AI 네이티브 회사로 전환하겠다고 주장합니다. 하지만 대부분의 현실은 시궁창입니다. 그들이 주장한 데이터는 지저분한 문서와 로그들로 가득하며, 직원들은 여전히 반복 노동에 시달리고 있습니다.


즉, 현실의 데이터 대부분은 존재하지만 기계가 읽을 수 있는 상태가 아닙니다. 이 문제를 해결하는 것이 정제 토크나이저입니다. 대표적으로 아래와 같은 서비스들이 있습니다.


Reducto: 문서를 토큰화 가능한 구조로 자동 분해

Heron Data: 금융 문서·계약서를 표준 지표로 변환

Pulse: 엔터프라이즈 문서에서 신뢰 가능한 정형 데이터 추출


이들은 정형화되지 않은 기업의 데이터를 “기계가 읽을 수 있는 구조”로 변환해 수백만 시간의 단순 노동을 제거합니다.



토크나이저의 해자는 어디서 생기는가 : 토큰 생성을 넘어 정제로


각 산업별로 많은 토크나이저들이 탄생하겠지만, 초기 토크나이저들 대부분은 결국 ChatGPT 같은 범용 LLM에 흡수되거나 밀릴 것입니다. 범용 LLM이 지원하는 입력 토큰이 끊임없이 다양화되고 길어지고 있기 때문입니다. (초기 ChatGPT는 이미지도, 음성도 지원하지 않았습니다.)


장기적으로 살아남기 위해서는 단순 토큰 생성을 넘어, 토큰을 정제하여 더 가치 있는 결과를 만드는 공장으로 진화해야 합니다. 핵심은 전문가 피드백을 흡수해 ‘전문 토큰 (Expert Tokens)’을 만드는 것입니다. Abridge가 대표적인 예시입니다.


Screenshot 2025-11-19 at 4.12.38 AM.png


Abridge는 처음엔 의사와 환자 간의 대화를 받아 적는 단순한 전사 도구였습니다. 그런데 의사와 행정팀이 남긴 메모가 매일 모델에 흡수되면서 상황이 달라졌습니다. Abridge는 의사와 행정팀이 남긴 메모를 활용해 보험사들이 거절하지 않는 문장의 패턴, 청구 승인 확률을 높이는 표현, 필수 템플릿의 구조적 요구사항을 학습했습니다.


그 결과로 Abridge는 단순 전사 도구에서 승인율이 높은 보험 청구 문서를 자동으로 생성하는 도구로 진화했습니다. 즉, 의사와 환자의 대화를 전사한 토큰들과 전문가의 피드백으로 만들어진 전문가 토큰이 합쳐져 더 높은 가치의 결과를 만든 것입니다. 이는 ChatGPT 같은 범용 LLM이 흡수하기 어려운 해자입니다.


모든 산업에서 동일한 진화가 벌어질 것입니다. 각 산업의 창업자들은 먼저 “토큰화할 수 있는 매력적인 좁은 영역”을 찾고, 그다음 그 데이터를 계속 정제하고 피드백을 통해 구성된 전문가 토큰을 합쳐 더 높은 가치의 출력 토큰을 생성하는 루프를 만들 것입니다.



독점 토큰 : 존재 자체로 해자가 있다


토크나이저는 AI 전환 시대의 첫 기회이지만, 결국 모든 비즈니스는 '희소성'에서 가치가 생깁니다. ChatGPT가 공개되고 몇 주 뒤, Ribbit Capital 내부에서 이런 질문이 나왔습니다.


“회사가 아니라 ‘데이터’에 투자한다면, 어떤 데이터를 살 것인가?”


금, 석유, 희토류, 소셜 그래프, 검색 트래픽은 시대마다 비즈니스와 지정학적 우위를 지배한 희소 자원이었습니다. 그렇다면 AI 시대에 이 정도의 전략적 자산이 될 토큰은 무엇일까요?


“기계가 절대 스스로 만들 수 없고, 소수 기업만 독점적으로 보유할 수 있는 토큰들”


이를 독점 토큰이라 부르며, 네 가지로 구분됩니다.


1. 정체성 토큰 (Identity Tokens)


개인을 나타내는 정보입니다. 생체 정보, 신원 정보, 디지털 ID, 본인 인증된 계정 등이 있습니다. 법적·기술적 장벽이 높으며 브랜드에 대한 강한 신뢰를 필요로 하기 때문에 발급 기관 자체가 극소수입니다.


2. 맥락 토큰 (Context Tokens)


개인의 행동·패턴·선호입니다. 검색 기록, 거래 내역, 시간별 위치, 투자 패턴 등이 있습니다. 개인이 어떤 것에 돈과 시간을 쓰는지를 이해할 수 있습니다. 기계가 특정 개인을 이해하게 만드는 핵심 자산입니다.


3. 접근 토큰 (Access Tokens)


가장 민감한 데이터에 접근할 수 있는 권한입니다. 결제 토큰, 은행 계좌 접근 권한, 의료 기록 접근 권한 등이 있습니다. 정체성 토큰과 마찬가지로 발행 기관이 극소수며, 규모의 경제를 필요로 합니다.


4. 기억 토큰 (Memory Tokens)


LLM(에이전트)이 개인에 대해 지속적으로 축적한 맥락입니다. ChatGPT Memory가 대표적인 예시입니다. 개인이 오랜 시간 소통하며 구축되는 정보이기에 사실상 복제가 불가능합니다. Login With ChatGPT 같은 기능이 나와 기억 토큰을 다른 에이전트 또는 토큰 공장에 제공하는 형태가 될 것으로 보입니다.


ChatGPT Memory는 단순한 기능을 넘어 AI가 인간을 이해하고 축적하는 방식이 표준화되는 첫 시도입니다. 기억 토큰이 축적될수록 개인은 더 깊이 그 플랫폼에 고착됩니다.


여러분은 ChatGPT와 얼마나 많은 개인적인 얘기를 하시나요? Google은 검색 의도만으로 2640억 달러를 벌고, Meta는 관심사만으로 1640억 달러를 벌고 있습니다. 그렇다면 OpenAI는 메모리 토큰 기반의 초정밀 개인화로 대체 얼마를 벌 수 있을까요?



정리하며 : 첫 기회는 토크나이저, 최종 승자는 독점 토큰을 가진 회사다


AI 전환은 토크나이저에서 시작됩니다. 토크나이저는 지금까지 기록조차 되지 않던 대화·행동·문서·현장 데이터를 실시간으로 포착하고, 지저분한 문서 더미를 기계가 읽을 수 있는 구조로 정제하는 일을 합니다. 이 단순한 변환이 모든 산업을 AI 네이티브로 전환시키는 첫 단추일 것입니다.


하지만 진짜 승부는 그다음입니다. 전문가 피드백을 흡수해 전문 토큰으로 진화하고, 더 나아가 기계가 스스로 만들 수 없는 정체성·맥락·접근·기억 토큰을 독점적으로 확보한 회사만이 장기적인 해자를 구축할 것입니다.


지금의 AI 경쟁은 겉으로는 모델 경쟁처럼 보이지만, 실제로는 누가 어떤 토큰을 소싱하고 독점할 수 있는가의 전쟁입니다. 휘발되는 데이터를 가장 잘 포착하는 회사가 첫 기회를 가져갈 것이고, 독점 토큰을 축적하는 회사가 최종 승자가 될 것입니다.


당신의 회사는 어떤 데이터를 축적하고 있으며, 그중 독점 토큰은 무엇인가요?

이 질문이야말로 앞으로의 10년을 결정하는 출발점일 것입니다.

keyword
작가의 이전글AI 전환