McKinsey & Company Report
이 글은 McKinsey & Company의 2024년 리포트 McKinsey Explainers, What is tokenization? 내용을 번역, 요약, 의역 및 재구성한 글입니다.
원문:
토큰화(Tokenization)란?
토큰화
- 토큰화는 실제 사물(real thing) 혹은 보여지는 것들을 디지털화된(digital), 특수한(unique), 익명의(anonymous) 형태로 표시하는 것
토큰화의 목적
1. 민감한 데이터를 보호하기 위함
2. 대량의 데이터를 효율적으로 처리하기 위함
토큰화가 가능한 것들
- 유형 자산: 토지(real estate), 예술 작품 등
- 금융 자산: 채권, 주식 등
- 무형 자산: 지적 재산권, 신원, 데이터등
생성형 AI, Web3, 핀테크(FinTech)의 공통점 = '토큰화'에 의존한다는 점
1. 생성형 AI
- 데이터를 쪼개 패턴을 더욱 쉽게 파악(pattern detection)할 수 있게 함 ex. 문장을 개별 문자로 분해
- 거대 언어 모델(LLM, Large Language Model)이 딥러닝(deep learning) 기술을 기반으로 정보의 조각들을 분류하고, 연결하고, 처리할 수 있게 함
2. Web3
- 자산을 접근 가능한 형태로 만드는 자산의 디지털화 작업에 사용됨
- 특정 블록체인(blockchain) 및 프로토콜(protocol) 내에서 토큰을 사용할 수 있도록 하기 위함
3. 핀테크
- 결제의 사이버 보안(cybersecurity)을 위해 결제 자체의 *난독화(obfuscate)에 사용됨
*난독화: 소프트웨어 난독화란, 소프트웨어의 소스코드 또는 머신코드를 난독화하여 사람 또는 분석 도구가 이해하거나 분석하기 힘들게 만드는 일을 뜻한다.
토큰화를 통해 만들어진 토큰의 예시
- 스테이블 코인(stablecoin): 실제 화폐에 페깅(pegged)되어 대체되거나 복사될 수 있는 암호화폐 토큰
- 대체 불가능 토큰 (Non Fungible Token): 소유권에 대한 디지털 증명으로, 복사되거나 대체될 수 없는 토큰
- 관계화: 거대 언어 모델에서 특정 단어가 다른 단어들의 연결성을 파악하여 관계를 만드는 데에 활용되는 토큰
거대 언어 모델에 토큰화가 어떻게 사용되는가?
생성형 AI 기초 지식 정리
- 파운데이션 모델(foundation model): 방대한 비정형(unstructured)의 라벨이 없는(unlabeled) 데이터들을 학습시킨 딥러딩 모델
- 파운데이션 모델은 파인 튜닝(fine-tuning)의 과정을 거쳐, 방대한 양의 비정형 텍스트를 처리 + 문장, 단어, 단어의 일부간의 관계를 학습 -> 자연어 텍스트를 생성하거나, 요약, 특정 정보 추출의 작업이 가능하게 됨
생성형 AI에 토큰화가 적용되는 과정
1. LLM에 텍스트가 입력됨
2. LLM이 텍스트를 토큰으로 쪼갬
3. 각 토큰들은 특정한 숫자 구분자(numerical identifier)를 부여받음
4. 각 토큰들은 다시 LLM에 입력되어 처리됨
5. LLM은 각 토큰들에 대한 관계를 학습하고, 패턴을 기반으로 답변을 형성
LLM에 적용되는 토큰화 기술
1. 단어 토큰화
- 텍스트를 개별 단어나 단어처럼 보이는 단위로 나눠 각 단어가 한 토큰이 됨
- 축약어(contraction)나 합성어(compound word)와 같은 경우에는 처리가 어려울 수 있음
2. 문자(character) 토큰화
- 텍스트의 각 문자를 별도의 토큰으로 만듬
- 단어 경계가 불분명한 언어나 필기 인식과 같은 상황에서 유용함
3. 보조 단어(subword) 토큰화
- 자주 사용되지 않는 단어를 자주 나타나는 문자 시퀀스의 단위로 분해
- 보조 단어 토큰은 개별 문자보다 크지만 전체 단어보다는 작음
- 보조 단어 토큰화를 통해 모델은 훈련 데이터에 없었던 단어를 더 잘 처리할 수 있음
- 바이트 페어 인코딩(BPE, Byte pair encoding)은 보조 단어 토큰화 알고리즘 중 하나: 처음에 문자나 단어로 구성된 어휘 목록을 만듬 -> 데이터 내에서 가장 자주 함께 나타나는 토큰 쌍을 찾아서 하나의 새로운 토큰으로 합킴 -> 이 과정을 반복하면서 점점 더 큰 토큰들이 만들어지고, 이렇게 생성된 토큰들은 자주 나타나는 문자의 패턴이나 단어의 조합을 포함하게 됨
4. 형태소(morphological) 토큰화
- 형태소(morpheme): 단어나 단어의 일부로, 특정 의미나 문법적 기능을 가지고 있음 ex. "incompetence"라는 단어에서 "in-"(부정을 나타내는 접두사), "competent"(어근), "-ence"(상태 혹은 질을 나타내는 접미사)와 같이 분리
- 형태소가 토큰화되면, 단어의 다양한 활용(variation), 문법적 구조 이해, 언어적으로 정확한 구사가 가능하게 됨
Web3 내 자산의 토큰화 과정
Web3 기초 지식 정리
1. 블록체인(blockchain)
- 네트워크 전반에 걸쳐 존재하는 분산 디지털 원장(ledger)으로, 거래 기록을 용이하게 함
- 새로운 데이터가 네트워크에 추가되면 새로운 블록이 체인에 영구적으로 추가(append) -> 블록체인의 모든 노드는 이 변경 사항을 반영하도록 업데이트
- 이는 시스템이 단일 제어 지점이나 실패 지점에 의존하지 않음을 의미
2. 스마트 컨트랙트 (smart conract)
- 구매자와 판매자 간에 특정 조건이 충족되면 자동으로 실행되는 소프트웨어 프로그램
- 스마트 계약은 변경할 수 없는 블록체인 코드로 설정됨
3. 디지털 자산과 토큰
- 디지털 형태로만 존재하는, 가치 있는 자산들 ex. 암호화폐, 스테이블코인, 중앙은행 디지털 통화(CBDCs), NFT, 예술 작품, 콘서트 티켓 등
Web3 내 자산의 토큰화 과정
1. 자산 소싱: 토큰화할 자산을 결정
- 해당 자산이 증권으로 취급될지, 상품으로 취급될지, 그리고 어떤 규제 정책이 적용될지 파악
2. 디지털 자산 발행 및 보관(custody)
- 물리적 대응물을 가지고 있다면, 후자는 양 당사자에게 중립적인 보안 시설로 옮겨져야 함
- 이후 토큰, 네트워크 및 규제 정책을 수립하여 블록체인 내 자산의 전자적 표시 방식을 만들어냄
- 디지털 자산에 대한 접근은 배포가 이루어질 때까지 저장됨
3. 배포 및 거래: 투자자는 디지털 자산을 저장할 디지털 지갑을 설정
- 자산에 따라, 공식 거래소의 대안으로 더 느슨하게 규제되는 2차 거래 장소가 만들어질 수 있음
4. 자산 관리 및 데이터 조정(data reconciliation)
- 규제, 세금, 회계 보고, 기업 행위(corporate action) 공지 등
금융업 내 토큰화의 장점과 효용
1. 빠른 거래 정산(transaction settlement)
- 현재 대부분의 금융 결산은 거래 실행 후 이틀이 걸림(T+2; 이론적으로는 각 당사자가 서류와 자금을 준비할 시간을 주기 위함)
- 토큰화를 통해 가능해진 즉각적인 결산은 고금리 환경에서 금융 회사들이 상당한 절감을 이루게 해줌
2. 운영 비용 절감
- 연중 무휴로 이용 가능한 데이터 접근성
- 서비스나 발행의 운영 과정이 수동적이거나 오류가 발생하기 쉬운 경우에 유용 ex. 회사채(corporate bond)
- 이자 계산 및 쿠폰 지급과 같은 운영을 토큰의 스마트 계약에 내장 -> 자동화 가능
3. 접근의 민주화
- 수동적이고 운영상 많은 노력이 필요한 과정을 간소화 -> 금융 서비스 제공자들이 소규모 투자자를 대상에게 효율적으로 서비스를 제공할 수 있게 됨
- 하지만 토큰화된 자산 분배는 상당한 확장이 필요
4. 스마트 계약에 의한 향상된 투명성
- 스마트 계약은 블록체인에서 발행된 토큰에 코딩된 지시사항 모음으로, 특정 조건에서 자동으로 실행 ex. 탄소 크레딧 거래
5. 저렴하고 빠른 인프라
- 블록체인은 본질적으로 오픈 소스 -> 저렴하고 기민한 금융 서비스 인프라를 제공 가능