brunch

You can make anything
by writing

C.S.Lewis

by delight Aug 19. 2023

블록체인 기반 머신러닝 마켓플레이스의 현재와 미래

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 번역 과정에서 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 코인베이스 공동 창업자로 지금은 크립토펀드 패러다임에 있는 프레드 어삼이 미디엄에 쓴 글을 정리한 것입니다.


블록체인 기반 마켓플레이스에 있는 데이터로 훈련된 머신러닝 모델은 세계에서 가장 강력한 인공 지능을 만들 수 있는 잠재력이 있다. 


여기에는 민감한 개인 데이터를 공개하지 않고도 학습을 수행할 수 있는 프라이빗 머신러닝( private machine learning)과 이들 시스템이 최고 데이터와 모델을 유치해 보다 영리하게 만들 수 있는 블록체인 기반 인센티브라는 두 가지 강력한 기본 요소가 결합돼 있다. 이를 통해 누구나 자신의 데이터를 판매하고 데이터를 비공개로 유지할 수 있는 개방형 마켓플레이스를 구현해 개발자는 인센티브를 통해 알고리즘에 가장 적합한 데이터를 유치할 수 있다.


이러한 시스템을 구축하는 것은 어렵고 필수적인 빌딩 블록은 여전히 만들어지고 있는 단계지만 간단한 초기 버전은 가능해지기 시작한 것으로 보인다. 나는 이러한 마켓플레이스가 우리를 현재 웹 2.0 데이터 독점 시대에서 벗어나 데이터와 알고리즘에 대한 공개 경쟁을 통해 직접 수익을 창출하는 웹 3.0 시대로 이끌 것으로  보고 있다.


유래

이 아이디어는 2015년 Numerai의 Richard와 나눈 대화에서 나왔다. Numerai는 주식 시장을 모델링하기 위해 경쟁하고 싶은 모든 데이터 과학자들에게 암호화된 시장 데이터를 전송하는 헤지펀드다. Numerai는 제출된 모델들 중 가장 우수한 모델을 '메타모델'(metamodel)로 결합하고, 이 메타모델을 거래한다. 그리고 모델이 좋은 성과를 내는데 기여한 데이터 과학자들에게 보수를 지급한다.


데이터 과학자들이 경쟁하게 하는 것은 강력한 아이디어처럼 보였고 이는 "어떤 문제들에도 일반화할 수 있는 완전히 탈중앙화된 버전 시스템을 만들 수 있을까?"하는 생각으로 이어졌다. 나는그 대답이 '예'라고 생각한다.


구축

예를 들어 탈중앙화 거래소에서 암호화폐를 거래할 수 있는 완전 탈중앙화 시스템을 제작한다고 해보자. 이는 잠재적으로 만들 수 있는 많은 것들 중 하나다. 


데이터

데이터 제공자는 데이터를 스테이킹해 모델러(modeler)가 사용할 수 있도록 한다. 


모델 구축 

모델러는 사용할 데이터를 선택하고 모델을 만든다. 학습은 기초 데이터를 노출하지 않고도 모델을 학습할 수 있는 안전한 계산 방식으로 수행된다. 모델도 스테이킹된다.


메타모델 구축 

메타모델은 각 모델들의 스테이킹을 고려하는 알고리즘 기반으로 만들어진다. 메타모델을 만드는 것은 선택이며 메타모델로 결합되지 않고 사용되는 모델도 상상할 수 있다.


메타모델 사용 

스마트 컨트랙트는 메타모델을 가져와 온체인에서 탈중앙화된 교환 메커니즘을 통해 프로그래밍 방식으로 거래한다.


이익/손실 분배 

일정 기간이 지나면 거래는 이익 또는 손실을 발생시킨다. 이 수익 또는 손실은 메타모델을 얼마나 더 스마트하게 만들었는지에 따라 메타모델에 기여한 사람들에게 분배된다. 마이너스 기여를 한 모델은 스테이킹한 자금 일부 또는 전부를 가져간다. 그런 다음 모델들은 데이터 제공자에게 유사한 분배/지분 삭감을 수행한다.


검증 가능한 계산 

각 단계 계산은 중앙 집중식으로 수행된다. 하지만 트루비트(Truebit) 같은 검증 게임임 또는 안전한 다자간 계산을 사용해 탈중앙화된다.


호스팅 

온체인 스토리지는 너무 비싸기 때문에 데이터와 모델은 IPFS에서 호스팅되거나 안전한 다자간 연산 네트워크 노드를 통해 호스팅된다.


이 시스템이 강력한 이유는 무엇인가?

전 세계 최고 데이터를 끌어들이는 인센티브는 이 시스템이 갖는 가장 강력한 부분이다. 비트코인이 개방형 인센티브를 통해 세계에서 가장 강력한 연산 능력을 갖춘 새로운 시스템을 만든 것과 마찬가지로, 데이터에 대한 인센티브 구조를 적절히 설계하면 애플리케이션에 필요한 세계 최고 데이터가 여러분에게로 모이게 될 것이다. 그리고 수천, 수백만 개 소스에서 데이터가 들어오는 시스템을 차단하는 것은 거의 불가능하다. 


알고리즘들 간 경쟁 

이전에는 존재하지 않았던 모델/알고리즘 간 공개 경쟁이 발생한다. 수천 개  뉴스피드 알고리즘이 경쟁하는 탈중앙화된 페이스북을 상상해보라.


보상의 투명성 

데이터 및 모델 제공자는 모든 계산을 검증할 수 있으므로 자신이 제출한 데이터에 대해 정당한 가치를 받고 있다는 것을 알 수 있어 참여 가능성이 훨씬 높아진다.


자동화 

온체인에서 조치를 취하고 토큰에서 직접 가치를 생성하면 신뢰가 필요 없는 자동화된 폐쇄 루프가 만들어진다.


네트워크 효과 

사용자, 데이터 제공자, 데이터 과학자 등 다면 네트워크 효과로 인해 시스템이 스스로 강화된다. 시스템이 더 나은 성과를 낼수록 더 많은 자본을 끌어들이고, 이는 잠재적으로 더 많이 지급할 수 있다는 것을 의미한다.  이는 더 많은 데이터 제공자와 데이터 과학자를 끌어들여 시스템을 더 스마트하게 만들고, 이는 다시 더 많은 자본을 끌어들이는 선순환을 반복한다.


프라이버시

위의 사항들 외에 주요한 기능은 개인정보 보호다. 이 기능을 사용하면 1) 너무 사적이어서 공유할 수 없는 데이터를 제출할 수 있고, 2) 데이터와 모델의 경제적 가치가 유출되는 것을 방지할 수 있다. 암호화되지 않은 채로 공개되면 데이터와 모델이 무료로 복사되어 아무런 기여를 하지 않은 다른 사람이 사용할 수 있다.("무임승차자" 문제).


무임승차자 문제에 대한 일부 해결책은 데이터를 비공개로 판매하는 것이다. 이렇게 되면 구매자가 데이터를 재판매하거나 공개하더라도 시간이 지남에 따라 데이터 가치는 하락한다. 그러나 이러한 접근 방식은 단기간 사용 사례로 제한되며 여전히 일반적인 개인정보 보호 문제를 야기한다. 따라서 더 복잡하지만 강력한 접근 방식은 시큐어 컴퓨테이션(secure computation) 형태를 사용하는 것이다.


시큐어 컴퓨테이션

시큐어 컴퓨테이션을 사용하면 데이터 자체를 공개하지 않고도 데이터로 모델을 학습시킬 수 있다. 현재 사용되고 연구되고 있는 시큐어 컴퓨테이션에는 동형 암호화(HE), 보안 다자간 계산(MPC), 영지식 증명(ZKP) 세 가지 주요 형태가 있다. 


동형 암호화는 속도가 너무 느리고 머신 러닝에 영지식 증명을 적용하는 방법이 명확하지 않기 때문에 현재로서는 다자간 계산이 프라이빗 머신 러닝에 가장 일반적으로 사용되고 있다. 시큐어 컴퓨테이션 방식은 컴퓨터 과학 연구에서 최첨단을 달리고 있다. 일반 연산보다 훨씬 느리고 시스템 주요 병목 현상을 일으키는 경우가 많지만, 최근 몇 년 동안 개선되고 있다.


궁극의 추천 시스템

프라이빗 머신러닝이 갖는 잠재력을 설명하기 위해 "궁극의 추천 시스템"이라는 앱을 상상해 보자. 이 앱은 검색 기록, 앱에서 수행하는 모든 작업, 휴대폰에 저장된 사진, 위치 데이터, 지출 내역, 웨어러블 센서, 문자 메시지, 집에 있는 카메라, 향후 출시될 AR 안경 카메라 등 사용자가 기기에서 수행하는 모든 작업을 감시한다. 그리고 다음에 방문해야 할 웹 사이트, 읽을 기사, 들을 노래, 구매할 제품 등의 추천을 제공한다.


이 추천 시스템은 매우 강력할 것이다. 사용자를 최대한 엔드투엔드로 볼 수 있고, 공유하기에는 매우 사적인 데이터로 학습할 수 있기 때문에 Google, Facebook 보다 강력할 수 있다. 앞서 예로 든 암호화폐 거래 시스템 사례와 유사하게, 이 시스템은 다양한 영역(예: 웹사이트 추천, 음악)을 겨냥한 모델 마켓플레이스가 암호화된 사용자 데이터에 대한 액세스 권한을 놓고 경쟁해 사용자에게 무언가를 추천하고, 데이터 제공 및 생성된 추천에 대한 사용자 관심에 대가를 지불하게 하는 방식으로도 작동할 수 있다.


Google 연합 학습(federated learning)과 Apple 차등 개인정보 보호( differential privacy)는 이러한 프라이빗 머신러닝 방향의 첫 단계이지만 여전히 신뢰가 필요하고, 사용자가 직접 보안을 검사할 수 없으며, 데이터를 격리된 상태로 유지해야 한다.


현재 접근 방식들

아직 초기 단계다. 제대로 돌아가는 그룹은 거의 없으며 대부분은 한번에 하나씩 해나가고 있는 상황이다. 알고리즈미아 리서치(Algorithmia Research)가 제공하는 간단한 구조는 특정 백테스팅 임계값 이상으로 정확한 모델에 현상금을 걸고 있다.


Numerai는 현재 세가지 단계를 제공한다. 암호화된 데이터를 사용하고(완전히 동형은 아니지만), 크라우드소싱 모델을 메타모델로 결합하며  네이티브 이더리움 토큰 누메레어(Numeraire)를 통해 백테스팅( backtesting)이 아니라 미래 성과(이 경우 1주일간 주식 거래)를 기반으로 모델들에 보상한다. 현재 데이터를 중앙 집중적으로 분배하기 때문에 가장 중요한 요소인 데이터 활용이 제한적이다.


아직 블록체인에 기반한 데이터 마켓플레이스를 성공적으로 만든 곳은 없다. The Ocean은 초기 단계 시도다.

다른 이들은 안전한 컴퓨팅 네트워크를 구축하는 것부터 시작하고 있다. Openmined는 게임 콘솔을 비롯한 모든 기기에서 실행할 수 있는 Unity 기반 머신러닝 모델 학습용 다자간 컴퓨팅 네트워크를 구축한 후 보안 MPC로 확장하고 있다. 에니그마(Enigma)도 비슷한 전략을 사용한다.


흥미로운 최종 상태는 데이터 제공자와 모델 제작자가 모델을 얼마나 더 스마트하게 만들었는지에 비례해 소유권을 부여하는 상호 소유 메타모델이다. 이 모델은 토큰화되고, 시간이 지남에 따라 배당금을 지급할 수 있으며, 심지어 모델을 훈련시킨 사람들이 관리할 수도 있다. 일종의 상호 소유형 하이브 마인드(hive mind)다. 오픈마인드 오리지널 비디오는 지금까지 본 것 중 이에 가장 근접한 구조다.


어떤 접근 방식이 먼저 효과를 보여줄까?

어떤 구조가 가장 좋은지 정확히 알고 있다고 주장하지는 않겠지만, 몇 가지 아이디어는 있다. 내가 블록체인 아이디어를 평가할 때 사용하는 한 가지 정설은 물리적 네이티브부터 디지털 네이티브, 블록체인 네이티브에 이르는 스펙트럼에서 블록체인 네이티브가 많을 수록 좋다는 것이다. 블록체인 네이티브가 적을수록 신뢰할 수 있는 서드파티가 더 많이 들어와 복잡성이 증가하고 다른 시스템과 빌딩 블록으로서 사용 편의성은 떨어진다.


이것은 생성된 가치를 정량화할 수 있는 경우, 즉 화폐나 보다 괜찮게는 토큰 형태로 직접 정량화할 수 있는 경우 시스템이 더 잘 작동할 가능성이 높다는 의미다. 이것은 깨끗한 폐쇄 루프 시스템을 가능케 한다. 암호화폐 거래 시스템의 엑스레이에서 종양을 식별하는 시스템과 비교해 보자. 후자의 경우, 엑스레이 모델이 가치가 있다고 보험 회사를 설득하고, 얼마나 가치가 있는지 협상한 다음, 모델의 성공/실패를 검증하기 위해 실제 존재하는 소수 사람들을 신뢰해야 한다.


앞서 언급한 것과 같은 추천 시스템은 매우 유용할 수 있다. 추천 시스템이 큐레이션 시장과 연결될 경우, 모델이 온체인에서 프로그래밍 방식으로 작동하고 시스템 보상이 토큰(이 경우 큐레이션 시장 토큰)이 되는 또 다른 사례로, 깨끗한 폐쇄형 루프를 만들 수 있다. 지금은 모호해 보이지만 시간이 지남에 따라 블록체인 네이티브 작업 영역이 확장될 것으로 예상된다.


시사점

첫째, 탈중앙화된 머신러닝 마켓플레이스는 현재 거대 기술 기업들의 데이터 독점을 해체할 수 있다. 이들은 지난 20년간 인터넷에서 가치 창출의 주요 원천인 독점 데이터 네트워크와 이를 둘러싼 강력한 네트워크 효과를 표준화하고 상품화해왔다. 그 결과 가치 창출의 중심이 데이터에서 알고리즘으로 이동했다. 다른 말로 하면, AI를 위한 다이렉트 비즈니스 모델을 만들고 있다. AI에 먹이를 주고 훈련시킨다.


둘째, 직접적인 경제적 인센티브를 통해 최고 데이터와 모델을 끌어들여 세계에서 가장 강력한 AI 시스템을 만든다. 이러한 시스템은 다양한 네트워크 효과를 통해 더욱 강력해진다. 아직 몇 년은 더 지나야 하겠지만 방향성은 맞는 것 같다.


셋째, 추천 시스템 사례에서 볼 수 있듯이 검색이 역전된다. 사람이 제품을 검색하는 대신 제품이 사람을 검색하고 경쟁한다(이 프레임워크는 Brad의 아이디어다). 추천 시스템이 가장 관련성이 높은 콘텐츠를 피드에 배치하기 위해 경쟁하는 퍼스널 큐레이션 시장은 누구나 가질 수 있으며, 관련성은 개인에 의해 정의된다.


넷째, 데이터를 제공하지 않고도 Google이나 Facebook과 같은 회사에서 제공하는 강력한 머신러닝 기반 서비스 이점을 동일하게 누릴 수 있다.


다섯째, 대규모 웹 2.0 기업 소수 엔지니어만이 아니라 모든 엔지니어가 데이터 오픈 마켓플레이스에 액세스할 수 있기 때문에 머신 러닝이 더 빠르게 발전할 수 있다.


도전 과제

무엇보다도 현재 시큐어 컴퓨테이션 방식은 매우 느리고 머신러닝은 여전히 계산 비용이 많이 든다. 반면 시큐어 컴퓨터테이션 대한 관심이 높아지면서 성능이 향상되고 있다. 지난 6개월 동안 HE, MPC, ZKP에 대한 성능이 크게 개선된 새로운 접근법들을 보고 있다.


특정 데이터 또는 모델 셋이 메타모델에 제공하는 가치를 계산하는 것은 어렵다. 크라우드소싱 데이터를 정리하고 서식을 지정하는 것도 어렵다. 이 문제를 해결하기 위해 도구, 표준화, 소규모 기업들의 조합이 등장할 가능성이 높다.


결론

프라이빗 머신러닝과 블록체인 인센티브 결합은 다양한 애플리케이션들에서 가장 강력한 머신 인텔리전스를 만들어낼 수 있다. 주요기술적인 과제들은 시간이 지남에 따라 해결될 수 있다. 장기적인 잠재력은 엄청나며, 현재 대형 인터넷 기업들이 데이터에 대한 통제권을 쥐고 있는 상황에서 환영할 만한 변화다. 


부트스트랩은 스스로 존재하고, 스스로 강화하며, 개인 데이터를 소비하고, 폐쇄하기도 거의 불가능하다. 어쨌든 암호화폐가 천천히, 그리고 갑자기 모든 산업에 침투하는 또 다른 예가 될 것이다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari