플랫폼리스 미디어 블록체인의 기술 (3)
스팀잇처럼 콘텐츠를 블록체인에 올리는 것, 즉 온체인화하는 것은 합의 알고리즘의 지능 증명 구현을 포함해 보다 완전한 미디어 블록체인의 설계에 필요하다. 이를 위해서는 몇 가지 숙제를 풀어야 한다. 첫째, 블록체인에 올린 콘텐츠를 어떻게 수정할 것인가? 이는 블록체인이 비가역성을 갖기 때문에 생기는 문제다. 둘째, 텍스트가 아닌 사진이나 동영상 등 용량이 큰 콘텐츠는 어떻게 온체인화할 것인가? 이는 블록체인의 블록 크기가 제한돼 있기 때문에 비롯된 어려움이다.
이 문제를 풀려면 온체인 전에 콘텐츠를 분할해 정형화화는 빅데이터 분석 과정이 필요하다. 참고로 한국언론진흥재단에서는 개선된 시스템인 <빅카인즈>를 이미 개발해 2016년부터 운영 중이다. 텍스트 뉴스 콘텐츠를 빅데이터 분석하면 뉴스 기사를 문장 단위로 분할하고, PLOT(person, location, organization, terminology), 즉 인물, 장소, 조직, 용어, 수치 등 개체명(named entities)을 추출해, 매체, 발행일, 제목, 기사, 관련 개체명, 주제어 등 메타데이터를 문장 단위로 부착할 수 있다.
자연어처리 모듈을 영상 처리(image processing) 모듈로 바꾸면 영상 뉴스 빅데이터 분석이 가능하다(박대민, 오세욱, 2016). 영상 뉴스 콘텐츠 역시 빅데이터 분석을 통해 뉴스 기사를 컷 단위로 분할하고, 개체명을 인식하며, 메타데이터를 컷 단위로 자동으로 부착할 수 있다.
온체인화되는 것은 기사 단위의 텍스트나 영상이 아니라, 압축된 문장 단위의 텍스트 데이터나 컷 단위의 영상 데이터다. 분할되고 압축된 개별 데이터의 용량은 크지 않다. 미디어 블록체인에서 콘텐츠를 다루는 블록은 크게 두 종류로 이뤄진다. 첫째, 문서 블록이다. 여기에는 문서 단위 콘텐츠에 대한 메타데이터와 함께 분할된 문장 또는 컷 단위 데이터를 찾아 순서대로 하나의 문서 단위 콘텐츠로 통합하기 위한 메타데이터가 함께 저장된다. 둘째, 문장 블록 또는 컷 블록이다. 여기에는 문장 또는 컷 단위의 원문 데이터와 메타데이터가 보관된다. 문장 블록은 물론 기사 블록을 생성하면서 채굴이 이뤄지고 블록이 생성된다.
콘텐츠를 문서 단위가 아니라 문장 또는 컷 단위로 분할해 저작권 인증을 한 뒤 저장하면 콘텐츠를 수정할 수 있다. 아래 그림에서 A1이 문서 블록이고 이 문서 블록은 s1부터 s9까지 9개의 문장 블록을 통합해 하나의 콘텐츠를 만들 수 있는 정보를 갖고 있다고 하자. 만일 A1 중 다섯번째 문장을 수정하고 싶다고 하자. 이를 위해서는 다섯번째 문장 블록 s5를 새로 만든 문장 블록 s10로 교체한 배열 정보를 가진 문서 블록 A2를 만들고 A2로 만든 문서를 노출하면 된다. 요컨대 콘텐츠를 분할하고 내용분석하는 빅데이터 분석을 통해 미디어 블록체인에서 콘텐츠를 온체인화활 때 생기는 문제, 즉 비가역성과 블록 크기 문제를 해소할 수 있다.
문장과 컷이 메타데이터와 함께 온체인화되기 때문에 기존의 미디어 플랫폼에서 나타났던 몇 가지 문제를 해결할 수 있다.
첫째, 출처를 속인 가짜 뉴스를 만들 수 없다. KYC(Know your customer)로 인증받은 미디어들이 각각 고유의 개인키를 이용해야만 문서 블록과 문장 블록을 생성할 수 있기 때문이다.
둘째, 콘텐츠를 문서 단위로 이용할 때는 물론, 서로 다른 문서들로부터 문장이나 컷을 수집해 큐레이션할 때도 저작권료를 부과할 수 있다. 건별 저작권료는 매우 낮겠지만 미디어 블록체인의 초 마이크로 페이먼트 기능을 통해 합산해 정산할 수 있다.
셋째, 어뷰징 문제를 해소할 수 있다. 기존 블록과 신규 블록의 내용 유사도를 문장 및 컷 단위로 판정하고 최초 문장 블록에 우선권을 부여하기 때문이다. 개체명을 기준으로 다중 분류된 상태로 동일 분류 체계를 가진 문장 블록끼리 유사도를 따짐으로써 처리 속도를 높일 수 있다. 유사한 문장 블록의 저작권료는 최초 문장 블록으로 넘어간다. 즉 완전히 어뷰징을 한 창작자들은 저작권료를 한 푼도 받지 못할 것이며, 일부만 어뷰징한 창작자들은 문서 블록 생성에 따른 저작권료만 받을 수 있을 것이다. 다만 유사도와 메타데이터를 생성하는 빅데이터 분석 시스템 자체가 경량화되어 탈중앙화된 풀 노드들에 배포되고, 이들 사이에서 분석이 동시에 진행되고, 생성된 데이터가 합의 알고리즘을 통해 공증받아야 하는 등 실제 구현까지 여러 난제를 해결해야 한다. 또한 온체인화되어 인정된 저작권자가 실제로 최초의 창작자가 아니라 해당 블록체인에 최초로 등록한 사람일 수 있다는 문제는 있다. 이 문제는 다음과 같이 해결할 수 있다. 첫째, 처음 등록할 때 합의 알고리즘을 거쳐 저작권 인증을 한다. 둘째, 특허의 등록 우선주의 같은 온체인화 우선주의를 적용한다. 이는 온체인화되지 않은 선행 저작물을 유인하는 효과도 있다. 셋째, 보상이 암호화폐다. 온체인화되지 않은 선행 저작물은 블록체인 생태계 밖에서 보상 받으면 된다. 넷째, 스마트 컨트랙트를 추가할 수 있다. 즉 합의 알고리즘에 따라 입증된 저작권 부당 등록은 저작권 등록을 취소할 수 있게, 즉 어느 시점부터 보상이 돌아가지 않도록 추가하는 방식으로, 스마트 컨트랙트를 처음부터 만든다. 다만 이 경우 기존 보상을 취소하기는 어려울 것이다. 이는 오프체인 거버넌스의 손해배상 제도를 적용해야 할 것이다. 그러나 탈중앙화 특성 때문에 블록체인 생태계 자체에 대한 저작권 소송은 무의미하다. 다섯째, 궁극적으로 해당 블록체인이 특정 양식의 콘텐츠에 대한 모든 저작권 생산물을 등록할 수 있어야 한다. 즉 특허청인데 탈중앙화된, 탈중앙화된 저작권 플랫폼을 생각할 수 있다.
넷째, 창조성이 중시된다. 하나의 고유한 문장만 잘 만들어도 다른 창작자의 의식적 또는 무의식적 큐레이션을 통해 자동으로 인용되고 보상을 받을 수 있다. 즉 특종이나 고유한 의견을 내놓는 것이 중요해진다.
다섯째, 투명성도 개선된다. 사실 기존에도 신문사는 종이신문으로 오보를 내놓으면 사실상 수정할 수 없었다. 전수 수거해 폐기할 수도 있지만 일단 배포되고 나면 오보는 오직 정정보도를 통해 사실을 바로잡을 수 밖에 없었다. 그러나 인터넷신문에서는 수정 내역을 감추거나 기사를 삭제할 수 있었다. 블록체인이 도입되면 수정 이력이 그대로 남게 된다. 콘텐츠 품질도 개선될 수 있다. 문서를 수정할 수 있어도 문장은 수정할 수 없기 때문에 처음부터 오보나 혐오표현을 줄이려 할 것이다.
미디어 블록체인 플랫폼에서 빅데이터 분석된 콘텐츠는 탈중앙화된 저장소에 저장된다. 여기에는 IPFS(https://ipfs.io/)와 같은 분산 저장 기술이 사용된다. HTTP나 DNS는 파일 경로 기반 검색 방식이다. 즉 관련된 문장 블록들과 문서 블록을 하나의 주소에 할당하고, 이 주소를 호출하면 그 주소에 있는 파일들을 한꺼번에 불러들인다. 반면 IPFS는 파일의 해시값으로 관련된 문장 블록들을 한데 모아서 하나의 문서로 제시한다. 이 때 문장 블록들은 서로 다른 주소에 있어도 상관 없다. 사용자는 저장 공간이 필요한 창작자에게 남는 저장 공간을 제공하고 보상을 받는다.
탈중앙화된 저장소는 이더리움 백서에도 소개돼 있다. IPFS를 이용한 탈중앙화된 저장소를 만드는 블록체인 프로젝트로는 2017년 9월 사전 ICO를 통해 2억5200만 달러를 조달한 파일코인(Filecoin) 이 대표적이다. IPFS 방식은 검열저항성을 갖는다. 특정 주소에 대한 접속을 차단해도 소용이 없다. 풀 노드에 있는 모든 블록을 삭제하기 전에는 콘텐츠를 지울 수도 없다. 분산 저장된 문장 블록은 암호화돼 있기 때문에 사용자들이 개별 문장 블록의 내용을 들여다보기도 어렵다.
이 글은 박대민, 명승은이 2018년 공저한 연구서 <미디어 블록체인, 플랫폼리스의 기술>에서 분량 문제로 빠진 부분 등을 보완한 것이다. 아래는 연구서 링크.
* 이 글은 정보 공유를 목적으로 연구용으로 작성됐으며 투자 권유를 목적으로 쓴 글이 아닙니다. 모든 투자는 전적으로 투자자 자신의 판단과 책임에 따라 스스로 투자에 관한 의사결정을 하여야 하고, 그에 대한 결과는 투자자 본인에게 귀속됩니다.