brunch

You can make anything
by writing

C.S.Lewis

by 도그냥 Aug 22. 2018

이용자가 많으면 데이터의 가치가 높을까?

데이터에 대한 착각


10년이상 된 모 온라인 카페는 항상 방문자가 일평균 100만이 넘는다.

이미 기업화된지 오래된 이 카페의 운영회사는

자신들의 오랫동안 축적된 데이터가 큰 자산인 것처럼 말하며  엑시트 비용으로 몇백억을 불렀다.


최근 듣던 중 가장 어이없는 소리였다.


내 태도를 의사결정권자들은 이해하지 못했다

어쨌거나 큰 성과를 이뤄왔기에 가치가 있다고 생각하는 것 같았다. 물론 지금까지  이만큼 카페를 꾸려온 그들의 능력치와 노력에 대해서는 찬사를 보낸다.

 하지만 데이터가 중요해지고 있는 이 시점에 그것이 과연 데이터적 가치가 있느냐를 묻는다면 미안하지만 그 대답은 NO라고 할 수 있다.


빅데이터의 전제조건 : 부뚜막의 소금도 집어넣어야 짜다

빅데이터 공부한다고 하면 온갖 학원에서는 R과 파이썬 같은 것을 들이댄다. 그리고 웹이야기가 나오면 구글 애널리틱스 이야기를 한다. 하지만 전에도 기고한 적이 있듯이 그냥 쌓인 데이터는 정말 그냥 마구잡이로 쌓여있는 잡동사니같은 존재다. 맨땅에 쓸만한 데이터가 나오지 않는다.

https://brunch.co.kr/@windydog/139


 10여년간 엄청난 양의 DB와 로그데이터가 있다고 해도  거기서 가치를 파악해내는 것은 그야말로 쓰레기장에서 화학공식 찾아내는 것 같은 일이다. 데이터 사이언티스트 전문가는 뽑아내서 비정형 데이터에서도 뭔가 찾아낼 수 있겠지만 그걸 자동화해서 써먹기에는 얼마나 걸릴 지 알 수가 없다.

 온라인에서 바로 사용가능한 데이터는  '정형화' 되어야한다. 아무리 AI가 훌륭하다고 정형화되지 않은 데이터를 완벽하게 해석하긴 어렵다. AI가 해석할 수 있는 것은 정형화된 형태의 Feature를 조합하여 입력과 출력간의 함수관계를 만드는 것이다. 사람처럼 몇번 훑어보면서 머리속에서 뾰로롱하고 데이터간 상관관계에 대한 아이디어가 떠오르는 것이 아니다.(딥러닝이 해준다고 알고 있지만 딥러닝에도 세팅은 필요하다. 밑에 직원 부리듯 대하기는 어렵다는 말이다.)

 물론 이미지나 음악과 같이 텍스트화되지 않은 정보에 대한 AI의 분류해석은 가능하다. 하지만 실시간으로 서비스에서 활용할 정도로 빠르고 정확하게 대량으로 분석하기엔 비정형 데이터는 적합하지 않다. 그리고 이미지검색 등 구현된 서비스는 단순 조회성에 그치며 더 많은 상황과 목적으로 사용하기에는 여전히 그 한계가 남아있다.

 아무리 데이터의 양이 많아도 사용할 수 있는 방법이 없다면 무슨 소용이 있을까?

 단지 비정형적인 데이터의 문제를 떠나 데이터를 사용하지 못하는 이유는 굉장히 많다.


빅데이터의 소유권의 문제

플랫폼내 커뮤니티의 쓰여진 글 또는 게시물의 소유권은 누구에게 있을까? 당연히 추상적인 저작권은 글쓴이에게 있어보이겠지만 디지털(Digital)의 속성은 완벽하게 저작권을 보장해줄 수 없다. 복사가 너무나 쉽고 원본의 개념이 없기 때문이다.

 하지만 그 데이터가 쌓여있는 DB의 소유주는 너무나도 명백하다. 플랫폼의 소유주가 곧 데이터의 소유주다. 이런 중앙화된 소유권과 접근권한이 있기에 구글이나 페이스북이 광고로 성장할 수 있었고 이런 이유로 데이터가 집결되는 아마존의 클라우드 서비스인 AWS가 무서운 것이다.

 

 그럼 하루에 백만명이 드나드는 네이버 카페의 게시글과 DB는 누구의 것인가? 아무리 카페 소유주가 기업화하여 운영한다고 해도 그 데이타는 모두 네이버의 것이다. 아무리 데이터가 많아도 데이터에 대한 직접적인 접근권한조차 없기에 R 따위를 써서 뭔가 해볼 수도 없다.
 이용하고 있는 수백만의 회원정보 역시 카페 운영자가 가지는 것은 아무것도 없다. 기껏해야 네이버가 지원해주는 어드민의 통계 자료만이 가진 것의 전부다. 이것으론 다른 무언가와 연관하여 코호트 분석이나 연관관계를 찾아낼 수 없다. 서비스에서 추천이나 프로파일링으로 활용할 수도 없다.

 이런 것은 카페가 됐든 유튜브든 모든 플랫폼에서 마찬가지다. 플랫폼은 컨텐츠를 공급해주는 사람에게 광고비나 트래픽 등 혜택을 몰아준다. 하지만 자신이 만든 생태계를 벗어나는 짓은 허용하지 않는다.

 

 더 나아가면 판매는 말할 것도 없이 불가능하다. 국내에서는 아직 초보적 단계지만 해외에서 많이 일어나는 데이터 판매는 정형적이며 활용도가 높다. 이를 위해서는 데이터에 접근 가능하고 판매도 가능한 소유주가 되어야한다. 혹시 일일이 엑셀에 댓글을 실시간으로 옮겨적듯 크롤링 할 것이 아니라면. (사실 크롤링조차도 국내에서는 소유권 침해라는 판례도 존재한다)

 

빅데이터의 역사성 : 양이 많다고 의미있는가?

 역사성이란 시대가 지나면서 달라지거나 다른 해석이 가능해지는 성격을 의미한다. 빅데이터도 마찬가지다.
 고전에 대한 이야기가 아닌 이상 유효한 컨텐츠는 최신 몇년사이에 압축된다. 카페에 십수년에 걸친 상품평과 게시글의 양은 아무런 소용이 없다. 몇년에 걸쳐 트렌드를 조사할 게 아니라면 지금 이 순간에 유효한 데이터의 양을 추산할 수 있어야한다.

 오래된 카페에서 의미있는 데이터만을 걸러낼 수 있을까? 카페는 순간적으로 쓰고 버려지는 게시글이 절대 다수를 차지한다. 커뮤니케이션도 컨텐츠도 비정형의 끝을 달린다. 심지어 글과 그림도 뒤섞여있고 문장은 구어체다. 게다가 단언컨대 아마도 시기적으로 봤을때 카페라는 플랫폼은 데이타를 위해 만들어지지 않았을 것이다.  그런 이유로 네이버나 다음도 그 데이터로 수익모델을 만들지 못하는 결정적인 이유라고 생각한다.

 양이 많다고 의미있겠거니 하는 것은 오해다. 반대로 말하면 데이터 활용이 준비되지 않은 상태에서 적당히 에디터 달아놓고 사람들을 열심히 참여 시킨다면 나중에 똑같은 잡동사니만 갖게된다. 아무리 날고 기는 데이터 사이언티스트도 구어체의 한국말에서 일관된 의미를 찾아내긴 어려울 것이다.


누가 교통정리만 해주면
최고 시속으로 달릴 수 있어요란 말은
누구나 할 수 있어요


 이 상황을 보고 우리팀 대리님이 한마디로 일갈했다. 엉망진창 잡동사니 데이터를 들고와서 큰 돈을 부르며 당신들이 돈내고 정리만 해주면 큰 가치를 얻을 수 있다는 헛소리. 그 말은 마치 꽉 막힌 고속도로에서 누가 정리만 해주면 된다는 말처럼 어불성설일 뿐이다.

 좋은 데이터는 양도 많고 질이 높은 데이터다. 그리고 무엇보다 가치를 뽑아내기 좋은 형태로 구성된 데이터다. 데이터를 이용한 사업을 구상한다면 기획단계에서부터 데이터의 활용에 대한 명확한 기준을 가지고 전체 시스템에 반영되도록 해야한다. '아마 구글도 첨에는 어설펐을 거야' 그런 사고방식으로 자신의 어설픔에 면죄부를 주지 않았으면 좋겠다. 지금은 구글이 만들어지던 90년대가 아니니까.

매거진의 이전글 스타트업 얼라이언스 특강 못오셨던 분들께
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari