brunch

You can make anything
by writing

C.S.Lewis

by Sacony Review Sep 30. 2020

"데이터 읽기의 기술"을 읽고

데이터에 대한 비전공책은 처음 읽어 보는 듯하다. 조금 기대가 있어서 그랬는지 생각보다 깊이가 없어 살짝은 실망도 한 책. 


밑줄 친 문구들과 더불어 내 생각을 적어본다. 


"영화 추천 플랫폼 왓챠 플레이는 광고에서 대놓고 말한다. 'XX'를 좋아하면서 xx 를 보지 않았다는 것은, 키스를 했는데 뽀뽀는 안 했다는 것"이라고.


쿠팡 혹은 아마존의 상품 추천보다는 영화나 음악 추천이 그래도 그나마 좀 확률이 높은 편이라고 생각한다. 예전엔 추천이 기업의 가장 큰 프로모션 상품이 될 수 있을까 했는데 스포티파이를 보면서 생각이 많이 바뀜. 그에 비해 왓챠는 처음 등장했던 2011년 당시 느꼈던 혁신 (주로 UI적이긴 했으나 데이터 collection이 유저에게 데이터를 가져가는 것처럼 안 느껴졌었다)은 어마어마했었고 여태 사업을 이어오면서 꾸준히 노력하는 게 보이는 스타트업(?) 중 하나. 


"꾸준히 데이터를 모아 변화량을 보여주어야 한다"


데이터가 의미 없는 경우는 변화량이 없을 때다. 그렇기에 변화량을 보여주기 위해선 데이터의 디멘션과 구조가 중요하고, 연도별, 분기별, 월별, 일별, 시간별, 분별 데이터의 중요도는 산업 군마다 그리고 직업군마다 조금씩 다를 테다. 여러 사람을 여러 번 모으는 데이터가 당연히 가장 좋은 데이터이고 작가가 말했던 설문조사에서 패널데이터는 사실 그리 흔하지 않다 (정부기관 정도만 할 수 있는 수준).


"상식적이지 않은 숫자가 결과로 나왔을 때 실제로 데이터 오류를 발견하는 일도 많다."


작가가 액티브 데이터라고 명했던 그런 데이터는 주로 Unstructured data이기에 사실 처음부터 쓸만한 콸리 티가 나오긴 쉽지 않다. 상식적이지 않은 숫자가 나오면 클리닝을 하면 되지만 그렇지 않은 경우 우연히 상식적인 숫자가 나온 경우도 많기에. 요즘은 머신러닝에다 많은 통계기법들이 나와서 그래도 이런 오류를 감안하고 보수적으로 추정을 해보는 기술들이 많이 나오고 있는 듯.


싸코니 리뷰 페이스북 바로가기:


매거진의 이전글 "디즈니만이 하는 것"을 읽고
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari