brunch

You can make anything
by writing

C.S.Lewis

by SUMMER Jan 26. 2016

버즈피드는 '데이터'를 쓴다

넥스트 저널리즘 스쿨-  넘버 웍스 하용호 대표    

함박눈 내리는 아침입니다. 굿모닝.

오늘 넥스트 저널리즘 스쿨에서는 데이터 저널리즘을 다룬다. 첫 강연자는 데이터 사이언티스트, 넘버 웍스의 하용호 대표. 수도가 동파되어서 생수로 세수하고 오셨다고... 하용호 대표는 SK telecom 데이터 사이언스 센터의 설립 초기 멤버로 있다가 나와서 넘버 웍스를 만들었다. 데이터 사이언스라는 게 뭔지, 어떻게 넥스트 저널리즘이 데이터 사이언스와 연관될 수 있는지 들어보는 자리. 데이터 과학과 저널리즘의 시너지는 어떻게 가능할까?


데이터 사이언티스트?

데이터 사이언스와 저널리즘을 이야기하려면 일단 데이터 사이언스를 알아야 하니까. 데이터 사이언스란 무엇일까? 보통 잘 모른다. 하용호 대표의 아버님도

 "용호야, 너 뭘로 밥  먹고사는 거냐?"

이렇게 물으시는... 그런 넘나 어려운 생소한 일... 

데이터 사이언티스는 데이터에서 패턴을 찾아내고 비즈니스 기회로 만드는 사람이다.  

숫자를 보고 돈 되는 구석을 찾아내는 통계학자.

라고 하용호 대표는 요약했다. 


데이터를 알려면-프로그래밍을 알아야 하고

패턴을 읽으려면- 통계학을 알아야 하고 

비즈니스를 알려면-컨설턴트의 면모도 갖춰야 한다. 


고로, 프로그래밍과 통계학, 컨설턴트의 업무를 겸하는 업이라고 나눠서 이해해볼 수도 있겠다. 사이언스라고 마법 같이 무언가를 만들어내는 것이 아니라, 데이터의 결을 깊게 파고들어가야 하는 일종의 '삽질'이라고 하 대표는 이야기한다. 


데이터 사이언스= 예상과는 다르게 '삽질'의 노동. 이 그림은 밀레 버전도 있다고 합니다. 


아빠는 몰라도 데이터는 안다


데이터로 그럼 뭘 할 수 있기에 데이터를 알아야 하는가.

데이터는 행동을 예측할 수 있다. 이 효과가 크다는 거. 유명한 일화로 맥주랑 기저귀를 같이 팔았더니 뭐 매출이 엄청 올랐다더라 이런 것도 있었는데.... (월마트의 이 맥주, 기저귀 일화는 일종의 유언비어라고. 이 이야기는 1992년 오스코 드러그 스토어가 데이터를 검증해봤더니 둘이 같이 팔리는 경향이 있다는 걸 발견했다는 이야기가 와전된 것이다.) 

그렇다면 데이터의 '힘'을 느끼게 해주는 실제, 최근 사례는 무엇이 있나. 대형마트 체인인 TARGET의 이야기를 보면 데이터의 파워를 느낄 수 있다. 


어느 날 화난 고객이 TARGET 마트에 들이닥쳤다. 그의 10대 딸에게 TARGET이 보낸 쿠폰북에 임산부 용품이 잔뜩 있었다는 게 이유.  

'내 딸 보고 임신하라는 거야!?'

라고 화를 내던 고객님은..... 

그렇게 마트에서 따님의 임신을 알게 되었다....

 "따님이 실제로 임신하셨슙니다 ㅠㅠㅠ"

마트가 아버지보다 먼저 딸의 임신을 알고 있었던 것. 어떻게 이런 일이 있었을까? 


타깃에는 수많은 데이터 사이언티스트가 있고, 구매 패턴을 분석해 '임신을 했는지 아닌지' 아버지보다 먼저 알아낼 수 있었던 것이다. 향 있는 로션을 쓰다가 임신  3개월쯤이면 향 없는 로션 쓰는 패턴을 알아냈고, 그에 따라 임산부 용품 쿠폰을 보낸 것이다!!!


이 사례는 미국 내에서 문제가 되기도 했다. '도대체 기업이 우리에 대해 얼마나 알고 있는 거야?'라는 불안. 

논쟁이 많았는데, 이 이후로 타깃은 오히려 더 똑똑하게 마케팅을 하고 있다고. 임신한 거 같으면 임산부 용품과 산악용품 같이 섞어서 보낸다. 더 교묘하게.


DATA, 왜 중요한가? 

그렇다면 근본적인 측면에서 데이터는 왜 중요할까? 산업의 변화에서 데이터의 중요성을 살펴볼 필요가 있다. 시대가 흐르면서 경쟁력의 핵심이 바뀌어 왔다는 게 하용호 대표의 설명이다.  


처음에는 좋은 기술을 만들어내면 모든 게 해결됐어요. 

카세트를 소형으로 만든 것만으로도 삼성이 소니를 이길 수 있었던 시대가 있었다. 그런 시대에서 시간이 지나서 기술은 상향  평준화되고 그 이후엔

두 번째는 '가격'이 경쟁 요소가 됩니다.

지금 이 단계에 있는 게 스마트폰. 샤오미나 삼성이나 무슨 차이인가 하는 생각을 소비자들이 하게 되는 것. 그 이후엔

가격까지 saturation 되고 나면 '기회'로 넘어갑니다. 


유저들이 '지금' 이 상품을 구매할 '기회'를 원하는가. 원하는 그 순간에 원하는 상품을 가져다주는 것. 이런 기회를 잡아내는 시각을 가지고 있어야 한다는 이야기다. 데이터를 봐야 그 기회를 잡을 수 있다. 지금 시대의 경쟁력은 그 '기회'를 잡는 것이다. 

https://youtu.be/rkhsq4 CsT9 Y

구글의 micro moments 동영상이 생각나는 이야기. 누군가의 일상의 '작은 순간'에 침투해 들어가야한다. 이제 기회는 micro moments에.  


기회라는 것은 이 세 가지 요소로 나눠서 볼 수 있다는 것이 하 대표의 이야기. 

1) 유저의 관심이 가장 소중한 자원
2)  눈길을 받는 법이 필요
3) 눈길을 받았을 때 원하는 제시해야 함


장인의 인사이트 vs 데이터의 인사이트 

데이터를 분석해야 하는 이유는?

내가 가진 편향을 없애기 위해서 데이터가 필요합니다. 

 '경험적 인사이트'의 함정을 피하기 위해서다. 장인의 인사이트보다 데이터의 인사이트가 '당연히'  정확하다. 유명한 이야기로 '뱅뱅 청바지' 이야기가 있는데, 사람들은 청바지 브랜드를 이야기하라고 하면 CK 이런 걸 제일 많이 이야기하지만 실제로 우리나라에서 가장 많이 팔리고 있는 청바지는 뱅뱅이다. 우리는 경험적으로 판단하고,  의사결정하는데 우리가 있는 위치는 정규분포의 한 구석일 수 있다. 그 위험 때문에 데이터 분석을 해야 하는 것이댱 



이런 오류를 보여주는 이론이 심슨 패러독스 (Simpson's Paradox)다. (멍청하고 귀여운 우리의 그 심슨은 아니고) 통계학 이론인데, 데이터를 깊게 들여다보지 않으면 생길 수 있는 오류가 있다. 암 완치율이 높은 병원을 보고 우리는 "이 병원이 옆 병원보다 좋은 병원"이라고 기사를 쓸 수도 있는데, 사실 까놓고 보면 더 어려운 병을 더 잘 치료한 병원일 수 있다.  

이 심슨이 아닙니다. 

또 하나의 사례. 아래 통계표를 보면 이게 정책 효과를 분석한 표라고 했을 때, 전체를 보면 내려가고 있으므로 이 정책은 실패라고 할 수 있다. 그러나 남, 녀로 나눠서 보면 사실 둘 다 올라가고 있는 수치. 


데이터를 적절한 수준으로 적절한 깊이까지 파지 않으면 반대의 사실을 외부에 이야기할 수도 있습니다. 데이터를 실제로 확인하기 전에는 단언하지 않고 겸손해야 하는 자세도 필요하고요. 


데이터로 가득한 세상, 저널리즘은 무관한가요?

이번엔 데이터와 저널리즘을 같이 이야기해보자. 데이터 저널리즘 사례의 원형은 콜레라가 만연하던 시대에 있었다.   

영국 시내에 콜레라가 퍼졌다. 사람들은 '나쁜 공기' 때문에 콜레라가 퍼진다고  수군수군. 존 스노우는 직접 발병 지역을 표시했고 특정 거리에 몰려있는 콜레라 발병 패턴을 발견했다. 브로드가의 한 수도 펌프가 문제였다. 그 수도가 콜레라균에 오염되어 있었고 그 물맛이 유명해서(;) 영국 시내에 콜레라가 퍼졌다. 데이터를 지도에 그리면서 사회에 필요한 중요한 정보를 찾아낸 사례다. 

존 스노우의 콜레라 지도

두 번째 사례는 나이팅게일의 로즈 다이어그램이다. 맞다. 그 나이팅게일. 백의의 간호사일 뿐만 아니라 그녀는 데이터 사이언티스트였다. 아래 표는 청결 정책을 시작하기 전과 후의 병원 사망자 수를 비교한 것이다.

나이팅게일의 로즈 다이어그램. 


데이터를 활용한 기사들 많이 나오고 있는데,  

이제 벌써 데이터를 봇한테 주기만 하면 로봇이 직접 기사 쓰는 시대도 와버렸다. 

저널리즘 콘텐츠 자체에서 데이터의 활용도 중요하지만, 앞으로 '유통'의 관점에서, 기사가 독자에게 필요한 '기회'를 잡기 위해서 데이터를 더 주목해야 한다. 버즈피드의 사례를 통해 하용호 대표는 이 이야기를 꺼냈다.  

야구 기사 정도는 이제 로봇이 쓴다. 


버즈피드가 데이터를 쓴다고? 

'응. 그것도 아주, 잘'


월평균 UV 2억 5천만명. 버즈피드는 기사를 많이 유통시키기 위해 데이터를 쓴다. 'most sharable' 이 버즈피드라는 조직이 작동하는 가장 중요한 기준이다. 이제 기사는 대부분 소셜에서 소비가 된다. 소셜이 62% 나머지는 검색이나 논 소셜이기 때문에 버즈피드는 '어떻게 더 공유되게 할지를' 분석한다. 토털 뷰는 별로 중요하지 않음. 그리고 그 테스트에 따라 공유에 적합한 콘텐츠를 생산하고 개별 플랫폼마다의 전파를 분석한다. 아래 파 검흰 금 드레스 논쟁도 '기회'를 잘 잡은 사례라고 할 수 있겠다. 



출처사이트 : JOSH STEIMLE

Buzzfeed-> Article= Virus

버즈피드에게 기사는 일종의 바이러스다. 콘텐츠도 A/B  테스트하듯이 계속 테스트한다. 


텍스트가 많은 것과 적은 것,

한 명의 얼굴이 나온 사진과 여럿이 나온 것,

사람들이 뭘 제일 많이 공유하는지  끊임없이 데이터를 보면서 실험한다. 


제프 베조스도 워싱턴포스트 인수하면서 내부적으로 했던 이야기가 독자를 'reader'가 아니라 'customer'라고 부르라고 했는데, 이 뜻은 

기사를 내놓고 가만히 있는 게 아니라 consumer가 어떻게 느끼는지 끊임없이 찾는 거죠. 


똑같은 URL인데 어떤 논조, 어떤 그림에 따라 사람들이 공유하는지 같은 URL 상에서 실험한다. 스크롤 내리다가 어디서 멈춰서 보는지. 이런 사용 행동까지. 


기사가 처음 완성된 이후 끝이 아니라 유통과정의 데이터로 끊임없이 튜닝하는 겁니다.



저널리즘을 하는 모든 사람이 데이터 저널리스트가 될 필요는 없지만 통계 리터러시 정도는 필요하다고 Q&A 시간에 이야기가 나왔다. 추천한 책은 통계의 힘 1,2권. 


데이터 자체를 보는 눈을 기르는 것도 필요하겠지만,

유통의 과정에서 데이터를 쓰고 기사가 발행된 이후를 생각하는 관점. 이게 포인트라고 느꼈다. 



세바시 429회 데이터로 세상이 다시 한번 바뀝니다

@하용호 SK Telecom

https://youtu.be/NFt1 MbChFMU 

데이터 사이언티스는 누구인지 간단 참고용 그래픽. (c) MarketingDistillery.com


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari