brunch

You can make anything
by writing

C.S.Lewis

by 동네소년 Jan 13. 2018

‘스몰데이터’와 마주쳤다

52 Lab_2 : 빅데이터가 어렵다면, 작은 것부터 시작해 볼까요?

인공지능을 필두로 데이터를 모으고 활용하여 가치를 만들어내는 방법에 대한 관심이 어느 때보다 뜨겁습니다. 이제는 ‘빅데이터’라는 말이 더이상 낯설지 않지만, 여전히 내 삶과는 상관없는 말처럼 '안드로메다'로 느껴지시는 분이 많을 겁니다.


저 또한 그런 한 사람입니다.

잘 모아진 데이터를 영민한 도구를 활용해 분석해 활용하면, 더 좋은 결과물을 안겨준다고 수 많은 관련서적이나 전문가들은 조언합니다. 그래도, ‘빅데이터’는 마치 밤하늘 ‘별’과 같아서, 늘 보는 익숙한 대상이지만, 한 번도 경험해 보지 못한 생소한 것이기도 했습니다.



이진희PD의 조언을 따라보기로 했습니다. 



이진희PD를 지난 12월 어느 뉴미디어 특강에서 만났습니다.

KBS 미래사업본부 디지털서비스국 모바일오디오사업팀(휴~ 조직이 엄청나죠?)에서 일한다고 본인을 소개합니다.


다음은 강연자 이진희PD가 추천하는 팟캐스트들입니다.

꼭 들어보기를 권하는 그녀의 목소리에는 "자식같은 저희 팟캐스트! 잘 컸죠?" 하는 자부심이 느껴집니다.



네이버 ‘소리로 만나는 새로운 세상’ <오디오클립>에서 발행되는 여행관련 오디오 콘텐츠 <여행상상>입니다.

개성 넘치는 진행자와 패널들이 풀어내는 저마다의 이야기가 매력적으로 버무려지는 '여행스토리텔링'이구요. 또한 페이스북 플랫폼을 활용해서 카드뉴스 형태 등 오디오 콘텐츠에서 파생되는 '2차 콘텐츠'를 발행하고 있습니다. 콘텐츠를 다양한 소비자의 입맛에 맞게 새롭게 요리해서 눈 앞에 내어 놓는 노력이 대단하게 여겨지기도 하네요.



마음까지 통하고 싶은 당신에게 '비폭력 대화법'을 주제로 풀어내는 팟캐스트 <대화만점>

"나를 지키고 타인과 연결되는 비폭력 대화법을 함께 연습해요~"라는 문구가 참 따뜻하게 들리네요.

이진희PD의 평소 생각과 공부가 깊어져 탄생한 팟캐스트인 것 같다는 생각을 했습니다.



고품격 하이퀄리티 본격 진지 낭독 팟캐스트! <오디오진정제>

KBS 이상협, 배창복 아나운서의 듣기 좋은 멋진 목소리로 '무엇이든 읽어주는' 오디오 콘텐츠입니다. MBC/KBS파업 중 '청주 돌마고파티'에 왔을 때, 정말 재미있게 들었던 기억이 있습니다.

그러고 보니 '팟캐스트'콘텐츠가 오프라인 '공연'콘텐츠가 될 수도 있겠다는 생각을 해봅니다.






저도 몇 가지 '팟캐스트'를 기획하고 있습니다.

이른 '봄'이 오기 전에 

'엄마의 책읽기'와 '청년이슈'를 다루는 팟캐스트를 

여러분께 선보이기 위해 준비중입니다. 

그 과정도 '브런치'에 담아 함께 공유해 볼게요.





다시 본론으로 돌아와서...


제가 강의중에 했던 질문 가운데 하나는 "메타데이터, 빅데이터 다 좋은데, 어떻게 우리 실무와 연결지어서 잘 활용할 수 있을까요?"였습니다.

이런 교육이나 강연을 많이 듣다보면, 문제의식이 명확해지고, 다른 조직원들에게 빨리 알려야 겠다는 생각이 강해집니다.

하지만, 인식한 문제를 어떻게 풀어갈 지에 대한 대답은 점점 더 어렵게만 느껴지게 됩니다.


이진희PD의 조언은 이것이었습니다.



"먼저 '스몰데이터 Small Data'를 활용해 보세요."



스몰데이터? 빅데이터는 많이 들어봤지만, '작은 정보'?

쉽게 말하면, 너무 큰 데이터는 복잡한 분석도구와 전문가의 도움이 필요할 수 있으니,

가볍게 프로그램 관련 데이터들을 소규모로 모으고 나서,

이렇게 모인 데이터를 어떻게 활용할 지를 고민해 보라는 것이었습니다.


지극히 현실적이면서, 많은 시행착오의 경험에 나오는 '따뜻한 조언'이라고 생각합니다.


그러면서 <헬로 데이터 과학>이라는 책을 추천해 줬습니다.

이진희PD도 처음 빅데이터 분석이 엄두가 안날 때, 이 책으로 첫걸음 떼었다고 했습니다.








간단한 필자 소개입니다.

김진영(Jin Young Kim):

이런 사진을 올려놓고 보니, 마치 이번 글의 주연배우 같기도 하네요. ㅎㅎ 오늘 주연은 '데이터 Data'라는 분입니다.



필자는 컴퓨터 사이언스(정보검색) 전공으로 미국 메사추세츠 주립대에서 박사학위를 받고 2012년부터 최근까지 미국 마이크로소프트 본사 검색엔진 부문의 연구자로 있습니다. 회사에서 검색 품질을 평가하는 일을 담당하며, 사내에서 신입사원을 상대로 업무에서 활용할 수 있는 데이터 과학을 가르치기도 하였습니다. 2017년부터는 스냅(Snap Inc)의 데이터과학자로 일하고 있습니다.


개인적으로 삶의 생산성과 행복도를 높일 수 있는 다양한 측정 방법을 개발하여 사용하고 있고, 최근에 이런 활동이 Seattle Times에서 보도되기도 하였습니다. 정보 검색, 기계 학습, 측정 등을 주제로 한 개인 블로그를 수년간 운영하고 있으며, 정보 검색 분야에서 열편 이상의 국제 학회지 논문의 저자이기도 합니다.


미국에 오기 전에는 서울대학교 전기공학부 학사를 마쳤으며, 대학 재학 중에 웹 디자이너로, 그리고 졸업 후에 3년간 소프트웨어 엔지니어로 근무하였습니다. 이 와중에 “드림위버 4(교학사)” 집필에 필자로 참여하였고, “루비웨이(The Ruby Way)” 번역에도 역자로 참여하였습니다. 2016년 3월 한빛미디어와 데이터 과학 입문서 헬로 데이터 과학을 출간하였습니다.



블로그 & SNS  

https://brunch.co.kr/@lifidea

https://twitter.com/lifidea

https://medium.com/@lifidea/latest

https://www.linkedin.com/pub/jin-young-kim/19/63a/294






급한 마음에 허겁지겁 목차를 훑어보고, '평창동계올림픽 5G' 속도로 읽어내려갔습니다.

오랜 시간 데이터분석 업무를 수행하면서 느낀 점들을 초보자의 눈높이에서 실행 가능한 방법으로 풀어 제안해주는 ‘빅데이터 활용 첫걸음’ 같은 책이었습니다.


처음부터 ‘빅데이터’에 도전하지 말고, 일상의 ‘스몰데이터 Small Data’를 모아서 분석하는 것부터 시작해 보라고 권합니다. 무엇보다 의미있는 분석결과를 얻기 위해서는 ‘신중한 데이터 수집’을 강조하고 있습니다.



다음은 <헬로 데이터 과학>에서 제안하는 ‘스몰 데이터’ 분석을 위한 과정입니다.


1. 정확한 문제의식 찾기

2. 해결을 위한 가설 설정하기

3. 데이터수집 대상과 범위 정하기

4. 데이터 모으기

5. 가설 검증하기

6. 결과 공유하기



이 모든 과정 가운데, 가장 기본적이면서 중요한 작업이 바로 ‘정확한 문제의식 찾기’였습니다.

정확하게 문제를 인식하기 위해 되도록 많은 구성원들과 의견을 나눠야 한다는 점을 강조합니다.

무엇보다 데이터 분석결과를 구성원과 공유해서, 문제해법의 '과실'을 조직에 골고루 나누는 것도

(당연한 얘기지만) 정말 중요하다고 강조하고 있네요.



성격 급한(5G) 필자는 바로 실행에 옮깁니다.



다양한 빅데이터 분석툴이 있지만, 많은 사람들에게 익숙한 엑셀Excel 프로그램을 활용한 데이터분석 사례를 활용해 보기로 했습니다. 엑셀Excel 프로그램을 맥북에 설치하고 프로그램에 대해 공부를 시작했습니다.





1. 나만의 문제의식 찾기


제가 제작을 맡고 있는 라디오 시사프로그램 '임규호의 특급작전'을 첫 실험대상으로 삼았습니다.

그리고 '문제의식'을 생각해 봤습니다. 다음의 몇 가지로 정리되더군요.


'청취자의 참여가 요일별, 주제별로 차이가 크다.'

'새로운 청취자의 참여가 절실하다.'

'청취자의 폭을 2~30대로도 확장해야 한다.'



2. 해결을 위한 가설 설정하기


충분히 논의해 볼 사람이 없다는 어려움이 있어, 그 동안 프로그램을 제작하면서 들었던 생각들을 바탕으로 가설을 설정해 보았습니다.


<가설1> 아이템을 선정할 때, 지역별 편중을 최소화하면 청취자 참여가 증가할 것이다

<가설2> 2~30대를 대상으로 한 아이템 선정이, 청취층 확대로 이어질 것이다.

<가설3> 인터뷰의 품질(인터뷰이의 전문성과 능숙함)이 청취몰입도를 높일 것이다.



3. 데이터수집 대상과 범위 정하기


데이터 수집 대상과 범위를 정하기 위해서, 두 분의 작가와 함께 회의하면서 다루는 다양한 자료들을 먼저 모아서 살펴보았습니다. 평소에 제작진이 품고 있던 '아쉬움'은 사실 프로그램의 '성취도'와도 맥을 같이 한다는 것을 알게 되었습니다.


'요일별로 청취자 참여가 어떻게 다른가?'

'선정된 아이템은 주제별 치우침이 있는가?'

'아이템 선정시 지역별 편중됨이 있는가?'

'인터뷰이에 대해 어떤 평점을 줄 수 있을까?'


프로그램이 제작되는 과정에 사용되는 모든 자료가 대상이 되었고, 방송프로그램으로 구현된 정보까지를 '범위'로 정했습니다. 날짜, 주제, 인터뷰대상에 대한 정보, 인터뷰 품질, 지역, 문자참여수, 웹 다시듣기 링크, 팟캐스트 링크, 자료 링크, PD코멘트 등을 수집해 분석 대상으로 삼기로 했습니다.  



4. 데이터 모으기


자! 이제 본격적으로 데이터를 모아보겠습니다.

먼저, 동료의 도움을 받아 엑셀Excel 프로그램으로 표를 만들었습니다. 데이터 수집의 대상과 범위가 정해지니 엑셀 표의 '행'과 '열'을 어떻게 채울 지 쉽게 정해지더군요.


다음은 특급작전의 '스몰데이터'를 담은 <SDATA_특급작전> 표입니다.





'작은 데이터'들을 하나 하나 매일 모아나가다 보니, '열'에 삽입하고 싶은 항목들이 계속 생각나더군요.

'아이템 해당 지역'을 추가해서 데이터의 살집을 키워나갑니다.


2018년 1월 1일부터 시작한 데이터 수집은 일주일 남짓 지났습니다.

벌써부터 "만만한 작업이 아니구나!" 싶네요. 무엇보다 부지런해야 합니다. 

그럼에도 불구하고, 어떤 과실을 열어줄 지 모르는(그래서 기대되는) '데이터 씨앗들'을 모으는 재미는 쏠쏠합니다.


앞으로 4.가설을 검증하고, 5. 결과를 공유하는 과정이 남아 있습니다.

1/4분기가 끝나는 시점에, 1차 분석 결과를 브런치로 공유해 볼 생각입니다.





에필로그



저도 모르는 사이에 개인의 일상이 스마트폰이나 SNS, 이메일, ioT기기 등을 통해 '빅데이터'로 수집되고 분석되는 시대에 살고 있습니다. 아쉬운 것은 그 결과가 '수집의 주체'인 기업에 유익하게 활용될 뿐, 수집에 동의한 개개인에게는 그 유익함의 혜택이 아직도 미미하다는 것입니다.


공공의 영역에서도 '빅데이터'에 대한 관심이 급증하고 있고, 일부 앞서가는 지자체에서는 지역사회의 정보를 분석해 '좋은 정책'으로 구현하고 있습니다.



"디테일 Detail에 악마가 숨어 있다"



차별화된 정책과 매력적인 개성을 완성해 나가기 위해서는 '섬세함'(Detail)을 챙기는 고단함이 반드시 함께 해야 합니다. 아무리 사는 것이 바빠도, '더 좋은 삶'을 살기 위해 우리 가까이에 널려 있는 '섬세한 스몰데이터 Small Data'를 챙겨 보시면 어떨까요?





- 주말작가 씀 -




#시도하지_않으면_확률은_0% 이다

#나만의_이유를_찾아서

#나만의_가치를_찾아서


브런치 블로그(https://brunch.co.kr/@5more-seconds)

인스타그램(https://www.instagram.com/young_rak/)

페이스북(https://www.facebook.com/5moreseconds)

유튜브(https://www.youtube.com/user/3young1)

e-mail(3young@gmail.com)



매거진의 이전글 '5초' 동안 일어날 수 있는 일
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari