brunch

매거진 변화

You can make anything
by writing

C.S.Lewis

by 오명석 Jun 17. 2018

빅데이터를 알고 싶은 초심자를 위한 안내서2

데이터 추출 가공을 위해 도움 되는 참고 사이트 13가지

우리 주변에는
많은 데이터가 있습니다.


어느덧 인터넷은 저희들의 생활 속에 깊이 다가왔습니다.

각 가구 인터넷 보급률/이용률만 보더라도 2005년 대비 2016년까지 높은 수치로 증가하였습니다. 그러면서 자연스럽게 인터넷이나 컴퓨터로 저장하는 데이터의 양 또한 증가하게 됩니다.


이번 글을 통해서는 우리 생활 속 추출할 수 있는 데이터 종류에는 어떤 것이 있으며, 이를 활용하는데 어떤 것을 주의해야 하는지 알아보도록 하겠습니다.


*아래 [가구 인터넷 보급률 및 컴퓨터 보유율]에서 컴퓨터 보유율이 떨어지는 것이 궁금하신 분들도 있으실 겁니다. 흥미로운 것은 가구 인터넷 보급률은 증가하는데 반해, 각 가정의 컴퓨터 보유율은 줄어든다는 점인데요. 이것은 바로 각 가정에서 PC가 줄어들고 모바일로 인터넷을 많이 한다고 생각하시면 됩니다.



이전 글에서는 빅데이터 시대에 어떻게 데이터를 다루어야 하며, 각 데이터를 다루는 tool에 대해 간략하게 설명을 드렸습니다.

빅데이터에서 가장 중요한 것은 적재

양보다 질 - 가설 설정이 중요

빅 데이터 작업에 필요한 도구들

데이터 주의 사항


이 글은 아래와 같은 분들에게 권합니다.

빅데이터를 전문적으로 다루는 회사가 아닌 일반 회사원들

빅데이터를 추출 할 수 있는 유용한 사이트가 궁금하신 분

빅데이터를 위해 어떤 역량이 필요한 지 궁금하신 분

 

앞으로 제가 작성하는 글들은 어느 정도 초심자들의 이해를 돕기 위해 필자가 정리한 내용이니 오히려 정확한 정의보다는 맥락을 집어 나가며 적은 글이 다소 있을 수 있습니다. 이 부분 너그러운 마음으로 이해해 주시고 댓글로 소통해 주시면 감사하겠습니다.





판단의 객관성을 위한 내/외부 데이터 이용하기


데이터는 이제 모든 산업, 직무를 불문하고 업무의 통찰력을 이끌어 내는데 필요한 예리하고 논리적인 객관적 지표입니다.


빅데이터 활용의 기대효과는 생각 보다 다양한 분야에서 효과적으로 사용될 수 있습니다.

브랜드 모니터링 | 캠패인 | 프로모션 | 비즈니스 의사결정 지원

상품기획 | 품질 관리 | 생산공정

플랫폼 전략 수립 | 운영 최적화 | 휍사이트 성능 향상 | 웹트래픽 점검

App 사용자 평가 여부 | SNS 채널 운영 진단 | 웹트래픽 UI UX 진단 | SEO

Scrolling heatmap analysis - killing 메시지 배치 고민

Data Communication

여러 직무 속에서 각자 적재한 데이터를 가지고 판단과 전략의 근거를 뽑아내게 되는데, 다각도로 데이터를 봐야할 필요가 있는 경우가 있습니다. 주로 마케팅 업무에서 많이 사용하게 되지요.

데이터는 크게 외부 데이터와 내부 데이터로 나눌 수 있습니다.


외부 데이터

외부데이터의 경우, 회사 외적인 요소에서 데이터를 추출하여 통찰력을 뽑아 내는 것입니다.

지도 데이터, 검색 데이터, 웹 트레픽, 타사 데이터, 소셜SNS 데이터, 광고 데이터, 공공 데이터 등 많은 종류가 있습니다.


이를 통해 우리들은 각 데이터마다 각 의미와 특성에 맞게 판단의 근거 자료로 활용할 수 있습니다.

예를 들면, 소셜 데이터의 경우 관심과 맥락을 파악하는데 용이합니다. 검색 데이터의 경우 관심과 니즈를 발견하는데 도움이 되지요.


이러한 자료들을 취합하면서 주로 현재 발생하는 현상의 원인과 배경을 파악하는데 용이하게 쓰입니다.

외부 데이터를 활용해 다양한 방향으로 인사이트를 얻을 수 있습니다. (출처: 코난 테크놀로지)

외부 데이터를 열람하고 추출할 수 있는 사이트는 아래와 같습니다.


공공데이터 포털
- 국가 중점 데이터 | 데이터 카테고리별 정리
- 오픈 API | 표준 데이터 등 데이터 정보 적제

https://www.data.go.kr/


SKT 빅데이터 허브
- 2013년 10건의 데이터 공개로 시작
- 프랜차이즈 업체 및 자영업자들의 업황 분석 기초 자료로 이용
- 배달업종 분석 | 치킨집 이용 분석 | 영화관 이용 트랜드
- 40여가지 지방 자체단체 공급
- 내 외국인 관광객 분석 | 교통 복지 사각지대 분석 | 창업 지원 상권 분석 | 범죄 예방 분석 등

https://www.bigdatahub.co.kr/index.do


대한민국의 1분
- 네이버와 다음의 1분 동안 검색 트래픽 정보 공개
- 시간별, 날짜별 트래픽 정보도 참고 가능


네이버 트랜드 검색
- 분야별 인기 검색어 | 인기 분야 | 검색어 트랜드 | 지역 통계
- 네이버 내 검색량과 다른 검색량도 함께 연관되어 볼 수 있는 사이트
- data를 추출할때 raw data로 추출할 것 (엑셀로 다운로드 가능)
- 절대적인 수치 보단 상대적인 수치로 참고하고 적용하는 것이 중요
- 각 하위 카테고리 별로 보고자 하는 니즈가 있는 경우 노가다 작업 필요
- 전체적으로 보려면 API를 끌어와서 쿼리를 짠 솔루션으로 볼 것
- 여러 디멘전이 있어 선택 가능


네이버 광고주 사이트
- 가입을 해야 볼 수 있음
- 최근 한달 동안 절대적 검색량 열람 가능 (도구 > 키워드 > 조회하기 열람)
- 한눈에 검색 상황을 볼 수 있음


구글 트랜드
- 구글 내 검색량 열람 가능 (2004년 부터)
- 날짜별, 요일별 추출이 가능
- 요일별 비중으로 보는 것이 낫지, 절대적인 숫자로 보진 말 것
- 해당 기간 당 검색된 양을 보여주는 것


구글 광고주 사이트
- 네이버 광고주 사이트와 같이 키워드 당 검색량을 한눈에 보기 좋음


유투브 검색량 보는 곳
- 웹 | 이미지 | 유투브 | 쇼핑 | 뉴스 등으로 분리
- 특히 유투브의 검색 데이터를 보기 용이
- 해당 관련 키워드의 트래필 우선 순위와 함께 각 월별 트래픽 | CPC 광고비 열람 가능


google data studio
- 필요에 따라 데이터를 구성하여 대시보드에 한눈에 볼 수 있도록 구성 할 수 있음
- 다양한 시각화 기획력이 있다면 구현 가능
- 요일과 시간대에 따른 세션 대비 전환율이 가능함
- 구글 애널리틱스를 연동, 데이터 센터에서 활용할 수 있는 것도 어렵지 않음


keyword tool
- Google | Youtube | Bing | Amazon | eBay | App Store
- 언어별 검색 지원
- 각 검색어 트랜드 종류와 함께 검색량 | CPC | 경쟁 정도 지표를 알 수 있음


페이스북 파워쿼리 기능
- 엑셀을 통해 페이스북 데이터를 동기화, 각종 데이터를 열람, 분석 가능
- 최신 엑셀 버전은 기본적으로 탑제
- 데이터 탭 > 데이터 가져오기 > 온라인 서비스 > 페이스북
- 또는 데이터 탭 > 기타원본 > 페이스북
- 좋아요, 날짜, 댓글 등 다양한 정보를 열람 가능
- 이를 통해 경쟁사 페이스 북 채널 활용 정도와 목적성, 이벤트 프로모션, 브랜드 강화 등 방향성을 파악 할 수 있음


마이크로 소프트 파워맵 기능
- 상권 데이터, 지진 데이터 등 각종 지리 데이터를 엑셀로 끌어와 지도에 반영할 수 있음
- 위치 데이터는 반드시 필요
- 주소를 인식 못 할 경우, XY 좌표로 환산하여 적용
- 시간 순으로 동영상 제작 가능


similarweb
- Web | App | Keyword를 한 눈에 볼 수 있음
- 각 종 사이트의 유입 경로, 고객들의 정보, 트래픽 등 을 한눈에 볼 수 있음

https://www.similarweb.com/



내부 데이터

이러한 외부 데이터를 추출 한 뒤, 그 다음에 중요한 것은 바로 내부 데이터를 보는 것입니다.


외부 데이터는 단순 외부의 현상만을 보고 그것에 대한 발생 배경을 보고 판단을 하는 것이라면, 내부 데이터는 직접적인 회사 내 이슈를 분석하고 판단 할 수 있는 실질적인 수치가 될 수 있기 때문입니다.


내부 데이터는 적재 방식에 따라 그 종류는 상당히 다양합니다.

트래픽 데이터 | 클릭 데이터 | 트렌잭션 데이터(결제, 멤버쉽) | 오프라인 데이터 등 평소 데이터 적재를 끊임 없이 할 수 있는 작업을 미리 해 두고 그 세팅에서 유효 자료를 긁어 올 수 있는 설정을 하는 것이 중요합니다.


그렇게 내부 데이터를 적재, 분석을 통해 우리가 향후 전략을 어떻게 세울 수 있는지 바향과 결과가 나오게 됩니다.

내부 데이터를 효과적으로 잘 활용을 해도 각종 다양한 분야에서 유의미한 결과를 뽑아 낼 수 있습니다. (출처: Oisix)


같은 데이터를 보더라도 인문학/추론력 필요


위의 데이터들을 참고하여 인사이트를 위해 데이터를 가공할 때 흔히 하는 실수가 있습니다. 꼭 많은 데이터를 가지고 있어야만 유의미한 결과를 뽑아 낼 수 있다는 생각이지요.


하지만 결코 그렇지 않습니다. raw data 하나만을 가지고도 다각도의 분석이 가능하지요.

다각도로 어떻게 해석 할 수 있는가를 판단하고 이에 따라 통찰력을 뽑아 낼 수 잇는 것이 가장 중요합니다.


날짜를 하나로 예를 들어보겠습니다. 날짜 원 데이터만 보더라도

주말과 주중

출근 시간과 퇴근 시간에 따른

계절별 | 월별

이렇게 다양한 시각으로 볼 수 있지요.


그리고 꼭 데이터 홍수 속에 파 묻혀 논리를 잃으면 안됩니다.

그것이 지켜지지 않으면 결국 자신의 입맛에 맞는 자료로 조작되게 됩니다. 하여 아래와 같은 조건들을 꼭 간과하지 않도록 주의 해야합니다.

선후관계 - 원인이 결과보다 시간적으로 앞서 있어야 함

관련성 - 원인과 결과는 관련이 있어야 함

의존성 - 결과는 원인이 되는 변수 만으로 설명이 될 수 있어야 한다



데이터는 이렇게 알아두면 어느 정도 갈무리가 되지만, 그것을 모르고 무작정 배우기 위해 달려들면 쉽지 않습니다.

다음 시간에는 데이터를 활용한 가설설정 및 전략 수립하는 방법과 단계에 대한 설명을 드리도록 하겠습니다.


모쪼록 빅데이터를 처음으로 공부하고 업무에 반영하려고 하시는 여러분들께 조금이라도 도움이 되었으면 합니다.


여러분들의 좋아요와 공유, 댓글은 작가에게 큰 힘이 됩니다.




오명석


2번의 창업(여행, 플랫폼), 외국계 대기업 영업, 국내 대기업 전략을 거쳐
현재는 모바일 커머스 회사의 영업 전략을 담당하고 있다.

약 10여 년 안 되는 기간 동안 국내외, 큰 조직과 작은 조직들을 거치며

조직 운영 및 인센티브/콘테스트 등 인사 자원 전략

신사업 전략, 기획

해외 전시, 의전

기술/금융 영업, 국책사업

등 다양한 업무를 담당했다.

현재는 커머스 회사에서 유통의 트렌드를 분석, 사내 강사로 활동 중이며 영업전략으로 MD 및 파트너 조직 운영과 제도 기획 업무를 진행하고 있다.


자기계발과 직장생활, 스타트업과 유통 트렌드에 관심이 많다. (강연 문의: peter1225.oh@gmail.com)


이외 독립적이고 주체적인 삶에 대한 관심이 많아 400여 명의 사회인 독서모임 '성장판'의 공동 운영진(글쓰기 코칭), 30대를 위한 모임 '월간 서른' 공동 매거진 집필진으로 활동하고 있다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari