2부. 데이터를 분석하는 습관 : 셀프서비스 데이터 분석
목적에 맞는 분석 도구의 선택
빅 데이터의 시대가 되면서 데이터 분석은 셀프서비스로 진화하고 있다. 어느 순간 물이 셀프서비스가 되었듯이 데이터 분석도 셀프서비스가 되고 있다. 어떤 지역으로 이동하려면 자동차가 필요하듯이 데이터 분석을 하려면 분석 도구가 필요하다. 데이터 분석을 전문적으로 해보지 않았던 현업 실무자는 목적에 맞는 현명한 분석 도구를 선택하는 데 어려움이 있다. 아무거나 선택한다면 서울에서 대전을 가는데 승용차가 아니라 트럭을 잘못 선택하여 고생하는 꼴이 될 수 있다. 만약 서베이를 통해 수집한 데이터를 단순 집계한다면 엑셀로도 충분하다. 굳이 R을 사용할 이유가 없다. 그러나 빅 데이터를 수집하고 처리하고 모델링을 해야 한다면 R이나 파이썬을 다룰 수 있어야 한다.
목적에 맞는 분석 도구의 선택은 셀프서비스 데이터 분석에서 특히 더 중요하다. 업무를 효율적으로 해야 하는데 잘못 선택하면 오히려 비효율이 될 수 있기 때문이다. 가장 대표적인 도구 몇 가지를 살펴보자.
첫째, 검색 플랫폼에서 제공하는 데이터 분석 도구를 이용하면 손쉽게 데이터 분석을 할 수 있다. 구글의 구글 트렌드, 네이버의 데이터랩, 바이브(다음소프트)의 썸트렌드, 그리고 빅카인즈 등이 대표적이다. 구글 트렌드와 데이터랩은 특정 검색어가 얼마나 많이 검색되었는지 확인할 때 유용한 도구다. 글로벌 트렌드를 알고 싶다면 구글 트렌드를, 국내 트렌드를 알고 싶다면 데이터랩이 더 유용할 수 있다. 썸트렌드는 온라인 데이터를 통해 키워드 분석, 평판 분석, 비교분석을 제공한다. 무료로 이용할 수 있으며 고급 분석은 유료 서비스를 받아야 한다. 빅카인즈는 신문, 방송 등 국내 54개 주요 언론사의 6천5백만 건 뉴스를 축적하고 있는 국내 최대의 공공 뉴스 아카이브이다. 빅카인즈 내에서 뉴스 검색, 연관어 등 다양한 빅 데이터 분석을 쉽고 간단하게 할 수 있다. 무료 회원가입으로 분석한 내용을 다운로드해서 다른 분석 도구에서 추가 분석을 할 수도 있다. 특히 텍스트 마이닝으로 뉴스에 언급된 키워드의 빈도와 연관어를 분석할 수 있다.
둘째, 마이크로소프트의 엑셀은 가장 보편적으로 사용하는 데이터 분석 도구다. 엑셀은 데이터가 테이블 형태로 되어 있어서 직관적으로 데이터를 관리할 수 있다. 여기에 파워 쿼리나 피벗 기능을 이용하면 쉽게 데이터를 정리하고 시각화할 수 있다. 파워 쿼리는 분석 요구에 부합하도록 데이터 원본을 검색, 연결, 결합 또는 구체화할 수 있게 해주는 데이터 연결 기술이다. 파워 피벗은 데이터 모델을 만들고, 관계를 설정하고, 계산을 만들 수 있는 데이터 모델링 기술이다. 그리고 파워 BI와 연동이 되기 때문에 비즈니스 인텔리전스(BI)까지 구현할 수 있다. 정품 사용자라면 추가적인 비용 부담 없이 이런 모든 기능을 사용할 수 있다. 다만 처리용량이나 고급 통계분석 기능, 그리고 자동화 측면에서 한계를 가지고 있다. 엑셀은 데이터 과학을 처음 접하는 현업 데이터 분석가에게 유용한 도구로 모자람이 없다.
셋째, 전문적인 통계 패키지로 SPSS와 SAS가 있다. SPSS는 어느 정도의 진입장벽이 있긴 하지만 그래픽 사용자 인터페이스(GUI)로 되어 있어서 초보자도 쉽게 사용할 수 있다. 엑셀과 같은 메뉴 구조로 되어 있다. 깊이 있는 혹은 추가적인 분석을 위해 프로그래밍이 필요한 경우도 있지만, 대다수는 기본 기능으로 고급 통계분석, 데이터 마이닝까지 가능하다. SAS는 프로그래밍해야 되기 때문에 어느 정도 전문성이 요구되는 분석 도구다. 강력한 통계분석 기능을 제공하고 있으며, 시각화 및 비즈니스 인텔리전스 기능이 추가되고 있다. 두 패키지 모두 유료이고 시험판을 일정 기간 사용할 수 있다. 만약 통계와 프로그래밍에 대한 이해가 약하다면 SPSS를 사용하는 편이 훨씬 스트레스를 줄일 수 있다.
넷째, R과 파이썬과 같은 오픈소스 프로그래밍 언어가 있다. R은 통계 분석과 그래픽을 위한 프로그래밍 언어이자 다양한 패키지의 집합으로 구성된 데이터 분석 도구다. 워크시트 대신에 입력창만이 존재하기 때문에 통계와 프로그래밍에 대한 기본적인 이해가 있어야 사용할 수 있다. R을 포함한 모든 프로그래밍 언어에서는 변수라는 개념을 사용하는데 이런 변수는 작업공간에 존재하지만 고정된 위치를 갖지는 않으며, 벡터, 행렬, 테이블 등 고유의 자료형을 갖는다. 파이썬은 보다 빠르게 작업하고 시스템을 보다 효과적으로 통합할 수 있는 프로그래밍 언어이며 개발도구다. 두 언어 모두 통계분석이 가능하지만, R은 통계분석에 특화된 언어이고, 파이썬은 개발에 특화되어 있다. 그 쓰임새에 따라 선택적으로 사용할 필요가 있다. 무료라는 장점이 있는 반면에 언어를 익혀야 하는 어려움이 있다.
다섯째, 래피드마이너(RapidMiner)와 나임(Knime) 같은 오픈소스 플랫폼도 있다. 드래그 앤 드롭만으로 프로그래밍 없이 분류와 패턴 발견 등의 복잡한 분석을 할 수 있다. 현업 실무자인 초보 데이터 분석가부터 전문 분석가까지 이용할 수 있는 데이터 분석 플랫폼이다. 래피드마이너는 GUI 방식으로 데이터 마이닝을 할 수 있는 분석 도구다. 나임은 Work-Flow 기반으로 데이터 분석을 수행할 수 있으며, 코딩 기반의 다른 데이터 분석 프로그램보다 코딩에 대한 기능 요구도가 낮고, 분석 과정을 시각화하여 볼 수 있다.
마지막으로 비즈니스 인텔리전스 도구로 파워 BI와 태블로 등도 있다. 모든 데이터 분석은 분석 결과를 해석하여 통찰을 얻어야 하는데 그 중심에 시각화 분석이 있다. 데이터 시각화는 데이터를 수집 및 처리하여 시각적으로 도식화하는 기법으로 아이디어를 탐구하고 정보를 전달할 수 있는 빠르고 효과적인 방법이며, 비즈니스 인텔리전스를 위한 대시보드 역할을 한다. 대시보드를 만들게 되면 한눈에 동태적으로 데이터 분석의 결과를 실시간으로 볼 수 있고 결과물을 공유를 할 수 있기 때문에 매우 유용한 통찰을 제공할 수 있다. 파워 BI는 엑셀 데이터를 그대로 사용할 수 있고 무료로 이용할 수 있어서 초보자에게 유용한 도구다. 태블로는 강력한 시각화 도구이지만 유료이기 때문에 전사적으로 조직에서 도입할 때 유용하다. 현업 실무자로서 대시보드에서 데이터를 자유롭게 분석할 수 있어야 한다.
이 외에도 다양한 데이터 분석 도구들이 있다. 중요한 것은 도구 자체가 아니다. 어떤 도구를 사용하느냐는 해결하고자 하는 문제 및 데이터의 특성에 따라 달라질 수 있다. 목적에 맞는 도구를 선택하는 것 역시 현업 실무자들이 고민해야 한다.
현업 실무자에게 맞는 데이터 분석 도구
현업 실무자로서 데이터 분석을 하고자 한다면 먼저 엑셀과 검색 플랫폼에서 필요한 분석을 하면서 데이터 분석을 하는 습관을 기를 필요가 있다. 좀 더 깊이 있는 분석을 하고자 한다면 SPSS와 같은 통계 패키지를 사용하고, 전문적인 데이터 분석 및 시각화 분석을 하고자 한다면 R과 같은 프로그래밍 언어를 익혀야 한다. 코딩에 자신이 없다면 래피드마이너와 같은 분석 플랫폼으로 데이터 마이닝 및 예측 분석을 할 수 있다. 현업 실무자는 모든 분석 도구와 방법을 익히는 것이 아니라 나의 업무에 필요한 분석 도구와 방법만 집중적으로 학습할 것을 권장한다. 무료이면서도 초보자가 사용할 수 있는 분석 도구로 텍스트 마이닝은 검색 플랫폼을, 집계 및 요약 등 기초적인 기술 통계와 가설검정 등은 엑셀로, 그리고 예측 분석 및 데이터 마이닝은 래피드마이너를 분석 도구로 추천한다. R이나 파이썬 같은 프로그래밍 언어를 사용하지 않아도 셀프서비스로 데이터 분석을 할 수 있다.