주체적으로 데이터를 분석하고 활용하고자 하는 실무자들을 위한 로드맵
안녕하세요, 하트카운트팀입니다.
오늘은 데이터 분석 공부를 이제 막 시작해보려는 분들을 위한 로드맵을 제시해드리려고 합니다.
하트카운트를 데이터 분석/시각화 도구로 이제 막 사용해보려는 분들에게도 도움이 될 내용이니 읽어보시면 좋겠습니다.
* 본 글은 비전문가가 테이블 형태의 데이터를 '무료로', '코딩 없이' 분석하고 시각화하여 업무에 활용하고자 할 때 유용한 로드맵을 제시합니다.
본격적으로 데이터를 분석하고 시각화해보기 전에, 우리는 우선 데이터를 잘 읽을 줄 알아야 합니다. 뉴스, 보고서, 대시보드 등 업무 뿐만 아니라 우리의 일상에서 끊임 없이 만나는 '데이터', 먼저 잘 해석하고 활용하는 방법부터 배워보세요. 데이터를 올바르게 읽고 사용하는 방법(데이터 리터러시)을 배울 수 있는 콘텐츠들을 아래에 추천드립니다.
[관련 콘텐츠 추천]
여러분이 분석하고자 하는 데이터는 잘 정리되어 있나요? 기껏 데이터를 열심히 쌓아두었는데, 구성이 잘못 되어 다시 정돈해야 한다면 번거롭겠죠. 데이터를 잘 정돈하는 것은 데이터 분석의 시작이자 기본입니다. 분석하기 좋은 데이터셋의 규칙에는 어떤 것이 있는지, 예시를 통해 쉽게 이해하실 수 있는 콘텐츠들을 아래에 공유드립니다. 테이블 형태의 데이터를 분석하기 좋은 형태로 구성해보세요.
[관련 콘텐츠 추천]
- [블로그] 엑셀로 데이터 전처리하기 - 여러 파일을 하나로 통합하기
- [영문 블로그] TIDY DATA FOR EFFICIENCY, REPRODUCIBILITY, AND COLLABORATION
모든 준비가 끝났다면, 데이터를 요리 조리 살펴 보며 탐색하는 방법인, EDA(Exploratory Data Analysis, 탐색적 데이터 분석)부터 시작해봅시다. 우리는 EDA 작업을 통해 데이터의 분포와 값을 다양한 각도에서 관찰하고 인사이트를 발견할 수 있습니다. 데이터 분석이 주업무가 아닌 일반 실무자들이라면 EDA 작업만으로도 충분히 데이터에서 양질의 인사이트를 뽑아낼 수 있습니다.
그럼 어떻게 EDA를 통해 데이터에서 내게 필요한 인사이트(패턴)만 쏙쏙 빠르게 발견할 수 있을까요? X축, Y축으로 구성된 차트에 데이터를 여러 조건, 형태로 시각화해보며 새로운 사실들을 발견해나갈 수 있습니다. 보통 두 변수 간의 상관관계(R, 추세선 등으로 확인)와 분포(산점도, 박스 플롯, 신뢰구간, 드릴 다운 등으로 확인) 그리고 범주 간 차이 비교(바그래프로 확인)를 기본적으로 확인하며, 이러한 과정을 통해 우리는 미리 설정해놓은 가설을 확인하거나 새로운 가설을 수립할 수도 있습니다.
이러한 EDA를 수행하기 위해서는, 우선 적절한 시각화툴을 선택해야 하며 기초적인 시각화/통계 지식을 알아두면 차트 해석이 용이해집니다. 적절한 시각화툴이란, 다양한 조건 안에서 내 상황에 맞는 툴을 고르는 것을 의미합니다. 예를 들면 '고객 지원(피드백)이 빠르다', '다양한 활용 예시 및 실습 템플릿/예제가 있다
', '활발한 사용자 커뮤니티를 보유하고 있다', '가이드 문서나 비디오 튜토리얼이 풍부하여 배우기 쉽다'등 다양한 조건을 비교하여 내가 사용하기 편한 툴을 고를 수 있습니다.
참고로, 하트카운트는 위에서 설명한 모든 EDA를 업계 최고 성능으로 제공하는 시각화/증강 분석 툴입니다. 시각화 기능은 무료로 제공하고 있습니다.
다양한 활용 예시와 교육 콘텐츠(메뉴얼/비디오 튜토리얼, 데이터 분석 기초 이론 강의, 실습 예제 등) 그리고 커뮤니티를 운영하고 있으니 아래 링크를 클릭하여 로그인 후 사용해보세요!
하트카운트 사용해보기
[관련 콘텐츠 추천]
- [블로그] 데이터 시각화 공부를 시작하기 전에 알아둘 것들
- [강의 VOD] 시각화를 통해 데이터 모양(분포) 묘사해보기
- [강의 VOD] 시각화 기본 문법 이해하고 상관관계 분석해보기
EDA를 통해 주어진 데이터를 이리 저리 살펴보고, 새로운 패턴/사실을 발견했다면 이제는 KPI(개선해야 하는 '핵심 성과 지표')를 중심으로 고급 분석을 수행할 차례입니다. 따로 분석해야 할 KPI가 없는 데이터셋이라면/추가적인 분석이 불필요하다면 EDA만 수행하셔도 됩니다.
매출, 이익, 성과 점수, 전환 등 KPI가 확실한 데이터를 분석하고 계시다면 통계적 수치 또는 이론, 기계학습 알고리즘 등을 이용하여 좀더 심층적인 분석을 진행해보세요. 실무자 수준에서 알아 두면 좋을 만한 통계 분석 방법 두 가지를 소개드립니다.
먼저, KPI가 왜 변화했는지 알고 싶다면 선형회귀분석을 활용해보세요. 선형회귀(Linear Regression)분석이란, 기계학습(Machine Learning) 알고리즘 중 하나로 종속 변수(Y)를 가장 잘 설명하는 독립변수(X)를 찾고자 할 때에 유용합니다. 우리는 X와 Y의 상관 관계를 시각화를 통해 이해할 수 있으며 R, P-Value값과 같은 통계적 수치들을 함께 이용함으로써 통계적 유의미성을 판단할 수 있습니다. (*. 회귀분석에 대해 더 자세히 이해하고 싶다면, 아래 콘텐츠 리스트 중 가장 상단의 링크를 클릭해보세요.)
두 번째로는 의사결정나무 알고리즘(Decision Tree Algorithm)입니다. 의사결정나무 알고리즘은 서로 다른 두 집단을 구분하는 논리적 규칙을 알려줍니다. 이를 통해 우리는 집단과 집단의 차이를 데이터에 기반하여 정의할 수 있으며 이는 KPI 최적화에도 활용될 수 있습니다. KPI가 최적인 집단과, 그렇지 않은 집단을 구분하는 규칙을 알아 내어 어떻게 하면 KPI를 최적화할 수 있는지 확인할 수 있습니다. 마찬가지로 순도 등 통계적 유의미성을 확인하는 수치도 함께 볼 수 있습니다.
HEARTCOUNT에서는 위 두 가지 알고리즘을 자체적으로 서비스에 적용해두었습니다. '요인 분석', '익스플레이너' 그리고 '마이크로세그먼트' 기능에서 관련 지식이 부족한 초보자도 자연어 설명을 통해 쉽게 이용 가능합니다. 위 세 기능은 프리미엄 기능으로 연간 구독을 통해 이용할 수 있습니다. HEARTCOUNT 프리미엄은 1개월 무료 체험(* 신청하기) 후 결정할 수 있으니 요금제 페이지에서 관련 내용을 참고해보세요.
[관련 콘텐츠 추천]
- [블로그] 매체별 광고비가 매출에 미치는 영향, 회귀분석
- [블로그] 데이터에서 Signal(유의미한 차이)과 Noise(우연에 의한 차이) 구분하기
- [영상] HEARTCOUNT 프리미엄 기능 살펴 보기
모든 올바른 '데이터 기반 의사결정'에는 짜임새 있는 주장(스토리텔링)이 뒷받침되어 있습니다. 데이터를 열심히 분석해보았다면 이해관계자들 앞에서 혹은 제3자를 대상으로 이야기하는 연습을 해보세요. 꼭 발표가 아니어도 됩니다. 개인 블로그와 같이 비공식적인 채널에라도 데이터 분석 결과를 활용하여 '기승전결'이 있는 스토리를 만들어보시면 데이터 활용 역량 향상에 큰 도움이 될 것입니다.
하트카운트에서 운영하는 커뮤니티 DATA HERO에서는 누구나 자신의 데이터 분석 사례를 게시할 수 있는 오픈 페이지를 제공하고 있습니다. 이 곳에 여러분의 분석 글을 올리고, 다른 멤버들과 이야기를 나누어보시는 것도 큰 도움이 될 거예요. 데이터 히어로 오픈 페이지에 들어가 보시면, 이미 많은 글들이 업로드되어 있어요.
당장 데이터셋을 어디서 구해야 할 지 모르겠다면 혹은 조금 더 연습을 해보고 싶다면 아래에 링크로 삽입되어 있는 '실습 예제'들로 하나의 분석 스토리를 완성해보세요. 친절한 모범 답안도 있으니 나의 분석 결과가 맞는지 검토해보실 수 있을거예요.
데이터 분석 관련 더 많은 도움은 Slack의 데이터 히어로 커뮤니티 멤버들에게 받아보세요!
데이터는 더 질문하고 더 이야기할수록 성장하는 분야입니다.
[관련 콘텐츠 추천]
- [강의 VOD] 선형회귀분석과 의사결정나무 알고리즘
- PAP 블로그 : 실무자들의 프로덕트 데이터 분석글들
https://www.insilicogen.com/blog/361
실무자를 위한 데이터 자동 분석 솔루션, 하트카운트
지금 사용해 보기
하트카운트 뉴스레터 구독하기는 여기를 클릭해 주세요.
하트카운트 도입, 견적 및 구축 문의는 여기를 클릭해 주세요.
(협업 문의는 support@idk2.co.kr로 부탁드립니다.)
하트카운트 데모 비디오는 여기를 클릭해 주세요.
여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로 공식 페이지'에 방문해보세요.