brunch

You can make anything
by writing

C.S.Lewis

by HEARTCOUNT팀 May 09. 2022

기업 데이터, 개별 레코드 분석이 필요한 이유

얕은 수준에서 데이터 분석을 하기 위해서 노력을 했던 사람들이라면 겪었을 것입니다. 데이터의 값이 너무 많아서 대표값(평균, 중앙값 등)을 선정하여 분석을 진행했더니 사실과는 다른 분석 결과를 발견하게 되는 일을 말입니다.


그런 오류가 생겨나는 이유가 무엇일까요? 관련된 내용을 다루어 보도록 하겠습니다.


때로는 대시보드 만으로는 부족하다


전통적 대시보드 레벨의 데이터 시각화 및 분석은 시간의 흐름에 따라 각 회사의 상황에 맞추어 미리 정의된 지표들의 추이 확인이라는 목적이 있습니다. 제품별 재고율의 월별 추이, 팀별 평균 판매량 비교 등 추이의 변화를 확인하는 것은 유의미한 데이터 분석이 될 수 있습니다. 


그러나 집계 수준의 데이터는 "하나의 점으로 뭉뚱그려진" 값이라는 것을 기억해야 합니다. 


집계 데이터를 통해 개별 레코드에 대한 명확한 차이를 식별하기에는 한계가 있습니다. 숫자와 대시보드를 열심히 보는 건, 우리가 당면한 문제가 무엇이며 그 이유는 무엇인지에 대해서 알아내기 위함입니다. 그것을 이루기 위해서는 심도 있게 개별 수준의 레코드를 들여다 볼 필요가 있습니다. 



평균이 왜곡하는 현실 세계


어느 기업에 속한 A팀과 B팀의 평균 실적을 계산해 보았을 때, 80점으로 동일했다고 가정해 봅시다. 이 평균 점수를 통해서 두 팀에 동일한 성과급을 지급한다고 했을 때 모두에게 공평하다고 볼 수 있을까요? 한 번 아래의 표를 봅시다.















물론 극단적이고 작위적인 예시이기도 합니다. 하지만 집계된 데이터(평균)에만 집중한다면 생겨날 수 있는 문제입니다.


위의 데이터를 HEARTCOUNT에 드래그 하여, 간단히 시각화해 보았습니다.

가장 흔하게 사용되는 bar-chart를 통해 표현된 평균입니다.

이번에는 시각화 방법을 바꾸어 개별 데이터를 살펴 볼까요?

이처럼 개별 데이터를 보기 시작하면 평균에서는 보이지 않던 유의미한 정보를 찾을 수 있게 됩니다.

또한 평균값에 왜곡을 주던 B팀의 골칫거리(?) 직원 5를 드래그 해 제거할 수 있습니다. 이렇게 이상치를 파악하여 제거한 후에서야 평균값이 현실을 반영하는 좋은 지표라고 판단할 수 있겠네요.


그렇다면 무조건 직원 5를 "못된 직원"이라고 판단할 수 있을까요?

더 구체적인 글과 위 질문의 답에 대해서는 하트카운트 서포트 페이지의 본문에서 보실 수 있습니다.



실무자를 위한 데이터 자동 분석 솔루션, 하트카운트
지금 사용해보기


하트카운트 뉴스레터 구독하기는 여기를 클릭해주세요.

하트카운트 도입/구축/협업 문의는 여기를 클릭해주세요.

여기를 클릭하여 데이터 분석/시각화 커뮤니티 '데이터 히어로'에 참여하세요.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari