이 매거진은 데이터 시각화 길라잡이라는 제목으로 수회 차 연재될 예정이며, 실제 실무에 적용할 수 있는 데이터 시각화 방법과 팁을 다룹니다.
이 글은 데이터의 종류를 다룹니다.
이 글과 함께 읽으면 좋은 글을 아래에 링크합니다.
데이터 분석과 시각화는 데이터의 종류에 따라 달라집니다.
데이터 시각화의 목적은 전달하고자 하는 정보 잘 전달하는 것입니다.
즉, 정보 전달과 커뮤니케이션이 데이터 시각화의 가장 큰 목적입니다.
상대에게 정보를 잘 전달할 때 원하는 결과를 이끌어 낼 확률이 높아지기 때문에 데이터 시각화는 정말 유용합니다.
데이터 시각화라고 하면 멋진 그래프 디자인을 떠올리는 분들이 많은 것 같습니다.
하지만 제가 소개할 데이터 시각화는 디자인이 아니라 혼란을 최소화하는 올바른 시각화입니다.
많은 정보를 전달할수록 정보 이해하기 어려운 경우가 많습니다.
반면 데이터 시각화는 많은 정보를 효율적으로 전달하기에 유리합니다.
누군가를 이해시키려면 우리가 먼저 이해하고 있어야 합니다.
데이터를 이해하기 위해서는 데이터의 종류를 먼저 알아야 합니다.
데이터의 종류는 크게 두 가지로 분류되며 각 2가지의 종류가 있습니다.
■ 범주형(Categorical Data, 질적 데이터)
· 명목형 : 사람 또는 사물 등에 명명한 이름과 관련된 데이터입니다. 명목형은 순서나 서열이나 크고 작음 등의 의미가 포함되지 않은 데이터입니다. (ex. 성별, 지역)
· 순서형 : 순서 그 자체가 의미를 가지는 데이터입니다. 다만 그 순서를 더하거나 빼거나, 곱하거나 나눈다고 의미가 생기지는 않는 데이터입니다. (ex. 멤버십 등급, 메달의 색)
■ 수치형(Numerical Data, 양적 데이터)
· 간격(이산형) : 지표들 사이의 간격이 의미를 가지는 데이터입니다. 특히 데이터가 존재하지 않는 상태일 수 없는 데이터를 의미합니다. (ex. IQ지수, 기온)
· 비례(연속형) : 데이터 자체가 의미를 가지는 데이터입니다. 데이터가 존재하지 않는 상태일 수 있는 데이터를 의미합니다. (ex. 매출)
데이터의 종류에 따라 가능한 연산이 다릅니다.
· 명목형의 경우 =, ≠만 가능하며 <, >나 사칙연산은 불가능합니다.
· 순서형의 경우 =, ≠와 <, >가 가능하며 명목형과 마찬가지로 사칙연산은 불가능합니다.
· 간격형의 경우 =, ≠와 <, >와 +, -가 가능하며 ×, ÷만 불가능합니다.
· 비례형의 경우 =, ≠와 <, >와 +, -와 ×, ÷까지 모든 연산이 가능합니다.
이번 글에서는 데이터 시각화의 목적과 데이터의 종류에 대해 다뤘습니다.
참고로 데이터의 종류에 따라 연산뿐만 아니라 활용할 수 있는 통계 기법이나 시각화 방법도 달라지니 데이터의 종류를 잘 숙지하시면 좋을 것 같습니다.