brunch

기술 통계로 시작하는 데이터 해석의 첫걸음

[파트1. 데이터 리터러시 이해]

by 구자룡

<생각해 문제>


“통계는 어렵고 복잡하다는 선입견을 넘어서, 데이터를 제대로 해석하려면 무엇부터 시작해야 할까요?”


많은 실무자들이 ‘데이터 분석은 중요하다’고 말합니다. 하지만 분석을 실제로 수행하려 할 때, ‘도대체 어디서부터 시작해야 하지?’라는 질문에 맞닥뜨리곤 합니다. 특히 통계라는 단어가 등장하면 갑자기 어렵고 멀게만 느껴지는 경우가 많습니다. 통계는 수학 같고, 공식 같고, 시험 같아서 피하고 싶지만, 현실은 통계를 모르고는 데이터 분석을 해석할 수 없는 시대가 되었습니다.


데이터 분석과 통계 분석의 관계를 재정립하고, 그중에서도 가장 기초적이고 중요한 ‘기술 통계(Descriptive Statistics)’의 개념과 실무 적용 방안을 심층적으로 살펴보겠습니다. 특히 생성형 AI와 함께 활용하는 기술 통계의 실습 사례를 통해, 통계가 실무에 어떻게 유용하게 작동하는지를 구체적으로 설명하고자 합니다. 또한, 단순 개념 설명을 넘어서 통계 지표들을 실무에서 언제 어떻게 써야 하는지도 사례 중심으로 다루겠습니다.



데이터 분석과 통계 분석은 같은 말일까?


‘데이터 분석’이라는 단어는 최근 몇 년 사이에 급속히 확산되었습니다. 하지만 그 의미는 새롭지 않습니다. 사실 데이터 분석의 70~80%는 기존의 ‘통계 분석’과 거의 다르지 않습니다. 단지 예전에는 통계학이라는 단어가 학문 중심, 숫자 중심의 느낌을 주었고, 지금은 그것을 실무적이고 실용적인 언어로 바꿔 부르는 것뿐입니다.


데이터 분석은 기본적으로 ‘문제 해결을 위한 접근’이며, 이를 위해 데이터를 수집하고, 가공하고, 해석하는 전 과정이 포함됩니다. 이때 중심에 놓이는 것이 바로 통계적 사고입니다. 통계 분석에는 두 가지 큰 줄기가 있습니다. 하나는 현재의 데이터를 요약하고 정리하는 기술 통계(Descriptive Statistics)이고, 다른 하나는 표본 데이터를 바탕으로 모집단 전체를 예측하는 추론 통계(Inferential Statistics)입니다.


기술 통계는 현재 상태를 정확히 진단하고, 문제 영역을 발견하거나 새로운 패턴을 식별하는 데 강점을 갖습니다. 반면 추론 통계는 일정 규모의 데이터를 통해 전체를 예측하거나, 어떤 실험 결과가 우연인지 아닌지를 판별하는 데 사용됩니다.


기업 현장에서는 제품 불량률, 고객 이탈률, 고객 만족도 등의 수치를 기술 통계로 빠르게 진단한 뒤, 보다 깊은 인과관계 분석이나 실험 결과 검정에 추론 통계를 적용하는 방식으로 분석이 이루어집니다. 따라서 두 통계는 경쟁 관계가 아닌 협업 관계이며, 무엇보다 기술 통계는 데이터 분석의 입문자와 실무자 모두가 반드시 숙지해야 하는 필수 기초입니다.



기술 통계란 무엇인가: 평균, 중앙값, 최빈값부터 시작하자


기술 통계는 말 그대로 데이터를 ‘기술(記述)’하는 통계입니다. 즉 데이터를 간단하고 명확하게 요약하여, 전체적인 분포를 이해할 수 있도록 도와주는 분석 방식입니다. 대표적인 기술 통계 지표에는 다음과 같은 항목들이 포함됩니다.


위치 측도 (Measure of Central Tendency)

평균(Mean): 전체 데이터를 더한 후 데이터 개수로 나눈 값입니다. 간단하면서도 직관적인 수치이지만, 극단값의 영향을 받기 쉽습니다. 예를 들어, 직원의 평균 연봉을 구할 때 몇몇 고연봉자의 영향으로 실제보다 높게 나타날 수 있습니다.


중앙값(Median): 데이터를 순서대로 정렬했을 때 가운데 위치한 값입니다. 평균과 달리 극단값에 영향을 덜 받는다는 장점이 있으며, 분포가 비대칭일 때 보다 적절한 중심값으로 사용됩니다. 중고차 가격, 주택 전세금 등에서는 평균보다 중앙값이 더 현실적인 기준이 될 수 있습니다.


최빈값(Mode): 가장 자주 나타나는 값입니다. 고객들이 특정 가격대의 제품을 가장 많이 선택했다면, 그 값이 최빈값입니다. 마케팅에서 소비자 선호군을 파악할 때 유용한 지표입니다.



산포도 측정 (Measure of Dispersion)

범위(Range): 데이터의 최댓값과 최솟값의 차이로, 전체 데이터가 어느 정도의 폭을 갖는지 보여줍니다. 단순하지만 이상치에 매우 민감하다는 단점이 있습니다.


분산(Variance): 각 데이터가 평균으로부터 얼마나 멀리 떨어져 있는지를 제곱하여 평균을 낸 값입니다. 값이 클수록 데이터가 퍼져 있다는 뜻입니다. 예를 들어, 같은 평균 점수를 받은 두 반이 있어도 분산이 높다면 성적 차이가 크다는 것을 의미합니다.


표준편차(Standard Deviation): 분산의 제곱근으로, 실제 데이터가 평균에서 얼마나 떨어져 있는지를 원래 단위로 표현해줍니다. 실무에서 분산보다 더 자주 사용되며, 신뢰구간, 정규분포 분석 등에 활용됩니다.


형태 지표 (Distribution Shape)

왜도(Skewness): 데이터 분포가 한쪽으로 치우쳐 있는 정도를 나타냅니다. 평균과 중앙값의 위치 차이로도 왜도를 추정할 수 있습니다. 오른쪽 꼬리가 길면 ‘우측 왜도’, 왼쪽이면 ‘좌측 왜도’로 분류합니다.


첨도(Kurtosis): 분포의 뾰족한 정도를 나타냅니다. 첨도가 크면 중심값에 데이터가 몰려 있고, 첨도가 낮으면 고르게 퍼져 있는 분포입니다. 이는 리스크 분산, 품질 관리 등에서 민감하게 사용됩니다.


기술통계분석결과표.png '점수'변수의 기술통계분석 결과표


이러한 지표들은 한눈에 데이터의 전반적인 특성을 파악할 수 있게 해주며, 실무 분석의 출발점 역할을 합니다. 특히 고객의 만족도, 직원의 성과, 제품의 불량률 등 정량 데이터의 해석에 매우 유용합니다. 예를 들어, 고객 이탈률을 분석할 때 평균 이탈률뿐 아니라 이탈률 분산이 높은 집단은 어떤 특성이 있는지를 파악하면 더 정밀한 타깃 마케팅 전략이 가능합니다.



히스토그램과 박스플롯: 통계를 그림으로 말하다


수치는 이해하기 어렵지만, 이미지는 직관적입니다. 그래서 많은 실무자들이 분석보다 먼저 시각화를 요구합니다. 그 중심에 있는 것이 바로 히스토그램과 박스플롯입니다. 이 두 가지는 기술 통계의 핵심 지표를 시각화로 담아내는 대표적인 도구입니다.


히스토그램(Histogram)

히스토그램은 변수의 값을 구간으로 나누고, 각 구간에 속하는 데이터의 빈도를 막대로 표시한 그래프입니다. 데이터의 분포와 집중 구간, 이상치 탐지에 매우 유용합니다.


히스토그림.png 점수가 18-20점대에 주로 분포하고 있다.


고객 연령대 분포를 확인하면, 마케팅 타깃이 30대 후반에 몰려 있음을 파악

온라인 쇼핑몰의 주문 단가를 히스토그램으로 표현하면, 소액 주문에 집중되어 있는지 고가 중심인지 시각적으로 확인 가능



박스플롯(Boxplot)

박스플롯은 데이터의 최소값, 1사분위수(Q1), 중앙값(Q2), 3사분위수(Q3), 최대값 및 이상치를 요약한 그래프입니다. 하나의 시각화로 분포, 중앙값, 범위, 이상치 여부를 파악할 수 있는 효율적인 도구입니다.


박스플롯.png 서울지하철 일일 승차총승객수를 지하철역별로 분포를 볼 수 있다.


직원 성과 점수의 박스플롯을 보면, 팀 전체의 편차와 성과 상위자들을 한눈에 볼 수 있음

제품별 불량률의 이상치를 시각화해 공정 개선 포인트를 도출


히스토그램과 박스플롯은 단순히 예쁜 그래프가 아니라, 데이터의 문제점을 조기에 파악하고, 정제 방향을 결정하는 데 있어 중요한 역할을 합니다.



생성형 AI 함께하는 기술 통계 실습


이제 ChatGPT 같은 생성형 AI와 함께 기술 통계를 실습해봅시다. ChatGPT에는 ‘코드 인터프리터’ 또는 ‘Advanced Data Analysis’ 기능이 있어 엑셀이나 CSV 파일을 업로드한 뒤 자연어 프롬프트로 바로 분석을 요청할 수 있습니다.


기본 프롬프트 예시:

이 CSV 파일을 업로드했어. 각 변수에 대한 기술 통계를 분석해줘. 평균, 중앙값, 표준편차, 최댓값, 최솟값, 왜도, 첨도까지 포함해서 정리해줘. 히스토그램과 박스플롯도 함께 시각화해줘.


실무형 프롬프트 응용:

고객별 월별 구매 데이터를 분석하고 싶어. 월별 구매 금액의 평균과 표준편차를 고객 그룹별로 나눠서 보고 싶어. 이상치가 있는지도 알려줘.


ChatGPT 응답 예시:

“A그룹 고객의 월별 평균 구매 금액은 28,300원이며, 표준편차는 6,200원입니다. B그룹은 평균이 44,000원으로 A보다 크고 편차도 큽니다. 박스플롯을 보면 B그룹에 이상치가 존재합니다.”


ChatGPT Image 2025년 4월 14일 오후 06_02_20.png


실무 적용 전략: 통계는 문제 해결의 도구다


기술 통계는 단지 숫자를 요약하는 것에서 끝나지 않습니다. 실제로는 ‘이 데이터를 가지고 무엇을 할 것인가’에 따라 완전히 다른 가치를 창출합니다. 다음과 같은 질문을 던지며 기술 통계를 실무에 연결해봅시다.


분포를 이해하는 데서 출발하자

고객은 평균적으로 얼마나 자주 구매하는가?

직원 성과는 어느 정도로 분산되어 있는가?


이상치를 경계하자

특정 매장에서 유난히 높은 클레임 수가 보고된다면 이상치일 가능성이 있다

갑작스러운 지표 변화는 품질 이슈일 수도 있다


변동성과 안정성을 읽자

표준편차가 작으면 프로세스가 안정적, 클수록 리스크 요소가 많음

매출 평균은 높아도 표준편차가 크면 계획 수립이 어려워질 수 있음



통계를 아는 만큼 데이터가 보인다


기술 통계는 단지 숫자를 정리하는 기술이 아닙니다. 그것은 숫자 너머에 숨어 있는 의미를 해석하고, 실무 문제를 해결하기 위한 출발점입니다. 생성형 AI는 이 과정을 훨씬 쉽게 만들어주지만, 질문의 방향성과 해석은 여전히 사람의 몫입니다.


기술 통계를 잘 활용하는 실무자는, 단지 데이터를 보는 데서 끝나는 것이 아니라 그로부터 ‘무엇을 할 것인가’를 결정할 수 있는 인사이트 기반의 사고력을 가집니다. 숫자와 친해지는 것, 그것이 데이터 시대 실무자의 경쟁력입니다.



keyword
이전 04화분석의 출발점: 데이터 프레임과 데이터 유형의 이해