brunch

가설 없이 분석하지 마세요

가설은 결과 증명이 아니다

by Maven


데이터 분석의 시작은 ‘답’이 아니라 ‘질문’이다

“이 데이터로 뭘 알 수 있을까?”
처음 데이터 분석을 시작할 때 가장 흔히 던지는 질문이다. 하지만 정말 중요한 질문은 이게 아니다.
진짜 중요한 건 “왜 이걸 알고 싶은 걸까?”다.
즉, ‘가설’을 세우는 이유다.

많은 사람들이 데이터 분석에서 가설을 너무 ‘정답 추론’처럼 접근한다. 마치 시험 문제를 푸는 것처럼, 어떤 결론을 도출해야 하는지 미리 정해두고, 그걸 증명하기 위한 분석만 반복한다.
하지만 진짜 데이터 분석은 ‘답을 확인하는 과정’이 아니라, ‘질문을 던지고 탐색하는 과정’이다.

예를 들어 “코로나 이후 집 꾸미는 사람이 많아졌다”는 인사이트를 얻고 싶다고 하자.
그럼 단순히 ‘인테리어 키워드 검색량 증가’만 볼 게 아니라,
“어떤 품목의 수요가 늘었는가?”, “온라인과 오프라인의 패턴은 어떻게 다른가?”,
“Z세대와 X세대는 어떤 차이를 보이는가?” 등등, 수많은 ‘꼬리 질문’을 던질 수 있다.
이렇게 꼬리에 꼬리를 무는 질문이 바로 데이터 분석의 흐름을 만들어낸다.


결국 가설이란, ‘정답을 향한 예측’이 아니라
‘어떤 데이터를 먼저 보고, 어디서부터 출발할지를 결정하는 기준’이다.
이는 통계학자 존 튜키(John Tukey)가 강조한 ‘탐색적 데이터 분석(EDA, Exploratory Data Analysis)’의 철학과도 맞닿아 있다.
튜키는 “데이터는 우리에게 말을 걸고 있다”고 말했다.
그 말을 듣기 위해 필요한 건, ‘가설’이 아니라 ‘호기심’이다.

나는 분석 보고서를 쓸 때마다, 최종 결론보다는 이 가설들이 어떻게 전개되었는지를 더 중요하게 본다.
왜냐면 ‘결론’은 하나지만, 그 결론에 이르기까지의 ‘탐색 과정’은 수십 가지일 수 있기 때문이다.
그리고 그 과정을 이해하는 게, 더 나은 인사이트를 만드는 열쇠가 된다.

그래서 요즘엔 분석 초안을 짤 때 아예 “이 데이터로 무엇을 알고 싶은가?”보다
“이 데이터를 보면 어떤 질문이 떠오르는가?”로 시작한다.
답이 아니라 질문이 분석의 출발점이 되도록.

가설은 그저 ‘검증의 도구’가 아니라
‘탐험을 위한 지도’라는 걸 잊지 말자.

keyword
매거진의 이전글AI를 활용한 결과물은 이미 그 자체로 창의적이다.