올바른 통계의 사용과 데이터 문해력

Data Driven 2003

Mar 18. 2023

지난 글에 이어 <데이터 분석가의 숫자유감>의 10, 12 ~ 14화[1]를 읽고 인상 깊었던 내용을 메모하고 생각을 기록한 글입니다.

인구통계학 정보의 효용성

저자는 나이, 성별, 지역 등의 인구통계학 정보만 가지고 있는 페르소나를 타깃 고객으로 설정하는 것은 한계가 있다고 지적한다.

인구통계학 정보는 간단하고 모두가 이해하기 쉬워서 어디에나 잘 통용되어 왔다. <중략> 하지만 오늘날 많은 서비스는 온라인상에서 이루어지고, 그 위에서 활동하는 소비자들은 자신들이 무엇에 관심을 가지고 있고 무엇을 하고 싶어 하는지에 대한 데이터를 끊임없이 흘리고 있다. <중략> 하지만 많은 사람이 기존의 손쉬운 인구통계학 페르소나에 갇혀, 많은 기회를 흘려보내고 있다.

달리 말해, 저자는 인구통계학적 데이터와 사람들의 실제 행동 사이의 관련성은 점점 줄고 있다고 말한다.

사람은 그 안에서도 수많은 다양성을 갖고, 이 다양성의 범위는 점점 넓어지고 있다. 빠르고 다양하게 변화하는 현대 사회에서 사람들의 인구통계학적 경계는 시간이 지날수록 옅어진다.

범위 제한을 통한 정확도 향상

저자는 12화 부제를 '늘 옳은 말만 하는 법'이라고 붙였다. 자연어로 말할 때도 통용될 수 있는 부연이란 생각에 마음에 들었다. 먼저 저자는 자주 겪은 사람들의 경향에 대해 말한다.

사람들은 포괄적인 서술을 하는 경향이 있기 때문이다. <중략> 저마다의 '상식'은 다르고, 이런 것을 모호하게 '포괄'한 '보편적인' 것은 데이터 분석에서는 거의 통용되지 않는다.

저자는 데이터 활용의 근간은 '논리'이며, 모호하고, 포괄적이고, 직관적으로 활용하는 데이터는 그야말로 무용지물이라고 지적한다. 그래서, 다음과 같은 식으로 범위를 제한하는 요령을 설명한다.

'2021년 5월 한 달간 A 프로그램의 시청자 데이터 조사 결과 40대 여성의 비중이 35%로 가장 높았다'라고 범위를 좁히고 서술을 명확히 한다면 이 말의 정확도는 훨씬 높아진다.

다만, 이런 식의 문장은 쓰는 사람도 읽는 사람도 잘 와닿지 않으니 전달력을 높일 방법도 고려해야 한다.

하루에 받아들일 수 있는 정보량에는 한계가 생기고, 더 단순 명료한 정보에 눈이 간다. 그래서 많은 정보는 사람들의 선택을 받기 위해 여기저기 가지치기되어 눈에 잘 띄게 다듬어진다.

데이터 분석 쪽에서 쓰는 표현은 아니지만[2] Bounded Context 같은 표현이 차곡차곡 쌓인 가지치기된 언어나 문장의 집적을 나타내는데 쓰여도 좋을 듯하다.

직관을 극복하기 위한 데이터 활용

아래 문장을 읽을 때는 모델링이나 지표 같은 표현이 떠올랐다.

데이터 분석을 비즈니스에서 사용하는 대표적인 용도는 '의사 결정의 근거'를 만드는 것이고, 결국 그 근거로 '의사 결정자'들을 설득해야 하는 것이다.

한편, <Don't Trust Your Gut> 연재를 연상시키는 표현도 등장한다.

데이터가 대개 사람의 직관과 다른 사실을 발견할 때 주로 사용되다 보니, 아무리 견고한 데이터 분석 결과를 보여준다고 해도 각자의 직관에 부합하지 않으면 이 결과를 쉽게 받아들이지 못하는 경우가 생긴다. 데이터 분석 결과는 많은 경우 직관과는 거리가 멀다.

나는 의사결정권자들이 직관을 극복하고 현실에 더 잘 대응하기 위해 데이터를 활용해야 한다고 믿는다.

평균이란 무엇인가?

저자는 평균에 함정이 있다고 지적한다.

많은 사람은 평균이 어떤 사실도 제대로 설명해주지 못한다는 것을 안다.

최근에 다시 읽고 있는 <팩트풀니스> 내용을 떠올리게 한다. 1장 간극 본능(The Gap Instinct)을 읽으면 하나의 숫자 혹은 점으로 제시되는 평균 사이(Gap)에 감춰진 분포를 보면 사실에 더 충실하게 볼 수 있다고 조언한다.

위 내용을 실제 사례에 해당하는 분보 예시와 비교해 보면 의미가 더 명확해진다.

대푯값의 의미와 기능을 생각하라

나는 아래 문장에서 '대푯값'이 '빙산의 일각'처럼 느껴졌다.

대푯값이 진실을 잘 '요약'해주기는 하지만, 모든 진실을 완벽하게 반영하는 것은 아니라는 것을 기억하자.

복잡한 문제를 아주 단순화할 때만 기능이 의미 있는 경우에 적합하다는 생각이 들었다.

<오늘의 문제만 우아하게 해결하기>와 같이 복잡한 문제를 제한된 조건 하에서 일부만 해결하려고 할 때 유용한 문제란 생각이다. 내가 자주 쓰는 비슷한 표현이 있는데 <행동 가능한 문제 정의와 함수> 같은 식이다. 문제가 갖고 있는 정보나 경험에 비해 버거울 때 대처하는 방식이다.

저자는 평균 이외의 대푯값에 대해서도 소개한다.

대푯값 중 보통 평균이 가장 많이 사용되고, 그 외에 종종 등장하는 값으로 '중앙값'과 '최빈값'이 있다. 중앙값은 수치 집합의 원소를 작은 순수부터 큰 순서대로 정렬했을 때 가운데에 위치하는 값이다. 평균과 비슷해 보이기도 하지만 실재하는 값이라는 차이가 있다. 최빈값은 수치 집합의 원소 중 가장 많은 원소가 포함된 범위의 값이다.

앞서 예시한 분포의 형태에 따라 대푯값의 다른 의미를 띨 듯하다.

그래서 우리는 대푯값을 볼 때, 평균만이 아니라 그 분포가 어떻게 생겼는지를 고민해보아야 한다. 현실의 많은 분포는 정규분포의 형태를 띠지 않는다는 것을 염두에 둘 필요가 있다.

데이터 문해력

다음 문장을 읽으니 <정보홍수시대에 문해력은 어떻게 갖출 수 있는가?>편이 떠오른다.

현대 사회에서 필요한 능력은 가짜 데이터를 걸러내고, '진짜 데이터'와 '가짜 데이터'를 분별해서, 적절한 의제에 적절한 데이터를 근거로 활용하도록 하는 능력이다. 우리는 이를 '데이터 문해력'이라고 부른다. '데이터 문해력'은 일반적인 문해력처럼, 데이터를 사용해서 '읽고 쓰고 말하고 듣는' 능력을 뜻한다.

데이터 분석 일을 하는 또 다른 지인에게 육성으로 들었던 교훈이 책에도 나온다.

사람들은 숫자에 대해 낭만적 경외감을 가지고 있어, 일단 숫자만 들이대면 더 이상 이를 '이해하고 해석하려고' 하지 않는다. 그렇게 사람들은 통계의 거짓말에 속아 넘어간다. 하지만 이는 아직 데이터로 읽고 듣기에 익숙하지 않아서일 뿐, '숫자를 이해'하는 작업은 그다지 어렵지 않다.

저자가 말하는 사람들의 전형이 나인 듯하다. :)

올해 익숙해지는 원년으로 삼자.

데이터를 제대로 읽고 씀으로써 보지 못하고 닿지 않는 것들까지 이해하고, 감각으로만 만들어진 좁은 사고를 더 단단하고 넓게 확장할 수 있게 되었다. 부디, 이 근사한 도구를 잘 사용할 수 있게 되기를.

그리고 다음 말도 기억해 둘 필요가 있다.

디즈레일리가 말했다고 전해지는 "세상에는 세 가지 종류의 거짓말이 있다. 거짓말과 새빨간 거짓말, 그리고 통계다."

그 거짓말에 속지 않기 위해 혹은 남을 속이지 않기 위해 기억할 3단계가 있다.

데이터의 출처와 목적을 우선 파악해야 한다.

데이터에서 누락된 부분은 없는지도 확인한다.

숫자로 표현한 논리에 허점이 없는지 확인한다.

주석

[1] 11장의 조건부 확률은 흥미로운 주제지만 별도의 책으로 공부하고 정리할 생각으로 제외했다.

[2] DDD에서 차용한 언어

keyword

작가의 이전글퍼스널 칸반의 새로운 쓰임새 도전마음이 흐르는 대로 내 삶을 만들어가기작가의 다음글