brunch

You can make anything
by writing

C.S.Lewis

by 안영회 습작 Mar 16. 2023

주관이 편집하는 그래프와 별점의 올바른 사용

Data Driven 2023

지난 글에 이어 <데이터 분석가의 숫자유감>의 6 ~ 9화를 읽고 인상 깊었던 내용을 메모하고 생각을 기록한 글입니다.


백문이 불여일견이라는 거짓말

내용을 다 읽기 전에는 6화 '그래프 읽기'에 따라붙은 부제 '백문이 불여일견이라는 거짓말'이 무슨 뜻인가 했다. 정답은 6화의 마지막 문장에 있었다.

어디에도 친절한 은총알 따위는 없고 그림으로 만들어진 많은 데이터는 주관적으로 적힌다.

그럼에도 불구하고 그래프가 갖는 막강한 힘을 저자는 다음 문장으로 설명한다.

숫자로 표현된 상황이나 현상에서 빠르게 얻기 힘든 통찰을 훨씬 쉽게 얻는 데 잘 만들어진 그래프만큼 좋은 도구도 없다. <중략> 근본적인 목적은 '데이터를 직관적으로 이해할 수 있게 한다'는 것이다.


추세선 그리기

저자는 추세선을 그릴 때 기억할 사항으로 두 가지를 짚었다.

첫 번째로 데이터의 x축이 '일정한' '시간' 단위일 때 추세선을 사용할 수 있어요.

시계열 데이터를 대상으로 한다는 말이고, 단위가 일정해야 한다는 뜻이다.

두 번째로 추세선의 정확도를 확인해야 해요. 이때 참고할 수 있는 것 중 하나가 바로 'R-제곱 값'인데, R-제곱은 0과 1 사이의 값으로 추세선과 실제값이 얼마나 비슷한지를 나타내요.

'R-제곱 값'은 모르는 개념이다. 구글링 했다.

R 제곱은 목표 분산과 목표 분산에 대한 예측 오차의 분산 간 차의 비율로, 모델 작성에 사용된 데이터가 회귀에 얼마나 적합한지 알 수 있습니다. R 제곱은 회귀 예측에서 실제 값을 얼마나 근사치로 계산해 내는지를 측정합니다. R 제곱 스코어가 높을수록 모델이 실제 값에 더 가깝습니다.

'회귀에 얼마나 적합한지'가 무슨 뜻인지 모호하다. 위키피디아를 찾았다.

In statistics, the coefficient of determination, denoted R2 or r2 and pronounced "R squared", is the proportion of the variation in the dependent variable that is predictable from the independent variable(s).

proportion과 predictable이 느낌상 '회귀에 얼마나 적합한지'와 연결되는 핵심 단어로 보였다. 딥엘 해보니 아래 정의를 추출할 수 있다.

통계학에서 결정 계수는 독립 변수에서 예측 가능한 종속 변수의 변동 비율을 나타냅니다.


엑셀에서 추세선 그리기

엑셀이 다양한 분야에서 방대하게 사용되는 만큼, 오용되거나 남용되는 기능도 여럿 있다. 그중 대표적인 사례가 바로 '추세선'이다.

엑셀을 잘 쓰지 않는 나라 2015년 Analytics 강의들을 때 쓴 기억이 조금 있는 듯하다.

추세선은 주식 그래프 등 단일 시계열 데이터를 사용하는 경우 매우 유용하며, 데이터의 추이를 명확하게 파악하여 차트를 더 강력하게 만들어 줄 수 있다. 하지만 잘못 사용한다면 차트의 데이터를 더 강력하게 잘못 이해하게 될 수 있다.

엑셀에서 앞서 말한 결정 계수 즉, 'R-제곱 값'을 지원한다.

저자는 추세선의 정확도 확인을 위해 이를 활용하라고 제안한다.

R-제곱은 0과 1 사이의 값으로, 추세로 그린 선과 실제값이 얼마나 비슷한지를 측정한 값이다. 1에 가까울수록 비슷한 값이고, 0으로 갈수록 두 값의 차이가 커진다. R-제곱이 얼마 이상이어야 사용 가능하다는 규칙은 없다. 도메인이나 데이터 상태에 따라 상대적이다. 그러나 최소한 다른 것과의 비교라든가, 0.1도 안 되는 것은 신뢰도가 많이 낮을 것 같다는 판단 정도는 할 수 있다.


나는 내일, 어제의 데이터와 만난다

저자는 시계열 데이터를 분석할 때, '추세', '주기', '계절성'으로 크게 구분하여 분석한다고 설명한다. 2015년에 들었던 Opration Analytics 강의가 떠올랐다. 먼저, 추세는 '장기적으로 늘어나거나 줄어드는 형태'라고 말한다. 주기는 '고정된 시간 단위로 유사한 변동 형태'가 나타나는 경우라 한다. 마지막으로 계절성은 '주기적으로 반복되는 때에 어떤 사건이 발생'하는 것이라 한다.


시계열 데이터를 보는 보편적인 관점으로 기억해 둘 만하다.

데이터는 사건들을 하나하나 기록으로 남기는 것이므로, 고객의 행동 변화에 영향을 받고, 고객의 행동은 시간에 영향을 받는다. 그래서 데이터를 볼 때는 당연히 시간에 따른 변화를 고려해야 한다.


별점의 함정

9화의 제목 아래에 '나의 3점과 당신의 3점은 다르다'는 부제가 붙어 있다. <데이터 속의 숫자는 함수적으로 바라보라>편에서도 숫자는 절대적이지 않다는 사실을 다뤘다. 심지어 앞서 그래프도 주관에 의해 편집되었음을 살펴보았다.


그래서 만족도를 알고 싶다면 추정하라고 조언한다.

고객이 매기는 점수같이 사용자가 직접 입력하는 데이터 대신, 고객의 실제 행동 데이터같이 프로그램이 남기는 데이터를 보고 추정해 볼 수 있어요. <중략> 사람들이 무엇을 하는지는 알 수 있지만, 사람들이 왜 그 행동을 하는지, 그리고 그렇게 한 후에 만족했는지는 알 수 없다. 물론 데이터를 사용해서 이를 '추정'할 수는 있으나, 사실 사람들의 의도와 만족 정도는 서비스 차원에서는 의외로 중요하지 않다.

마지막 문구 즉, '의외로 중요하지 않다'는 어딘지 저자의 경험이 우러나온 표현 같아 신뢰가 간다. 근거도 등장한다.

넷플릭스도 언젠가부터 영화 평점을 별점으로 부여하지 않고 좋음/싫음 정도로만 나타낸다. 이 역시도 상세한 별점이 그다지 유용하지 않음을 알게 됐기 때문이리라.

정성 평가의 한계도 설명한다.

설문조사에서 얻고자 하는 결과는 호감도나 만족도 같은, 정성적인 것에 대한 수치다. 그래서 여기에는 절대적인 기준이 없다. 사람들은 자신의 마음을 1에서 5 사이의 점수로 나타내지만, 동일한 숫자가 동일한 마음을 반영하는 것은 아니다.

결론처럼 느껴지는 다음 문장을 보면 다시 <데이터 속의 숫자는 함수적으로 바라보라>는 깨우침이 생각난다.

같은 점수라고 해도 그 안에 들어있는 뉘앙스는 모두 다르다.


Data Driven 2023 연재

1. 데이터 속의 숫자는 함수적으로 바라보라


린 분석 함께 읽기 연재

1. 모델, 모델링, 측정 그리고 가치의 객관화

2. 프로그램이나 사업이나 끊임없이 변한다


<Don't Trust Your Gut> 읽고 행동 변화 만들기 연재

1. 내 인생을 위한 '머니볼'

2. AI 시대의 결혼

3. 아이 키우기 좋은 동네는 왜 좋을까?

4. 유전자의 힘에 어떻게 대응할까?

5. 부자와 성공에 대한 머니볼

6. 다작으로 행운이 굴러들어 오게 하라

7. 데이터광의 외모 대변신

8. 우리는 무엇으로 행복해지는 가에 대한 오해

9. 현대인을 불행에 빠뜨리는 함정

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari