데이터를 보는 이유는요,

그건 바로 저희는 사람이기 때문이에요.

Mar 26. 2023

어떤 경우에서든 의사 결정에 데이터를 사용하는 이유는 많다. 1. 일단 데이터는 의사 결정 과정의 근거로 확실하게 사용할 수 있기 때문에. 라던지, 2. 데이터를 통해서 더 확실한 의사결정이 가능해서. 라던지, 3. 데이터를 통해 커뮤니케이션하기 때문에 동일한 기준으로 이야기를 할 수 있기 때문에 등.. 데이터로 의사결정 하면 뭐가 좋은데!라고 물어보면 이게이게 좋다고!라고 자신감 있게 리스트를 꼽을 수 있을 만큼 데이터를 보는 이유는 명확하다.

하지만 이 많은 이유 중에서도 데이터가 중요한 이유를 꼽자면 '인간에게는 confirmation bias(혹은 myside bias라고도 한다)가 있을 수밖에 없기 때문에'라고 생각한다. ~~(물론 주관적 생각이다.)~~ 확증편향이*란, myside bias라고 불리는 것에서 예상할 수 있는 것처럼 사실 여부를 떠나서 자신의 주장에 도움 되는 정보만 선택적으로 보고 자신이 믿고 싶지 않은 정보는 무시하는 경향을 말한다. 사실 이러한 확증편향은 어떤 일에 있어 가설을 설정하고 이를 검증하는 모든 과정에서 일어날 수 있기도 한데.. 그래도 나는 '통계적 방법'을 활용한 데이터를 통해서라면 이 편향을 최~대한 줄일 수 있다고 생각하기 때문에 의사결정 전 데이터 확인이 꼭 필요한 과정 중 하나라고 본다.

데이터분석가가 되고, 처음 일을 할 때 프로덕트를 사용하는 유저들이 왜 그렇게 행동했는지에 대해서도 궁금해했지만, 종종 프로덕트를 만드는 사람들과 함께 이야기를 하면서 '오 왜 저렇게 생각하셨을까?', '엇 왜 이런 의사결정이 내려진 걸까?'라는 생각을 한 적도 있었다. 이런 생각을 한 두 번 하다 보니 결국 나는 사람들의 행동 데이터를 보는 사람이면서도 사람이 원하는 데이터를 보여주고자 하는 사람이기 때문에, 데이터를 보기 위해서는 심리학적인 부분 또한 잘 알고 있어야한다고 생각했다. 심리학에 대해서 조금이라고 알고 있다면, 유저의 행동 데이터를 더 깊게 그리고 사용자(혹은 나에게 보고자 하는 데이터에 대해 물어보는 사람들)의 의도를 파악할 수 있다고 생각해 그 이후부터 인지심리학에 대해서 관심이 갔었던 것 같다. (사실 논문을 쓸 때 활용했던 이론인 '이용과 충족 이론', '몰입 이론' 또한 인지심리학과 연관되어 있기 때문에 그전부터 관심을 가지고 있다고 소심하게 말해보고자 한다.) 이렇게 관심'만' 계속 가지다가, 어느 날 리더와 함께 원오원을 하면서 프로덕트 및 데이터를 볼 때 디자인적인 부분에 관심이 있는지 혹은 인지심리학적인 부분에 관심이 있는지에 대해 이야기를 하다가 인지심리학에 관련된 책을 접하게 되었다.

인지심리학과 관련된 책으로 Factfulness, 생각에 관한 생각, 노이즈 등 여러 책을 읽어보았지만 그중에서 데이터 및 프로덕트를 보는 사람의 입장에서 가장 도움이 되었던 책은 '씽킹 101'으로, 한국 번역반으로 출시된 지 아직 6개월도 채 안된 따끈따끈한 책이다. ~~(광고 절대 아임리다.)~~ 씽킹 101은 그동안 읽어왔던 다른 인지심리학 책 중에서 가장 얇은 책이었지만 가장 쉽게 읽혔던 책이기도 해서 이틀? 정도에 걸쳐 완독 했다. 또한! 번역본이지만 원서 자체를 한국인 교수님이 출판한 것으로 읽으면서 이게 뭔 뜻이지?라고 생각하면서 두세 번 문장을 반복해서 읽은 적이 한 번도 없었던 듯하다.

데이터를 보는 사람의 관점에서 이 책을 읽었을 때 정말 공감되었고, 데이터를 그냥 보는 것이 아닌, '잘', 그리고 최대한 통계적인 방법에 근거해서 봐야 한다는 걸 마음속에 다시 한번 새기게 된 구절을 몇 가지 소개해보고자 한다. (소개되는 구절 또한 '나'의 편향에 맞춰서 선택된 구절이며 난 이러한 편향적인 선택에 대해 방어하기 위해서 '데이터를 보는 사람의 관점'이라고 언급했다.)

유착성 착각 - 단순한 상광관계이지만 그 기저에 깔린 메커니즘이 머릿속에 그려지면 사람들은 그 상관관계를 인과관계로 해석하려 한다. 실제 데이터는 그대로인데도 특정 결과가 도출되는 과정이 매끄럽게 그려지면 훨씬 더 성급하게 인과적 결론을 내리려고 하는 것이다. (p.34)

통계적 방법 - 일상생활에서 비합리적인 판단을 내리지 않으려면 대수의 법칙, 평균으로의 회귀, 베이즈 정리를 알아야 한다. 이 세 가지 원칙을 알고 있으면 실생활에서 더 정확한 판단을 내릴 수 있다는 사실이 이미 여러 연구를 통해 입증되었다. (p.162)

손실회피 - 사람들은 손실의 양이 득의 양보다 더 커 보인다고 생각한다. 따라 좋은 상황보다 안 좋은 상황을 훨씬 더 크게 받아들인다. (p.210)

인지행동 - 그들은 그저 그들만의 방식으로 상황을 바라보는 것일 수 있다. 그러므로 나와 다른 의견을 가진 사람을 마주하더라도 늘 방어적인 태도를 취할 필요는 없다. 관점의 차이 때문에 문제가 생기는 경우라면 상대방의 관점을 바꾸려고 애쓰기보다 문제 해결 자체에 집중하는 편이 더 쉽고 더 나을 수 있다. (p.266)

데이터 분석가로 취직하는 동안 직무와 관련된 면접 질문 중 가장 많이 들은 질문이 '상관관계와 인과관계의 차이가 뭔가요?'였을 정도로 상관관계와 인과관계를 구분하는건 중요하다. 우리가 의사결정을 할 때 흔히 보는 지표인 Active User*의 경우, A서비스 방문자 수와 B서비스 방문자 수가 동일하게 증가하는 추이를 보일 때, 이 '추이'만을 보고 방문자수가 증가하는 이유는 A 서비스 때문이야. 혹은 B 서비스 때문이야. 라고 확언하기에는 성급하다. 상관관계를 가지고 있어도 인과 추론 과정을 거치지 않으면 두 지표의 인과 관계는 '아직 모름'이라고 결론을 내려야한다.

하지만 모든 사람에게는 편향이 있을 수 밖에 없다. 만약 A 서비스에 대해 더 긍정적인 편향을 가지고 있는 경우에는 A 서비스 때문에 B 서비스의 방문자 수가 증가했다고 생각할 수 있다. 데이터를 확인하고 난 후에도, A 서비스 사용자와 B 서비스의 사용자가 동시에 늘어나는 추이를 보이고 있기 때문에 A 서비스 때문이야. 라고 성급하게 결론을 내리는 경우가 더러 있다. 이렇게 성급한 결론을 내리는 사람들은 단지 '유착성 착각'을 하고 있기 때문이고 이를 통계적인 방법을 통해 인과관계를 추론할 수 있다면 우린 그들의 편향을 조금은 없애줄 수 있다.

몇몇 사람들은 데이터 보다는 직관이 더 낫다고 말하는 경우도 있다. 나 또한 경험을 많이 해본 사람의 직관은 데이터를 뛰어넘을 수 있다는거에 동의한다. 하지만 모든 의사결정에 '직관'이 들어간다면 모든 의사결정은 편향된 의사 결정이 될 수 밖에 없다. 사람은 사람이기 때문에 착각할 수 밖에 없고, 편향될 수 밖에 없다. 그래서 데이터 분석가들은 이런 부분을 다 고려해서 데이터를 통해서 최대한 희석될 수 있도록 하는게 중요한 '미션' 중 하나가 아닌가 싶다.

*확증편향이란: https://kiha21.or.kr/monthly/2019/10/2019_10_05_s378.pdf

*Active User: 여기서 정의하는 Active User는 하루에 1번 이상 방문한 유저를 의미한다.

keyword

지니

무작위로 생각나는 모든 걸 글로 정리하는 곳.

팔로워 20

매거진의 이전글데이터 분석가, 그게 뭐길래분석가니까, 분석을 해보자! 매거진의 다음글