착각적 상관(Illusory Correlation)

Dec 20. 2020

상관이 없는 데이터에 상관관계가 있다고 생각하는 것

실제 상관관계가 없는 데이터 간에 이들의 연결성을 과대평가해 상관성이 있다고 생각하게 되는 인지편견 중 하나.

원래는 1960년대에 컨설팅 팜 Chapman & Chapman 채프먼 & 채프먼이 실험을 통해 발견하여 제창한 것이다.

스테레오타입이 형성되는 한 요인이 되고 있다.

Chapman & Chapman 인물화 테스트를 통한 실험

실험에서는 우선 피험자에 대해서 가상의 정신병 환자의 임상진단 결과와 그 환자가 그렸다고 여겨지는 인물의 그림을 세트로 한 데이터를 주었다.

그 다음 피험자에게는 환자의 그림 속에 “기묘한 눈”이라고 하는 특징이 나타나는 빈도가 보통의 사람과 비교해 많은지 추측하게 한다.

실제 의학적 견해에서 정신병 환자라는 점과 인물의 그림에 이상한 눈을 그리는 것은 상관관계가 없는 데이터다.

하지만 실험에 참여한 피험자 상당수가 정신병 환자는 인물의 그림에 기묘한 눈을 그리는 빈도가 평소보다 많다고 판단했다.

이 실험으로부터 2개의 사상이 동시에 일어나는 빈도의 판단에 편견이 있는 것을 발견했다.

이 그래프의 두 선은 비슷하게 움직여서 상관관계가 있어 보인다.

실제로는 검은 선이 “배우 니콜라스 케이지의 영화 출연 편수의 추이”, 붉은 선이 “미국에서 1년간 풀에 빠진 인원수의 추이”라고 하는 전혀 관계가 없는 것이다.

그러나 겹쳐진 그래프로만 판단하면 니콜러스 케이지가 영화에 출연할수록 수영장에 빠지는 사람이 늘어난다는 말도 안 되는 결론이 나온다.

이는 극단적인 예이나 만약 수영복 매출 수나 자가 수영장 설치율과 같은 관련 있는 데이터가 비슷한 그래프의 움직임을 나타내고 있다면 어떨까?

실제로는 상관성이 없어도 착오상관이 사라지지 않기 때문에 진짜 원인을 밝혀낼 때 방해가 될 수 있다.

예를 들면, 주식의 거래를 행하고 있는 사람들 중에는 자신이 주식을 산 순간부터 항상 주가가 떨어져 손해를 보고 있다고 생각하는 사람이 많지 않을까?

주식을 살 경우 실제로는 손해를 보기도 하고 벌기도 하며 내가 주식을 산다는 행위와 산 종목의 주가가 오를 것인가 내릴 것인가라는 두 가지 데이터는 거의 연관성이 없다.

그래도 손해를 본 경우의 기억이 강하게 남아 있어 이 두 개의 데이터가 필요이상으로 결합된다는 점에서 발생하는 착각적 상관이다. (프로스펙트 이론, 네거티브 바이어스)

또 다른 예로 미용실, 치과, 편의점 중 일본에서 가장 수가 많은 곳은 어딜까? 라는 질문에 실제로는 미용실이 가장 많지만 편의점이라고 대답하는 사람이 많았다.

이것도 실제로 자신이 자주 이용하고 있는 것이 강하게 기억에 남아 “자신의 주변에 눈에 들어오는 점포수”와 “실제의 점포수”를 착각적 상관하고 있는 예이다. (이용 가능성 휴리스틱)

매출과 PV의 데이터만을 보고 PV를 늘리면 자동적으로 매출도 증가한다고 생각한 적이 있을지도 모른다.

이와 같이 수치에 의한 정량 데이터만을 고집해 이들이 정성적인 데이터보다 뛰어나다고 판단하는 것은 착각적 상관일 가능성이 있다는 관점에서도 위험하다.

특히 유저 인터페이스 등은 인간의 행동을 깊이 관찰함으로써 얻을 수 있는 것도 크고 정성·정량 양쪽의 데이터를 조합하면서 실제의 관계성을 판단해 나갈 필요가 있다.

keyword

작가의 이전글마이크로 모멘트(Micro Moments)섀도잉(shadowing)작가의 다음글