brunch

You can make anything
by writing

C.S.Lewis

by 나인 Dec 26. 2020

MBTI는 유사과학일 뿐일까: 신뢰도와 타당도의 문제

MBTI의 유행은 이제는 하나의 문화 현상이다. 소개팅 상대에게 "MBTI가 어떻게 되세요?"라고 물어보는 것이 전혀 어색하지 않을 정도라고 하니 말이다. 하지만, 그만큼 MBTI에 의심의 눈초리를 보내는 시선도 적지 않다.

MBTI를 나름의 이유로 불신해온 사람들, 특히 심리학을 전공한 사람들 가운데에는 아마 아래와 비슷한 주장을 한번쯤은 접해본 이들이 많을 거다. "Vox"라는 이름의 외국 매체에서 게재한 "Why the Myers-Briggs test is totally meaningless (MBTI 검사는 왜 완전히 무의미한가)"라는 제목의 기사로, 인터넷 매체 'ㅍㅍㅅㅅ'에서 한국어로 번역한 이 기사는, MBTI가 과학적으로 "완전히 무의미"하다고 잘라 말한다.

Vox 기사: "Why the Myers-Briggs test is totally meaningless (MBTI 검사는 왜 완전히 무의미한가)", (https://www.vox.com/2014/7/15/5881947/myers-briggs-personality-test-meaningless)

https://ppss.kr/archives/24889 (한국어 번역)

이 기사가 제시하는 몇 가지 핵심적인 논점을 정리해보자.

1) 이론적 근거가 부실하다

"융은 저서에서 이러한 방식으로 분류를 할 수는 있지만 모든 개인이 이 규칙의 예외라며 자신의 방식은 완벽한 성격 분류가 아니라고 말했습니다. 융의 이론이 아무리 미완성인 대강의 성격 분류라는 것을 감안하더라도 이것은 절대 체계화된 실험이나 데이터로부터 나온 것이 아닙니다."

2) 부당한 이항선택을 요구한다

"사람들이 가지고 있는 대부분의 특성은 특성 스펙트럼의 여러 부분에 분산되어서 떨어집니다. 만일 당신이 사람들에게 사고(think)를 선호하는지 감정(feel)을 선호하는지, 또는 판단(judge)을 좋아하는지 인식(perceive)을 좋아하는지 물어본다면 대부분의 사람은 둘 다 조금씩이라고 대답할 것입니다."

3) 일관성이 없고 부정확하다

"한 연구는 검사를 받은 뒤 단지 5주 후에 다시 검사를 받았을 때 검사 결과가 바뀐 사람이 50%나 된다는 것을 발견하기도 했습니다. 사람들의 특성은 시종일관 똑같지가 않기 때문입니다. 우리 중 대부분은 시간이 지남에 따라 특성이 바뀝니다 . 심지어 검사를 받을 때의 기분에 따라서도 특성이 잠시 바뀔 수도 있습니다."

"여러 분석에서는 MBTI 검사가 서로 다른 직업군에서의 성공을 예측하는데 특별히 효과적이진 않다는 것을 보여주고 있습니다."

"모호한 설명으로 인해 사람들은 자신의 결과로 나온 유형의 설명 중 몇몇 개가 맞다고 생각할 것이고 나머지 몇몇 개의 설명이 틀릴지라도 앞에서 맞다고 생각한 것은 결과에 신뢰를 불러일으킵니다."

"그리고 듣기 좋은 설명은 자신이 이 유형이 맞다는, 검사가 올바르게 되었다는 착각을 뒷받침합니다. 이것은 포러 효과(Forer effect)라고도 불립니다. 포러 효과는 점성술, 운세, 혈액형 심리학 등의 의사과학(pseudoscience)에서 사람들에게 정확한 정보를 제공하는 것처럼 믿게 하기 위해 오랜 기간 널리 쓰였습니다."

이 기사의 논점들을 포함해, MBTI에 제기되는 시비를 개념적으로 단순히 정리하자면, 즉 '신뢰도'와 '타당도'의 문제라고 말할 수 있겠다. 신뢰도가 측정의 일관성을 의미하는 개념이라면, 타당도란 측정하고자 하는 것을 정확히 측정하고 있는 정도를 의미하는 개념이라고 볼 수 있다. 가령, "(MBTI) 검사를 받은 뒤 단지 5주 후에 다시 검사를 받았을 때 검사 결과가 바뀐 사람들이 50%나 된다는 것"은 측정의 일관성을 확보하지 못한 것으로서 신뢰도의 문제라고 말할 수 있으며, "(MBTI 검사가) 다른 직업군에서의 성공을 예측하는데 특별히 효과적이진 않다"는 것은, 그 이론에 기초한 설명과 예측이 부정확하였으므로 즉 측정하고자 한 것을 정확히 측정하지 못한 타당도의 문제라고 볼 수 있다. 즉, MBTI에 대한 비판들은 신뢰도와 타당도의 문제로 인해 "MBTI 검사는 심리학자들에게 무시당해왔다"고 말하고 있다.

먼저 MBTI가 사람의 성격을 어떻게 유형화하고 있는지 간략히 알아보자. MBTI는 사람의 성격을 구성하는 요소를 '에너지의 방향', '인식 기능', '판단 기능', '생활 양식' 4가지로 파악하고 있다. MBTI 이론에 따르면 모든 사람들이 이 4가지 요소에서 서로 반대되는 2가지 선호경향 중 하나를 가져, 각각 2개씩 16가지 유형(2^4=16)으로 나뉘게 된다. '에너지의 방향'은 외향(E)과 내향(I)으로 나뉘며, 통상 '외향적인 사람'과 '내향적인 사람'을 나눌 때와 대략 비슷한 구분으로 생각하면 이해하기 쉽다. 나머지 세 지표가 직관적으로 이해하기 어려운데, '인식 기능'은 정보를 지각하는 방식의 차이에 해당한다고 말할 수 있다. 감각(S) 유형은 정보를 오감을 통해 지각하는 반면, 직관(N) 유형은 이른바 '육감'을 통해 정보를 지각하며 감각적으로 지각할 수 없는 고차원의 의미나 패턴 따위를 선호하는 경향을 보인다. S 유형은 나무를 본다면 N 유형은 숲을 본다고 말할 수 있다. '판단 기능'은 감정(F) 유형과 사고(T) 유형으로 나뉜다. 개인적, 사회적 가치에 바탕을 두고, 자신이나 타인의 감정에 민감하게 반응하며 판단한다면 F, 반대로 이성과 논리 및 원리 원칙 따위에 의거해 판단한다면 T라고 할 수 있다. '생활 양식'은 체계적이고 계획적인 판단(J) 유형과 개방적이고 융통성있는 인식(P) 유형으로 나뉜다. 목표지향적으로 주어진 일들을 의지적으로 척척 해내는 사람이 J의 전형이라고 말할 수 있다. 이상의 유형들에 대한 보다 자세한 설명은 한국판 MBTI 검사를 제공하고 있는 어세스타(http://www.career4u.net/tester/mbti_intro.asp )의 홈페이지를 참고하자 .

그렇다면, 정말로 MBTI 검사는 신뢰도와 타당도가 떨어져 과학적이지 못한 검사도구일까?

이런 지적이 완전히 틀렸다고 말할 수 없다. 성격심리학 분야에서 MBTI 검사의 위상은 그닥 중심적인 위치라고 말할 수 없으며, MBTI 이론의 바탕을 제공한 칼 융은 기사의 말마따나, "초지각적 능력이나 집단 무의식 등을 믿는 20세기 초의" 사람으로서, 그 이론은 "지금은 학계에서 완전히 배제된" 것이라고 한다. 칼 융의 정신분석학은 오늘날 과학적 학문으로서의 성격을 지향하는 심리학계의 분위기에서 썩 평가받지 못하는 분야로, 차라리 심리학보다는 철학에 가까운 학문이라고 할 수 있다.

검사와 재검사 사이의 일치율이 50% 정도밖에 되지 않는다는 것은 신뢰도의 결함이고, 신뢰도가 낮은 검사는 타당도 역시 높을 수 없다. 일관되지 않게 들쑥날쑥한 측정으로는 당최 측정도구가 애초에 측정하고자 한 바를 정확히 측정할 수도 없기 때문이다. 실제로 대부분의 사람들이 완전히 '사고'형이거나 완전히 '감정'형이기보다는, 상황에 따라 얼마간은 이성적 사고를 판단의 기준으로, 또 얼마간은 인간관계에서의 예민한 감정을 판단의 준거로 삼을텐데, "부당한 이항선택을 요구한다"는 말은 틀린 말이 아닐 성싶다. 똑같은 유형으로 분류된 사람들 사이에서도 성격의 차이는 분명 있을테지만 MBTI 유형에 따른 구별만으로는 그런 차이를 파악할 수 없으며, 또한 동시에 아주 작은 차이만으로도 서로 반대의 유형으로 분류해버리는 무리한 이분법 역시 문제다. 그러니 검사-재검사 신뢰도가 낮은 것도 당연하다. 이처럼 "유형론"으로서의 MBTI 이론은 그 한계가 분명하다. 즉, 신뢰도와 타당도가 떨어진다.

사진: MBTI® Form Q 전문해석 보고서 샘플, http://www.career4u.net/tester/mbti_intro.asp(어세스타)

하지만, 모든 사람들의 성격을 16가지의 유형으로 설명할 수 있다는 고집을 버리면 MBTI에서도 나름의 쓸모를 찾을 수 없는 건 아니다. MBTI 유형의 결정은 4가지의 서로 다른 선호지표로 이루어지며, 사진과 같은 MBTI 검사 결과지를 보면 알 수 있듯, 각 지표는 양적 해석이 가능하고, 연속점수로 변환한 MBTI 지표는 꽤나 괜찮은 정보값을 제공해준다. 즉 각 지표의 연속점수에 관한 한, MBTI 검사의 신뢰도는 높은 편이라고 할 수 있다.

표1: MBTI 검사 Form G 및 Form M 연속점수의 검사-재검사 상관 (출처: MBTI Form M 매뉴얼 177쪽)

표1에서 볼 수 있듯이 MBTI의 4가지 선호지표 E-I, S-N, T-F, J-P 각각의 연속점수에 대해 일정한 간격을 두고 다시 실시한 재검사 결과 연속점수의 상관계수는, 9개월 이상의 간격을 두고 재검사한 Form G 검사의 메타분석(여러 연구들을 종합하여 요약추정치를 제시하는 연구 방법)의 경우에 0.59~0.70 정도로, 이는 보통 행동과학 연구에서 큰 효과 크기로 해석되는 수준이다(Cohen 1977; pp.80-81). 또한 9개월 미만 간격의 Form G 메타분석(r=.77~.84)이나 4주 간격의 Form M(r=.83~.97) 재검사 상관 역시 준수한 수준이라고 볼 수 있다. 즉 1개월 혹은 9개월 이상의 간격을 두고 재검사한 경우에도 검사 결과 사이의 상관관계는 높은 수준으로 검사 결과가 꽤나 일관되다는 뜻이다. 연속점수로서의 MBTI 선호지표는 검사-재검사 신뢰도가 높은 편이라고 말할 수 있다. 뿐만 아니라, 검사지를 반으로 나누어 문항들 간 결과의 일관성을 측정한 반분 신뢰도 역시 높은 편이다(MBTI form M 매뉴얼 pp.174-175).

물론, 신뢰도가 높다고 타당도가 항상 높은 건 아니다. 유사한 다른 척도와의 비교는 척도의 타당도를 확인하는 주요한 방법인데, Vox 기사의 본문에서도 MBTI에 견줘 과학적 신빙성을 갖춘 성격 모델로서 언급된 '5요인 모델(Big 5)'은, 이미 성격 심리학 연구에서 그 신뢰도와 타당도를 경험적으로 검증받아 널리 쓰이고 있는 검사도구(NEO-PI)를 제공하고 있다. 따라서, MBTI와 NEO-PI 검사 간의 비교는 MBTI의 타당도를 이해하는 데에 유용한 방법이 될 수 있는 것.

표2: NEO-PI 척도와 MBTI 연속점수의 상관관계. 출처: McCrae & Costa (1989), p.30

MBTI 지표를 5요인 모델의 틀에서 재해석하기를 주장하는 McCrae & Costa (1989) 논문에 수록된 표2에 따르면, MBTI 선호지표의 검사 결과가 각각 NEO-PI 지표의 검사 결과와 통계적으로 유의미한 상관관계를 가진다는 사실을 파악할 수 있다. Cohen(1977)에 따르면 행동 과학에서 0.5 정도의 상관은 큰 효과 크기로 해석되는데, 즉 E-I(외향-내향) 지표는 '외향성(Extraversion)'과, S-N(감각-직관) 지표는 '개방성(Openness)'과, T-F(사고-감정) 지표는 '원만성(Agreeableness)'과, J-P(판단-인식) 지표는 '성실성(Conscientiousness)'과 높은 상관관계를 가지고 있다고 말할 수 있다. NEO-PI에서 외향성이란 사람들과의 교류를 즐기고 활동적인 성향을 의미하며, 개방성은 새로운 아이디어를 추구하고 호기심이 높은 성향이다. 또한 원만성은 이타적이고 타인에 대해 배려하며 협조적인 성향을, 성실성은 제 과업을 조직적으로 성실히 해내는 목표지향적 성향을 각각 일컫는다.

대략 사교적이며 활동적인 MBTI '외향' 점수가 높은 사람이 역시 활동적 성향의 NEO-PI 외향성 지표가 높고, 아이디어나 미래의 가능성에 초점을 두는 '직관' 점수가 높은 사람이 역시 새로운 아이디어를 추구하는 성향의 개방성 지표가 높다. 또한 사람과 인간관계에 대해 민감한 '감정' 점수가 높은 사람일수록 타인을 배려하는 협조적 성향의 원만성이 높고, 분명한 목표의식으로 계획적으로 행동하는 '판단' 점수가 높은 사람은 역시 목표지향적 성향의 성실성이 높다(비록 정서적으로 불안정한 특성인 '신경성'과 MBTI의 E, I 지표 사이의 상관관계가 관찰되기도 하지만, 이는 비교적 그 크기가 작은 편이다). 즉, MBTI 각 지표의 연속점수는 해당 지표와 이론적으로 유사한 개념을 측정하고 있는 NEO-PI 척도와 서로 상관관계를 가진다. 연속점수로서 MBTI 선호지표의 타당도를 얼마간 증명하는 대목이라고 할 수 있다.

MBTI 선호지표와 NEO-PI 지표의 이같은 상관관계는, 이후 MacDonald et al. (1994), Furnham(1996), Furnham(2003)의 연구에서 재현되었으며, 국내의 연구에서도 심민보, 김정택(2002)이 같은 패턴을 확인한 바가 있다. MBTI form M 매뉴얼북은 McCrae & Costa (1989)의 연구를 포함해, 그 외 여러 심리척도와 MBTI 연속점수 사이의 상관관계를 보여주는 연구들을 그 타당도의 증거로서 제시하고 있다(pp.187-198).

물론, 애초 McCrae & Costa (1989)의 논지는 융의 이론에 기초한 MBTI 이론이 구성 타당도가 떨어진다는 것이었음을 짚을 필요는 있다. 비록 MBTI 척도들이 NEO-PI 지표와 형성하고 있는 상관관계는 그 검사 항목이 측정하고자 하는 내용과는 일관되지만, 이런 결과가 MBTI의 이론적 기초인 칼 융의 유형론으로부터 논리적으로 유도되지는 않으며, 고로 이론적 측면에서 MBTI의 구성 타당도에는 심각한 문제가 있다는 것이 이들의 지적이라고 할 수 있다. 따라서 이들은 MBTI를 통해 개인의 심리 현상을 측정하고 기술하려면 융 이론을 버리고 그 대신 5요인 모델을 채택하라고 제언한다(McCrae & Costa, 1989, p.32).

그들의 제안을 완전히 수용한다면 MBTI에 대해 우리가 그간 가지고 있었던 상식들 중 많은 것을 버려야 할 것이다. 예컨대 McCrae와 Costa가 지적한 바대로, 개방성 지표의 높고 낮은 차이는 선호하는 정보의 유형의 차이가 아니라 추구하는 정보의 양적 차이에 가깝다. 하지만 NEO-PI의 '개방성'과 거의 똑같은 성격 요인을 측정하는 것으로 나타난 MBTI의 S-N 지표는 그 차이를 선호하는 정보 유형(감각 혹은 직관)의 차이로 해석해 왔다. 또한, 원만성 지표의 차이는 단순히 이성과 감정 둘 중 무엇을 선호하는지의 차이가 아니라, 대인관계에서 '따뜻한' 감정과 '차가운' 이성 중 무엇을 선호하는지의 차이에 가까워, MBTI의 T-F에 대한 해석과 다르다. 이 외에도 또한, 각 선호지표 사이의 상호작용으로 주기능, 부기능 등 개인이 사용하는 기능의 위계가 정해진다는 매력적인 이론 역시 정당화될 수 없을 것이다. 유형 분류 기준점 근처에 분포하는 많은 사람들을 이분법적으로 나누고 같은 유형 내에서 존재하는 개인 간의 차이를 설명하지 못하는 유형론 역시 McCrae와 Costa의 비판 대상이다. (McCrae & Costa, 1989, pp.34-35)

MBTI 지표의 측정이 나름 괜찮은 신뢰도와 타당도를 보여준다는 사실에도 불구하고, 그 검사 결과를 연속점수가 아닌 '유형'으로 해석하게 되면 이야기는 달라진다. 연속점수에 관해 높은 검사-재검사 신뢰도를 보여준 표1의 표본에서도, 재검사 시 유형이 정확히 일치하는 비율은 55%(Virginia 표본, n=116), 66%(공공기업체 표본, n=258) 정도일 뿐으로, "검사 결과가 바뀐 사람들이 50%나 된다"는 Vox 기사의 지적처럼 검사 결과의 안정성이 떨어진다는 것을 볼 수 있게 된다(MBTI form M 매뉴얼북, p.178).

이런 결과가, 몇 가지 지표에 대해 선호 분명도가 떨어지는 사람들 상당수가 재검사에서 유형이 바뀌었기 때문임을 짐작하는 건 어렵지 않다. 실제로, 같은 표본에 대해 피검자를 선호 분명도에 따라 나누어보면 표3과 같이 선호 분명도가 낮을수록 검사-재검사 상관도 역시 낮아, 이들의 검사 결과가 안정적이지 못하다는 사실을 알 수 있다. 즉, MBTI의 신뢰도와 타당도 문제 상당 부분은, 두 지표 중 어느 한 쪽으로의 선호 경도가 분명하지 않은 사람들을, 아주 작은 차이에 따라 서로 반대 유형으로 분류해버리는 이분법적 유형론에 의해 생기는 것이라고 해도 과언이 아니다.

표3: Form M의 연속점수에 대한 검사-재검사 상관 (MBTI Form M 매뉴얼 177쪽)

이는 달리 말하면, 각 선호지표의 분명도가 높은 경우에는 MBTI 검사 결과 해당 유형에 대한 일반적 설명이 피검자의 성격을 나름 잘 예측할 수 있을 것임을 의미하기도 한다. MBTI가 비판에도 불구하고 널리 쓰이며, 대학 상담센터 등 상담심리 현장에서도 활용되고 있는 한 배경이다. Vox 기사는 MBTI 검사 결과를 사람들이 신뢰하게 되는 이유를 "포러 효과"로 설명하고 있지만, 연속점수로서의 MBTI 선호지표에 대한 앞선 논의를 참고하면, 선호 분명도가 높은 피검자가 검사 결과를 신뢰하게 되는 것은 자연스러워 보이며, 이것을 포러 효과만으로 설명하는 것이 오히려 다소 지나친 비판으로 보인다. 나름 상담 장면에서도 활용이 없지 않고 모처럼 대중적으로도 인기를 구가하는 검사 도구이니, 그저 덮어놓고 "유사과학"으로 일축하기보다는, 보다 많은 이들이 검사에 대한 보다 정확한 이해를 통해 MBTI를 자기 이해의 기회로 삼을 수 있도록 해주는 편이 나을 수 있다.

단, MBTI 검사 결과를 해석해온 그간의 관행 중 상당 부분은 반성할 필요가 있다. 예를 들어, '유형'은 그저 이해와 설명의 편의를 위해 중간점에서 임의로 나눈 기준에 따라 분류한 것일 뿐, 실제 사람의 성격은 연속적으로 분포하는 속성을 갖고 있음을 주지해야 한다. "매번 검사를 할 때마다 결과가 바뀐다"며 제 "진짜" 유형을 알고 싶다는 피검자에게는, 검사 결과를 해석할 때 '유형'에 구애받을 필요는 없다고 안내하자. 개인이 전형적인 유형에 비추어 어느 정도 닮았는지를 이해하는 데에 하나의 참조점이 될 수 있을 뿐, '유형'의 구분 그 자체에 대단히 체계적이고 과학적인 이유는 없음을 인정해야 한다. 애초에 "진짜" 유형 같은 것은 없다.

각 선호 지표 간 상호작용에 따라 "주기능-부기능-3차기능-열등기능" 따위의 위계가 생긴다는 이론 역시, 일화적으로는 종종 매우 흥미로운 해석을 제공하지만 아무런 과학적 근거가 없다. 이런 이론에 경험적 증거가 극히 빈약하다는 사실은 MBTI를 지지하는 심리학자들 사이에서도 이미 지적된 바 있다(Reynierse 2015).

MBTI의 이런 한계들이 MBTI 검사가 전적으로 무의미하다는 것을 뜻하지는 않음은 물론이다. 애초에 MBTI의 역할은 성격에 대한 과학적 연구를 위한 도구이기보다는, 상담 현장에서의 활용과 더 가깝다. 다만, MBTI를 전적으로 쓸모없는 유사과학으로 볼 필요도 없지만, MBTI 검사의 이런 한계들을 정확히 인식하고 인정하는 것 역시 성격을 이해하는 도구로서 MBTI를 보다 유익하게 이용하기 위해 필요한 태도가 아닐까.

<참고문헌>

Cohen, J. (1977). Statistical Power Analysis for the Behavioral Sciences (rev. ed.). New York: Academic Press.

Furnham, A. (1996). The Big Five versus the Big Four: The relationship between the Myers-Briggs Type Indicator and the NEO-PI five-factor model of personality. Personality and Individual Differences, 21(2), 303-307.

Furnham, A., Moutafi, J., & Crump, J. (2003). The relationship between the Revised NEO-Personality Inventory and the Myers-Briggs Type Indicator. Social Behavior and Personality, 31(6), 577-584.

McCrae, R. R., & Costa, P. T. Jr. (1989). Reinterpreting the Myers-Briggs Type Indicator from the perspective of the five-factor model of personality. Journal of Personality, 57(1), 17-40.

Myers, I. B., McCaulley, M. H., Quenk, N. L., & Hammer, A. L. (2013). MBTI Form M 매뉴얼 : MBTI 활용과 연구를 위한 지침서 (김정택, 심혜숙 편). 서울: (주) 어세스타.

Reynierse, J.H. (2015). Toward an empirically sound and radically revised type theory. Journal of Psychological Type, 75, 1–25.

심민보, 김정택 (2002). MBTI Form K와 NEO인성검사와의 상관연구. 한국심리유형학회지, 9(1), 1-14.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari