암묵적 연합 검사(IAT)의 사회심리학
모든 사람들이 항상 진실만을 말하지는 않는다. 사람은 때로 자기 자신조차도 속일 수 있는 동물이니까. 거짓말을 할 의도는 없더라도 자기 자신의 생각에 대해서 자기 자신조차 채 의식하지 못하는 경우도 많다. 물론 때로는 다른 사람들의 나에 대한 평판을 의식해, 사회적으로 바람직하다고 여겨지는 방식으로 자신을 거짓으로 꾸미기도 한다. 이른바 ’사회적 바람직성 편향’이라고 한다.
자기보고식 조사에 의존해 사람들의 심리를 연구해왔던 심리학에서, 이는 검사지를 통한 심리 측정을 신뢰하기 어려운 하나의 이유가 된다. 즉, 사람들이 진심을 숨기고 검사자를 속이고 있는 것은 아닐까? 혹은, 수검자가 자기 스스로도 알아채지 못한 무의식 속에 진짜 속마음이 숨어 있는 것은 아닐까?
이런 의심을 걷어내고 사람들의 진짜 속마음을 알아내기 위해 심리학자 Greenwald와 그의 동료들은, 사람들이 겉으로 드러내지 않는 암묵적 태도를 측정할 수 있는 검사 도구를 개발한다(Greenwald et al. 1998). 바로 "암묵적 연합 검사(내재적 연관 검사, Implicit Association Test; IAT)"다.
https://implicit.harvard.edu/implicit/korea/
이 링크로 접속하면, 여러분도 여러분의 기기를 통해 IAT를 받아볼 수 있다. 단, 모바일 기기로는 검사가 불가능하니 PC나 노트북으로 접속하자.
검사를 시작하게 되면, 키보드의 키를 눌러서 제시되는 일련의 자극(단어나 사진 따위)을, 대략 서로 반대의 속성을 가진 두 가지 범주 중 하나로 분류하는 과제를 수행해야 한다. 예를 들어, 위의 링크를 통해서 접속한 화면에서 “국가” 검사를 선택하면, ‘한국’과 ‘미국’을 ‘좋음’ 혹은 ‘나쁨’의 범주로 분류하는 검사를 수행하게 된다.
해당 검사를 시작하기 전에 화면에는 수검자를 위해 설명문이 제시된다(해당 검사 전후로 여타의 인적 사항 등을 묻는 설문은 모두 스킵하셔도 해당 검사를 받아보는 데에는 아무런 문제가 없다). 설명문을 읽고, 그 지시에 따라 ‘미국’과 관련있는 낱말이나 사진이 등장하면 키보드의 ‘ㅑ(i)’ 키를 눌러 오른쪽으로 분류하고, ‘한국’과 관련있는 낱말이나 사진이 등장하면 ‘ㄷ(e)’ 키를 눌러서 왼쪽으로 분류하면 된다(혹은 반대로 ‘미국’을 왼쪽에, ‘한국’을 오른쪽에 분류하도록 지시할 수도 있다. 어느 경우든 지시문에 따라 분류하면 된다). 단, 가능한 정확하게 분류하는 동시에, 가능한 가장 빠른 속도로 분류해야 한다.
예를 들어, 아래와 같이 화면의 가운데에 미국 화폐 사진이 등장하면 ‘ㅑ’를 눌러 오른쪽으로 분류하면 된다. 반대로, ‘세종대왕’과 같이 한국과 관련있는 단어가 등장하면 ‘ㄷ’을 눌러 왼쪽으로 분류하는 것이다. 이 경우, 만약 ‘ㄷ’이 아닌 ‘ㅑ’를 눌러 ‘세종대왕’을 ‘미국’으로 잘못 분류하면, 빨간 X 표시가 화면에 나타난다. 이렇게 잘못 분류해서 X 표시가 나타난다면, 다시 ‘ㄷ’을 눌러 올바르게 분류해주자.
이상과 같은 분류 작업을 모두 완료하면, ‘한국’, ‘미국’이 있었던 자리에 ‘좋음’, ‘나쁨’과 관련된 자극들을 분류하는 작업을 수행하게 된다. 방법은 앞선 작업과 똑같고, 다만 분류하게 되는 자극의 범주가 ‘좋음’, ‘나쁨’으로 달라질 뿐입니다. 예를 들어, ‘평화’라는 긍정적 의미의 단어가 제시되면 ‘좋음’으로, ‘실패’라는 부정적 의미의 단어가 제시되면 ‘나쁨’으로 키를 눌러 분류하면 된다.
다음으로 제시되는 과제는, 두 개의 국가 범주(한국, 미국)와 평가 범주(좋음, 나쁨)를 하나씩 짝지어 쌍으로 만들고, 제시되는 자극을 두 쌍 중 한쪽으로 분류하는 것이다. 아래와 같이 ‘한국’과 ‘좋음’을 왼쪽으로, ‘미국’과 ‘나쁨’을 오른쪽으로 분류하는 작업이다. 예를 들어, ‘실패’라는 부정적인 의미의 자극이 제시되어도 오른쪽의 ‘미국 또는 나쁨’ 쌍으로 분류하고, ‘George Washington’이라는 미국과 관련된 자극이 제시되어도 오른쪽의 ‘미국 또는 나쁨’ 쌍으로 분류해야 한다. 반대로 긍정적 의미의 자극이나 한국과 관련된 자극은 왼쪽으로 분류하면 된다. 물론, 경우에 따라 방향이나 범주 쌍이 바뀔 수 있고, 이 경우에도 지시문을 읽고 지시문에 따라 작업을 수행하면 된다.
이상의 작업을 완료하면 두 국가의 화면 상 위치가 바뀌어 나타난다. 즉, 첫 작업과는 반대로 한국을 오른쪽에, 미국을 왼쪽에 분류하는 작업이다. 그 후 짝이 바뀐 두 범주 쌍 ‘미국 또는 좋음’과 ‘한국 또는 나쁨’에 대하여 같은 자극을 분류하는 작업들까지 지시대로 모두 끝내면 검사가 완료된다(물론, 이상의 순서는 경우에 따라 다를 수 있지만, 역시 지시문에서 설명하는대로 검사를 수행하면 된다).
모든 검사들을 완료하면, 컴퓨터가 여러분이 반응하는 데에 걸린 시간들을 바탕으로 여러분의 암묵적 태도를 측정하여 검사 결과를 보여줄 것이다. 이는, 수검자가 대립되는 두 개념 중 어떤 개념을 상대적으로 더 긍정적 개념으로 보고 있는지를 나타낸다. 위와 같이 ‘국가’ 검사를 수행했을 때를 예로 들면, ‘한국’을 ‘좋음’과 함께 묶어 분류 작업을 수행했을 때의 작업 속도가, ‘미국’을 ‘좋음’과 묶어 분류 작업을 수행했을 때보다 더 빠르다면, 미국보다는 한국을 ‘좋음’ 개념과 연결하는 데에 더 익숙하다고 볼 수 있다. 즉 한국과 미국 중 어떤 범주를 긍정적인 개념과 더 연관시키고 있는지, 개념들 간의 암묵적인 연합(association)의 상대적 강도를 측정하는 것이 IAT다.
따라서 미국에 비해 한국을 ‘좋음’ 쪽으로 다소 더 빨리 분류했다면, “미국에 비해 한국에 자동적 선호 다소 있음” 이라고 검사 결과를 해석해준다. 반대로 ‘미국’을 ‘좋음’ 쪽으로 분류하는 속도가 훨씬 더 빨랐다면, 한국에 비해서 미국에 대한 강한 자동적 선호를 가지고 있다는 검사 결과를 받아보게 되었을 것이다. ‘국가’ 검사가 아닌 위의 다른 검사들도 제시되는 자극과 분류되는 범주의 종류들만 다를 뿐, 방법은 모두 동일하다.
제시문을 충실히 따라 위의 작업들을 수행했다면, 주어진 자극에 가능한 빨리 정확하게 반응해야 했으므로, 수검자들이 검사 결과를 자신이 원하는 방향으로 조작할 겨를은 별로 없었을 것이다. 애초에, 질문지를 통한 심리 측정이 아니기 때문에, 검사 도구에 대한 사전 지식이 없는 수검자들은 대부분 검사가 무엇을 측정하고 있는 것인지조차 정확히 알지 못하고 검사에 응하게 될 수도 있다. 이와 같은 검사는 사람들이 겉으로 드러내지 않으려는 예민한 주제에 대한 속마음을 읽어내는 데에 강점을 발휘할 수 있다.
예를 들어, 사회적 바람직성 편향으로 인해, 다양성과 개방성의 시대에 살고 있는 현대인으로서는, 외국인이나 소수 인종, 혹은 성별이나 성지향성과 관련한 노골적인 차별 발언들을 하기가 꺼려진다. 내심은 그렇지 않더라도, 다름을 이해하고 관용하는 사람처럼 말하는 것이 하나의 문화적 교양이 된 시대니까 말이다. 이런 점을 의식해 사람들은 설문조사에서 자기의 진심을 숨기려는 경향을 보이게 된다. 하지만, IAT는 밀리초 단위의 자동적이고 반사적인 반응을 통해 사람들의 암묵적 태도를 측정함으로써 내심을 드러낼 수 있다는 것이 그 원리다.
위의 한국어 검사들보다 더 다양한 검사를 해보고 싶다면, 아래 링크에 접속하여 영어 검사를 받아보자. 트랜스젠더, 도널드 트럼프 미국 대통령 등에 대한 암묵적 선호를 검사해볼 수 있다.
https://implicit.harvard.edu/implicit/takeatouchtestv2.html
그렇다면, 이런 검사 결과는 얼마나 믿을 만한 것일까? 위와 같이 IAT라는 검사 도구를 개발한 Greenwald et al. (1998)은 IAT를 이용한 3개의 실험을 통해 그 측정의 타당도를 검증한다. 특히 그 가운데 두 번째 실험은, 한국계 미국인과 일본계 미국인들을 대상으로 암묵적인 한일 민족 감정을 측정하고 있어서, 꽤나 흥미로운 결과를 보여준다. ‘Fuji(moto)’, ‘Kama(kura)’, ‘Miya(matsu)’와 같은 일본인 성씨와 ‘Hwang’, ‘Hyun’, ‘Choung’과 같은 한국인 성씨를 위와 같은 방법으로 분류하게 하였더니, 한국계 피험자들은 ‘한국인’ 범주가 ‘pleasant(유쾌)’와, ‘일본인’ 범주가 ‘unpleasant(불쾌)’와 각각 짝지어졌을 때, 그 반대에 비해 더 빠른 속도로 분류 작업을 수행했다는 것이다. 물론 일본계 미국인들은 그 반대였다. 즉 한국계 미국인들은 암묵적으로도 일본인보다는 한국인을 더 선호했다는 것이 저자들의 발견이다.
IAT로 측정한 두 집단의 한국인과 미국인에 대한 태도 차이가, 명시적으로 측정한 태도 차이보다 더 크다는 것도 주목할 만한 결과다. 뿐만 아니라, 지인이나 가족들 가운데에 한국인 혹은 일본인이 얼마나 많은지, 한국어 혹은 일본어 실력이 어느 정도나 되는지 등, 실험 참가자가 한국인 혹은 일본인의 사회문화적 네트워크에 얼마나 편입되어 있는지를 측정해 지수화한 결과, 해당 네트워크에 깊이 소속되어 있을수록 집단 간의 태도 차이가 크게 나타났다. 즉, 실험에 참가한 한국계 미국인들은 가까운 지인들 중 한국인 혹은 한국계가 많거나, 그 자신이 한국어를 잘 구사하여서 한국 문화에 보다 익숙한 사람들일수록, 일본에 비해 한국을 상대적으로 더 긍정적으로 생각했다는 것이다. 즉 한국 문화에 익숙해서 한국인으로서의 정체성이 강한 사람들은 일본인보다는 한국인을 더 선호할 것이라는 이론적 예측과 잘 맞아떨어져, 검사 결과에 신빙성을 더해준다.
IAT가 폭발적인 관심과 주목을 받았던 이유 가운데 하나는, 특히 미국 사회에서 주요한 정치적 화두인 인종 문제를 조명하기 때문이기도 했다. Greenwald et al. (1998)의 세 번째 실험은, 백인 미국인들을 대상으로 흑인과 백인에 대한 암묵적 태도를 측정하는 IAT를 실행한 결과, 대부분의 참가자들이 흑인보다 백인에 대한 암묵적 선호를 가지고 있었다는 사실을 드러낸다. 이들 참가자들 상당수가 흑인과 백인을 비교하는 명시적 측정에서는 둘 중 어느 쪽도 더/덜 선호하지 않는다고 응답했거나, 심지어 흑인을 백인보다 더 긍정적으로 본다고 응답했었던 것에 비해, 실제로는 백인을 더 선호하고 있는 참가자들이 대부분이었다는 충격적인 결과다. 저자들의 발견을 일반화할 수 있다면, 제도적으로는 흑인에 대한 차별이 많이 시정된 것 같은 오늘날 미국 사회에서도, 실은 암묵적으로 흑인에 대한 차별이 이뤄지고 있었음을 짐작해볼 수 있다. 그렇다면, 여전히 미국 사회에서 완전히 해소되지 않은 인종 간 불평등도 잘 설명해줄 수 있는 것 같다.
Greenwald와 그 동료들의 이런 연구가 발표된 이후, IAT는 매우 많은 연구자들에 의해 사용되었다. 특히 McConnell & Leibold (2001)은 흑인 및 백인에 대한 암묵적 편견을 측정하는 IAT 점수가, 피검자가 개인적으로 보유하고 있는 편견 뿐 아니라, 흑인과 백인에 대한 실제 행동에서의 차별을 예측한다는 결과를 보여줘, 많은 주목을 받았다. 저자들은 실험을 수행하는 동안 실험 참가자들이 실험을 실시하는 실험자들과 어떻게 상호작용하는지, 그 상호작용이 실험자의 인종에 따라 달라지는지를 관찰했다. 그랬더니, IAT가 흑인에 비해 백인에 대해 암묵적으로 긍정적인 선호를 갖고 있다고 측정한 참가자들은, 흑인 실험자에 비해 백인 실험자에게 더 긴 시간을 얘기하고, 더 많이 웃고, 말실수를 더 적게 하는 등, 백인에 대해 더 우호적으로 행동했다는 결과를 확인할 수 있었다. 그에 비해, 인종에 대한 편견을 명시적으로 측정한 척도는 위와 같은 행동 차이를 예측하지 못했다. IAT가 사회적으로 예민한 주제에 대한 사람들의 심리를 측정하는 데에 전통적인 자기보고식 검사들보다 적합한 도구라는 증거인 셈이다.
Phelps et al. (2000)은 인종 IAT의 점수와 fMRI를 통해 측정한 편도체의 활성화 수준 사이에 상관관계가 있다는 실험 결과를 통해, IAT의 타당도에 대한 생리학적 증거를 보태준다. 백인 얼굴을 보았을 때에 비해 흑인 얼굴을 보았을 때 공포에 반응하는 뇌 부위로 알려진 편도체가 더 활성화되었던 실험 참가자들은, IAT에서도 백인에 비해 흑인에 대해 무의식적으로 더 부정적으로 생각하고 있는 것으로 드러났기 때문이다(다만 이런 패턴은 피험자들에게 제시되는 사진이 대중적으로 친숙한 인물(ex. 무하마드 알리, 마이클 조던)이었을 때에는 나타나지 않았다고 한다).
이렇게, 심리학자들은 지금까지는 측정할 수 없었던 내밀한 마음을 측정할 수 있는 도구를 손에 쥐게 된 셈이다.
IAT가 반드시 긍/부정의 정서가(valence)만을 측정하는 것은 아니다. 사람들이 형성하고 있는 어휘들 사이의 의미적 연관을 측정하는 도구가 될 수도 있는데, Goff et al. (2008)의 연구는 이 같은 검사도구의 특성을 잘 이용한 매우 흥미로우면서도, 정치적으로도 의미가 큰 실험 결과를 보여준다.
연구의 함의를 보다 잘 이해하기 위해서는, 백인들이 흑인을 '원숭이'나 '유인원' 즈음으로 생각해왔던 역사를 상기할 필요가 있다. 서구인들은 그들이 아프리카 대륙의 원시인들과 본격적으로 접촉을 시작했던 대항해시대 때부터 흑인을 자신과 동등한 인간으로 인정하지 않으려는 태도를 보여왔다. Goff et al. (2008)에 따르면, 생물학적 지식이 발전함에 따라, 인종 간 위계를 정당화하는 논리는 과학의 탈을 쓰고 전개되었는데, 이에 따라 흑인을 원숭이에 비유하는 관념들이 널리 확산되었다. 현대 인류학의 선구자로 일컬어지는 프란츠 보아스(Franz Boas)나, 진화론으로 명성을 얻은 찰스 다윈과 같은 당대의 학자들은, 영장류들 사이에 모종의 진화적 스펙트럼이 있다고 생각했다고 한다. 원숭이와 유인원이 가장 덜 진화한 영장류라면, 인류는 가장 진화한 영장류라는 식의 생각이었다. 그리고, 백인우월주의라는 당시의 지배적 사조에서 이는 흑인은 곧 인간과 유인원 사이 어디쯤에 있는 존재들이라는 함의를 갖기 십상이었을 것이다. 즉 백인우월주의자들의 생각에서, 흑인은 백인보다 원숭이나 유인원에 더 가까운 존재들인 셈이다.
물론 오늘날 공공연히 이런 얘기를 하고 다니는 사람을 찾기는 예전보다 어려울 것이다. 그랬다가는 사회적으로 물매를 맞을 테니까. 하지만, 앞서 짧막하게 언급했던 '사회적 바람직성 편향'에 대해 상기해보자. 공공연히 흑인은 원숭이라고 말하는 사람들이 없어진 것이, 정말로 그렇게 생각하는 사람들이 사라졌기 때문일까, 아니면 내심 그렇게 생각하고 있는 사람들이 사회적 물매가 두려워 입을 다물고 자신을 속이고 있기 때문일까? Goff et al. (2008)은 이 지점에서, 과연 백인들이 흑인을 백인에 비해 원숭이에 가까운 존재로 생각하는지, 그 내밀한 무의식을 IAT를 통해서 측정할 수 있다는 생각을 해낸다!
저자들이 고안한 IAT는 수검자들에게 흑인과 백인의 이름을 분류하는 동시에, "ape", "monkey", "chimp", "orangutan", "gorilla" 등을 '유인원(ape)'으로, "lion", "tiger", "panther", "puma", "cheetah" 등을 '대형 고양이과 동물(big-cat)'로 분류하도록 지시한다. 앞서 본 IAT와 같은 방법으로, 한 번은 백인과 유인원을 같은 쪽으로, 한 번은 흑인과 유인원을 같은 쪽으로 분류하도록 지시했을 테다. 'big-cat'을 'ape'의 대립 개념으로 설정한 것은, 수검자들이 단순히 폭력성이나 '아프리카'라는 연상을 매개로 흑인을 원숭이와 가깝게 연결하지 않도록 고려한 설계다. 유인원보다는 대형 고양이과 동물이 더 폭력적이고, 동시에 유인원보다 더 집중적으로 아프리카에 분포하는 동물이기 때문이다. 실험 결과, 백인 대학생들은 정말로 백인에 비해 흑인을 '유인원'으로 분류하는 속도가 상대적으로 더 빨랐다. 즉, 실험 결과에 따르면 백인들은 아직도 흑인을 원숭이와 비슷하다고 무의식적으로 생각하고 있는 셈이다!
저자들의 실험은 여기서 끝나지 않는다. 저자들은, 점화 자극(의식하지 않은 채 후속 사고를 활성화하는 자극)을 통해 유인원 혹은 대형 고양이과 동물을 연상하도록 피험자들을 유도한 후, 경찰이 용의자를 구타하는 영상을 보여준다. 그리고 영상에서 본 경찰의 폭력이 얼마나 정당화되는지를 물었더니, 유인원 점화 자극에 노출된 피험자들만, 용의자가 흑인일 때 경찰 폭력이 정당화된다고 응답하는 정도가 (용의자가 백인인 경우에 비해) 유의미하게 높았다. 즉, 유인원을 연상하도록 유도된 백인 참가자들은, 용의자가 백인일 때 비해 흑인일 때, 경찰의 폭력이 더 정당화된다고 생각했다.
흑인에 대한 경찰의 폭력은, 미국에서 최근까지도 가장 뜨거운 정치적 이슈 가운데 하나다. 경찰의 과잉 진압에 의해 흑인 용의자가 사망하는 극단적인 사례들은 최근까지도 여전히 반복되고 있다. 올해 "Black Lives Matter" 운동을 크게 확산시킨 사건 역시 그 하나의 사례다. Goff et al. (2008)의 연구 결과는 이런 사건들이 왜 끊이지 않고 반복적으로 일어나는지, 그 메커니즘의 일부분에 대한 하나의 유력한 설명을 제시하는 것처럼 보인다.
물론 위의 실험은 백인 남자 대학생들을 대상으로 한 것으로, 현실의 경찰 폭력 문제에 곧바로 적용하고 일반화하기에는 한계가 있다. Goff는 그 후속 연구(Goff et al. 2014)에서 직접적으로, 경찰을 대상으로 연구를 실시한다. 저자들은 대도시 지역의 경찰관들을 대상으로 다양한 인종의 남성 용의자들에 관한 시나리오들을 제시하고, 용의자들의 나이와 유죄성을 추정하게 했더니, 흑인을 유인원으로 더 빨리 분류한 경찰관들이 다른 인종 용의자에 비해 흑인 용의자의 나이와 유죄성을 더 높게 추정했다는 결과를 보여준다. 그리고 해당 경찰관들의 실제 경력을 기록한 개인 파일들로부터 무력 행사의 이력에 대한 데이터를 뽑아내, 다른 인종과 비교했을 때 나타나는 흑인 청소년에 대한 무력 행사의 빈도 차이가 IAT 결과에 의해 통계적으로 유의미하게 예측된다는 사실도 발견한다. 이는 용의자의 실제 나이와, 용의자가 마약이나 알코올, 정신 건강에 의해 취약한 상태인지 여부, 혹은 용의자가 무기를 가지고 있었는지 여부를 통계적으로 통제한 결과다. 즉, 암묵적으로 흑인을 원숭이와 연관시키는 경찰관은, 실제로도 과거에 흑인 청소년을 대상으로 더 많은 폭력을 행사했었다는 것이다. 역시, 인종에 대한 태도를 명시적으로 측정한 척도는 IAT와 달리 이와 같은 결과를 예측하는 데에 실패했다는 것 또한 중요한 발견이다.
그 밖에도 사회적으로 민감한 이슈에 대한 사람들의 암묵적 태도와 인식을 IAT로 측정한 연구들 가운데에는 흥미로운 것들이 많다. 또 하나의 예로, 프랑스의 체인 업체를 대상으로 그 관리자의 IAT 결과와 종업원들의 업무 성과 사이의 관계를 연구한 Glover et al. (2016)에 따르면, 소수 인종에 대한 암묵적 편견을 가지고 있는 관리자의 감독 아래에서 일한 소수 인종 종업원들은 그렇지 않은 종업원들에 비해 저조한 업무 성과를 보여줬다고 한다. 소수자에 대한 차별이 자기실현성을 가진다는 행동경제학의 익숙한 논의를 IAT라는 도구를 이용해서 전개한 한 사례라고 할 수 있다. 즉, 고용주들은 소수자에 대한 차별을 정당화하며 소수자들의 업무 역량이 떨어지기 때문이라고 주장하지만, 실은 그같은 차별적 태도가 오히려 실제 소수자들의 업무 역량을 떨어뜨리는 '자기충족적 예언'일 수 있다는 것이다.
물론 IAT를 사용한 사회심리학 연구의 주제가 인종 문제에만 국한된 것은 아니다. Vaes et al. (2011)은 Karpinski & Steinman (2006)이 IAT를 다소 변형해서 개발한 SC-IAT(Single Category IAT)를 통해, 사람들이 '성적으로 대상화된(sexually objectified)' 여성을 남성과는 달리 정말 사람이 아닌 사물(object)인 ‘동물’에 보다 가깝게 생각하고 있다는 사실을 발견한다. 그리고, Rudman & Mescher (2012)의 연구에 따르면, 이처럼 IAT에서 암묵적으로 여성을 대상화하고 있는 것으로 드러난 남성들은 제 행적이 드러나지 않을 수만 있다면 보다 기꺼이 강간 등의 성폭력을 저지르겠다고 응답했다!
국내에서도 IAT를 사용한 흥미로운 연구들이 있다. 미국에 비해 인종적 동질성이 강한 한국에서 미국 사회의 '인종' 이슈에 견줄 수 있을 만한 정치적 주제는 단연 지역 차별인데, 나은영, 권준모 (2002)의 연구는 호남 및 영남 지역에 대한 편견을 측정하는 데에 IAT가 효과적인 도구일 수 있다는 것을 보여준다. 특히, 보통 IAT를 사용한 연구들과는 달리 음성 자극을 사용했다는 점이 흥미로운데, "머덜라고", "머다냐", "어찌끄나"와 같은 전라도 사투리와 "안자라", "머어꼬", "와이카노"와 같은 경상도 사투리를 들려주고 해당 음성을 분류하도록 참가자들에게 지시했던 것이다. 그 결과 영남인은 경상도 사투리를 긍정적 의미의 단어들과 함께 분류할 때 더 빠른 작업속도를 보였던 반면, 호남인들은 전라도 사투리를 긍정적 의미의 단어들과 짝지어 분류하는 데에 더 빨리 반응했다고 한다.
하지만 IAT를 사용한 연구들에 회의적인 시선도 있었다. IAT 결과를 받아본 분들 가운데에는, 검사 결과가 자신이 개인적으로 보유하고 있는 편견이나 태도가 아니라, 사회적으로 학습된 규범이나 스테레오타입 따위에 대한 지식을 측정하고 있는 것은 아닌지 의심을 품게 된 사람들이 몇 있을지도 모르겠다. 실제로 많은 연구자들이 IAT 결과의 해석에 대해 비슷한 지적을 해왔다.
Karpinski & Hilton (2001)의 한 실험에서는, '캔디바'와 '사과'가 'pleasant(유쾌)' 혹은 'unpleasant(불쾌)' 범주와 형성하고 있는 암묵적 연합을 측정하는 IAT를 완료한 참가자들에게, 캔디바와 사과 둘 중 하나만을 먹거나 집에 가져갈 수 있도록 제시해 보았다. IAT 결과가 실제로 수검자들의 개인적 선호에 바탕을 둔 행동을 예측하는지 알아보기 위한 테스트였다. 만약 IAT가 실제로 개인의 태도를 측정하고 있다면, IAT에서 사과를 캔디바에 비해 'pleasant'와 더 쉽게 연관시킨 참가자들, 즉 암묵적으로 사과를 더 선호하는 것으로 나타난 참가자들은, 캔디바가 아닌 사과를 선택해야 했다. 하지만 이런 예측은 빗나갔다. IAT는 참가자들의 선택을 예측하지 못했으며, 그에 비해 명시적인 태도는 같은 행동을 통계적으로 유의미하게 예측했다. 즉 참가자들은 IAT 점수와는 상관없이 본인들이 스스로 좋아한다고 명시적으로 밝힌 음식을 선택했다.
저자들은 IAT가 측정하는 것은 수검자 개인의 태도가 아니라 그 수검자가 노출된 환경이 형성하고 있는 개념 연관일 수 있다고 주장한다. 이같은 해석을 '환경적 연합 모델(the environmental association model)'이라고 할 수 있다. 저자들이 수행한 다른 실험에서는, '노인(elderly)' 및 '청년(youth)'과 관련된 단어들을 분류하는 IAT를 완료한 후에 '노인(elderly)'과 긍정적 단어들('cheer', 'pleasure', 'happy'...)을 연결시킨 단어쌍들에 노출된 참가자들이, 똑같은 IAT를 다시 수행했을 때 '노인’을 'unpleasant(불쾌)'와 연관시키는 정도가 노출 전에 수행한 검사에 비해 유의미하게 떨어졌다는 결과가 나타났다. 즉 IAT는 개인의 태도가 아니라 그가 노출된 환경이 형성하고 있는 개념 연합이라는 저자들의 입장을 지지하는 결과다.
Arkes & Tetlock (2004)는 앞서 한국/일본의 사회문화에 보다 깊숙이 소속되어 있는 한국계/일본계 미국인일수록 집단 간 태도 차이가 크게 나타났던 Greenwald et al. (1998)의 실험 결과를 문화적 스테레오타입에 대한 지각 수준이 개인별로 달리 나타나는 예로 간주한다. 그들은 해당 실험 결과에 대해, IAT가 실은 개인이 보유하고 있는 태도가 아닌 그가 노출된 사회문화적 환경에 의해 지각하게 된 문화적 스테레오타입의 수준을 측정하고 있다는 설명이 가능하다고 지적한다. 또한, 예로 흑인에 대해 부정적인 정서를 가지고 있는 사람들이 반드시 흑인에 대한 부정적인 편견을 가지고 있는 것은 아닐 수 있다고도 지적하는데, 그게 무슨 의미인지는 Andreychik & Gill (2012)의 연구 결과를 보면 잘 이해가 될 것이다.
Andreychik & Gill (2012)의 연구에 따르면, 흑인과 백인을 유쾌, 불쾌 단어와 짝지어 분류하는 IAT 점수의 결과는 아프리카계 미국인의 문화에 대한 태도와 상관관계가 있었지만, 이 상관관계는 흑인의 사회경제적 지위에 대한 외적 귀인의 수준에 따라 달라진다. '외적 귀인'이란, 현상의 원인을 행위자의 내적 속성이 아니라 행위자 바깥의 외재적 요인에서 찾는 것을 말하는데, 즉 흑인의 낮은 사회적 지위가 노예제와 인종 분리의 역사 등 흑인 집단에 내재한 속성이 아닌 외부에서 가해진 차별 때문이라는 설명을 지지하는 정도에 따라, IAT 점수와 아프리카계 미국인 문화에 대한 태도의 상관관계가 달라졌다는 것이다. 흑인이 백인보다 사회경제적 지위가 낮은 것은 흑인 탓이 아니라 흑인을 부당하게 대우한 백인 사회의 탓이라고 생각하는 사람일수록 IAT에서 드러난 '흑인'과 '불쾌' 범주의 연합이 흑인 문화에 대한 긍정적 태도와 관련이 있었고, 그 반대의 경우에는 '흑인'과 '불쾌' 범주의 암묵적 연합은 흑인 문화에 대한 부정적 태도와 관련이 있었다. 이 차이는 무엇 때문일까?
후속 실험에서 저자들은 흑인의 사회적 지위에 대한 외적 귀인 수준에 따라 흑인에 대한 동정심과 IAT 점수 사이의 상관관계가 달라진다는 것을 보여준다. 즉, 흑인의 낮은 사회적 지위가 사회 탓이라고 생각하는 사람들만 두 변수 사이에 유의미한 상관관계가 있었는데, 이들은 흑인("BLACK")을 무의식적으로 연상하도록 점화 자극에 노출되었을 때에 동정심과 관련된 단어들("Empathy", "Concern", "Compassion", "Sympathy")을 빨리 지각할수록, IAT가 측정한 '흑인-불쾌' 연합의 상대적 강도가 높았다. 흑인을 싫어하거나 흑인이 나쁘다고 생각해서가 아니라, 흑인의 낮은 사회적 지위가 사회 탓이라고 생각하고, 흑인에게 더 동정심과 연민을 느껴서 흑인과 관련해 불쾌한 느낌을 더 많이 느낀다는 것이다. 그러니 혹시 본인이 동성애자나 흑인에 대해 암묵적인 편견을 갖고 있었다는 IAT 결과를 받으신 분들 가운데, 평소에 성소수자와 소수 인종을 차별하는 사회의 부조리에 심각한 문제의식을 가진 분이 계시다면, 혹여나 검사 결과에 너무 충격을 받지 않아도 될 것 같다. 실은 흑인이나 동성애자를 더 싫어하는 게 아니라, 흑인과 성소수자에 대한 차별에 더 불편을 느낀다는 의미일 수도 있으니까.
Olson & Fazio (2004)는 환경적 연합에 의해서 검사 결과가 "오염"되는 것을 막고 개인적 연합만을 탐지해내기 위해서, 원조 IAT를 다소 수정하여 "Personalized IAT"를 개발한다. Greenwald와 그 동료들이 처음 개발한 원조 IAT에서는 표적 자극을 "Pleasant", "Unpleasant" 따위의 범주로 분류하게 했다면, Fazio와 Olson의 버전에서는 "I like”와 "I dislike"로 분류하게 하여 검사 결과에 실제 수검자 개인의 선호가 보다 반영되도록 하였다. 그리고 그 결과, 원조 IAT를 사용한 실험에서처럼 흑인에 대한 암묵적 편견이 있었던 것으로 드러났지만, 그 정도는 더 낮았다. 또한, Karpinski & Hilton (2001)에서처럼 사과와 캔디바에 대한 암묵적 태도를 측정해보았더니, Personalized IAT의 측정 결과가 원조 IAT에 비해 명시적 태도와 높은 상관관계를 보였고, 사과와 캔디바 둘 중 무엇을 선택할 것인지 참가자가 보고한 응답과도 높은 상관관계를 보였다. 앞서 Karpinski & Hilton (2001) 실험에서는 IAT가 실험 참가자들이 무슨 선택을 할 것인지 예측하지 못했던 것과 대조적이다.
IAT의 해석이 애초 Greenwald와 그 동료들의 주장처럼 단순한 문제는 아니라는 사실에도 불구하고, IAT를 사용한 연구들에 대한 메타분석(여러 연구들을 종합하여 요약추정치를 제시하는 연구)들은, IAT가 가장 주목받은 이슈였던 흑백 차별을 주제로 한 연구들에서, 외현적이고 명시적인 심리 측정들에 비해 높거나(Greenwald et al. 2009), 혹은 그와 비슷한(Oswald et al. 2013) 수준의 예측 타당도를 보였다고 보고한다. 즉 명시적 심리 측정에 못지 않게, 또는 그보다 잘 사람들의 행태를 예측했다는 것이다. 하지만 Oswald et al. (2013)은 애초에 명시적 측정과 IAT 모두 예측 타당도가 낮은 수준이라고 지적한다. 실제로 Oswald et al. (2013)의 메타분석에서, IAT의 측정값과 IAT가 측정하고 있는 암묵적 태도와 유관한 행동 사이의 상관관계는 r=.14 수준으로, 이는 행동과학에서 보통 '낮은' 수준의 상관관계로 해석하는 크기다(Cohen 1977). 즉, IAT를 사용해 인종 차별 문제와 관련한 실험을 수행한 연구들이, 대략 r=.14 수준의 낮은 상관관계로만 사람들의 행태를 예측했다는 것이다. Greenwald et al. (2009)이 보고한 흑백 인종 이슈에서의 예측타당도도 실은 r=.236 수준에 불과하다.
그렇다면, 학계의 폭발적인 관심에 비해 IAT는 실제로는 형편없는 검사도구였을 뿐일까? Greenwald et al. (1998)이나 Oswald et al. (2013)에 비해 훨씬 더 많은 연구들을 분석한 Kurdi et al. (2019)의 메타분석에 따르면 IAT의 예측타당도를 좌우하는 중요한 조절변수들이 있다. 그 가운데 하나는 행동을 측정하는 방식이 '절대적'인지, 아니면 '상대적'인지 여부다. IAT는 한 개념이 다른 개념에 견주어서 상대적으로 강한 연관을 형성하고 있는지를 측정하고 있기 때문에, 행동에 있어서도 절대적인 차이보다는 상대적인 차이를 보다 잘 예측할 것이기 때문이다. 또 다른 것은 IAT의 여러 버전들 가운데 어떤 버전을 사용하였는지이다. Karpinski & Steinman (2006)의 "SC-IAT"나 Olson & Fazio (2004)의 "Personalized IAT" 등 IAT의 여러 다른 버전을 사용하는 것보다, 원조 IAT와 "IRAP"라는 버전을 사용한 연구들이 보다 높은 수준의 예측 타당도를 보여주었다. Personalized IAT가 환경적 연합에 의한 오염을 제거하기 위해 고안된 버전이라는 점을 염두에 두면, Personalized IAT를 사용한 연구가 오히려 효과 크기가 더 떨어진다는 것은 의외의 결과다. 표적 자극과 짝지은 특성 개념들이 서로 반대의 속성을 갖는지 여부도 중요하다. 예를 들어, 표적 자극을 '유쾌(pleasant)' 혹은 '불쾌(unpleasant)'와 짝지어 분류하는 것이 아니라 '유쾌(pleasant)' 혹은 '위협적인(threatening)'과 짝지어 분류하는 경우 예측타당도가 떨어진다는 것이다. 또한 측정하는 암묵적 태도와 행동이, 이론이나 과거의 선행 연구에 비추어 얼마나 서로 관련된 것인지도 중요한 조절변수다.
위와 같은 모든 조건들을 만족하고, 암묵적 인지와 행동 사이의 관계에 주요한 관심을 둔 연구들은 r=.37 정도의 예측타당도를 보였다. 즉 Cohen (1977)이 행동과학에서 ‘보통’ 수준의 효과 크기로 해석하는 기준으로 제시한 r=.30을 상회하는 수준이다. 말하자면, IAT는 연구자들이 어떻게 사용하느냐에 따라 충분히 효과적인 검사 도구가 될 수 있다는 것이다.
이처럼, Greenwald et al. (1998)이 개발한 암묵적 연합 검사(IAT)는 사람들이 무의식적으로 형성하고 있는 개념적 연관을 측정하는 도구로서 사회심리학 분야에서 특히 유용하게 사용되어 왔다. 집단 간의 고정관념, 편견, 차별 따위 예민한 주제들에 있어서, IAT는 그전의 전통적인 심리 측정으로는 관찰할 수 없었던 영역을 측정함으로써 연구의 새로운 지평을 열어주었다고 말할 수 있다.
물론, IAT에 대해 회의적인 시선이 여전히 존재하는 것도 사실이다. 특정한 인종에 대한 편견과 차별적 태도 등 정치적으로 예민한 영역을 건드리는만큼 IAT에 대한 반감도 적지 않다. "내가 차별주의자라는 거냐"는 식의 반발을 사기 딱 좋은 것이다. 한편으로는 IAT를 지지하는 학자들이, 조심스레 해석해야 할 검사 결과를 지나치게 단순히 해석해온 탓도 없지 않은 것 같다. 따라서, 검사를 특정한 개인의 암묵적 편견과 차별적 태도를 진단하는 도구로 섣불리 사용하는 것은 경계해야 할 일이다. 또한, 인종 간의 불평등과 같은 사회구조적 문제가, 차별적 태도를 숨기고 있는 개인들이 마음을 잘 고쳐먹으면 해결되는 듯한 인상을 주는 것도 경계해야 할 필요가 있다.
그러나, IAT가 사람들이 숨겨왔던 혹은 스스로도 의식하지 못했던 암묵적인 인지에 대해서 밝혀준 것은 무시하지 못할 기여다. 많은 사람들이 정치적으로 올바른 체 하면서 실은 차별적 생각을 갖고 있다는 불편한 진실을 완전히 부정하기도 어려워 보인다. IAT가 이같은 사실을 밝혀주는 데에 결정적인 증거였음은 지금까지 본 바와 같다. 따라서 IAT는 어떤 목적에 따라 어떻게 사용하느냐에 따라, 유용한 도구가 될 수 있다. 이런 이유로 최근까지도 IAT를 이용한 심리학 연구들은 쏟아져나오고 있는 중이다. IAT라는 검사 도구를 잘 이해하는 것은 이런 심리학계 일단의 트렌드를 이해하는 데에도, 연구의 지평을 새롭게 확장하는 데에도 매우 유용한 수단이 될 수 있을 것이다.
<참고문헌>
나은영, 권준모 (2002). 암묵적 연합 검사에 의한 지역 편견의 강도 측정 및 응용. 한국심리학회지: 사회 및 성격, 16(1), 51-74.
Andreychik, M.R., & Gill, M.J. (2012). Do negative implicit associations indicate negative attitudes? Social explanations moderate whether ostensible “negative” associations are prejudice-based or empathy-based. Journal of Experimental Social Psychology, 48(5), 1082-1093.
Arke, H.R., & Tetlock, P.E. (2004). Attributions of Implicit Prejudice, or “Would Jesse Jackson ‘Fail’ the Implicit Association Test?”. Psychological Inquiry, 15(4), 257–278.
Cohen, J. (1977). Statistical Power Analysis for the Behavioral Sciences (rev. ed.). New York: Academic Press.
Glover, D., Pallais, A., & Pariente, W. (2016). Discrimination as a Self-Fulfilling Prophecy: Evidence from French Grocery Stores. NBER Working Paper No. 22786.
Goff, P.A., Eberhardt, J.L., Williams, M. J., & Jackson, M. C. (2008). Not yet human: Implicit knowledge, historical dehumanization, and contemporary consequences. Journal of Personality and Social Psychology, 94, 292–306.
Goff, P.A., Jackson, M.C., Di Leone, B.A.L., Culotta, C.M. & DiTomasso, N.A. (2014). The essence of innocence: Consequences of dehumanizing Black children. Journal of Personality and Social Psychology, 106(4), 526-545.
Greenwald, A.G., McGhee, D.E., & Schwartz, J.L.K. (1998). Measuring individual differences in implicit cognition: The implicit association test. Journal of Personality and Social Psychology, 74, 1464 –1480.
Greenwald, A.G., Poehlman, T.A., Uhlmann, E.L., & Banaji, M.R. (2009). Understanding and using the Implicit Association Test: III. Meta-analysis of predictive validity. Journal of Personality and Social Psychology, 97, 17– 41.
Karpinski, A., & Hilton, J.L. (2001). Attitudes and the Implicit Association Test. Journal of Personality and Social Psychology, 81, 774–778.
Karpinski, A., & Steinman, R.B. (2006). The Single Category Implicit Association Test as a measure of implicit social cognition. Journal of Personality and Social Psychology, 91, 16 –32.
Kurdi, B., Seitchik, A.E., Axt, J.R., Carroll, T.J., Karapetyan, A., Kaushik, N., Tomezsko, D., Greenwald, A.G., & Banaji, M.R. (2019). Relationship between the Implicit Association Test and intergroup behavior: A meta-analysis. American Psychologist, 74(5), 569–586.
McConnell, A.R., & Liebold, J.M. (2001). Relations between the Implicit Association Test, explicit racial attitudes, and discriminatory behavior. Journal of Experimental Social Psychology, 37, 435–442.
Olson, M.A., & Fazio, R.H. (2004). Reducing the influence of extrapersonal associations on the Implicit Association Test: Personalizing the IAT. Journal of Personality and Social Psychology, 86, 653– 667.
Oswald, F.L., Mitchell, G., Blanton, H., Jaccard, J., & Tetlock, P.E. (2013). Predicting ethnic and racial discrimination: A meta-analysis of IAT criterion studies. Journal of Personality and Social Psychology, 105, 171–192.
Phelps, E.A., O’Connor, K.J., Cunningham, W.A., Funayama, E.S., Gatenby, J.C., Gore, J.C., & Banaji, M.R. (2000). Performance on indirect measures of race evaluation predicts amygdala activation. Journal of Cognitive Neuroscience, 12, 729 –738.
Rudman, L.A., & Mescher, K. (2012). Of Animals and Objects: Men’s Implicit Dehumanization of Women and Likelihood of Sexual Aggression. Personality and Social Psychology Bulletin, 38(6), 734–746.
Vaes, J., Paladino, P., & Puvia, E. (2011). Are sexualized female complete human beings? Why males and female dehumanize sexually objectified women. European Journal of Social Psychology, 41, 774-785.