플린 효과와 AI 시대 인간 지능의 재정의
인간의 지능은 시간이 흐르면서 향상되고 있는가? 이 근본적인 질문은 단순한 학문적 호기심을 넘어 사회 전체의 지적 역량에 대한 충격적인 함의를 내포한다. 실제로 20세기 초, IQ 검사가 처음으로 등장했을 때의 초기 기준을 현재 세대에 적용한다면, 당시 평균 지능지수는 오늘날의 기준으로 볼 때 약 70점에 불과했을 것이라고 한다. 1900년대 초반 평균적인 사람이 오늘날의 분류 체계로는 '학습 장애'(learning disability) 수준에 해당한다는 이 충격적인 사실은, 지능 테스트 점수가 세대를 거듭하며 '엄청난 상승'(massive gains)을 겪어왔음을 보여준다.
데어리 교수에 따르면, 이러한 지능지수 상승 현상에 대한 과학적 조사를 가장 먼저 진지하게 수행하고 정량화한 핵심 연구자는 뉴질랜드의 정치학자인 '제임스 플린'(James Flynn, 1934-2020) 교수이다. 그는 지능 테스트를 관리하는 기관들이 몇 년마다 테스트의 '기준'(norm), 즉 특정 점수가 관련 인구에서 어떤 백분위수에 해당하는지를 나타내는 기준표를 '재표준화'(re-norm) 해야 하는 기술적인 문제에 직면한다는 점을 저적 한다. 즉, 새로운 세대가 이전 세대와 동일한 IQ 테스트에서 더 높은 원점수(raw score)를 받게 되면서, 과거 세대의 평균 점수 기준을 그대로 적용하면 신세대 전체의 IQ가 비정상적으로 높게 계산되는 '점수 인플레이션' 현상이 발생한다. 따라서, 테스트 자체가 쉬워진 것이 아님에도 불구하고 점수가 지속적으로 상승하는 역설적인 현상이 발생하게 되는 것이다.
플린 교수는 1984년과 1987년에 걸친 고전적인 연구를 통해 이 현상을 정량화했다. 그는 여러 국가에서 수집된 IQ 테스트 표준화 데이터를 분석하여, 후기 세대가 오래된 기준을 적용했을 때 추정 IQ가 훨씬 더 높게 나타나는 점을 지적했다. 예컨대, 1932년부터 1978년까지 백인 미국인들의 IQ는 이 기간 동안 매년 0.3점 이상, 총 약 14점이 상승했다. 이후 전 세계 31개국, 거의 400만 명을 대상으로 한 야콥 피에슈니히(Jakob Pietschnig)와 마틴 보라첵(Martin Voracek)의 메타분석(2010년대)에서도 10년마다 평균 2.8점의 IQ가 상승했다는 결과가 도출되었는데, 이는 한 세기 동안 무려 20~30점 엄청난 상승이다. 이러한 세대별 지능 테스트 점수의 체계적인 증가를 '플린 효과'(Flynn effect)라고 부른다.
'플린 효과'의 놀라운 측면은 지능의 상승세가 특히 '문화적 의존도가 낮은 시험'(culturally reduced tests)에서 두드러지게 나타났다는 점이다. 예컨대, 언어, 지리, 역사 등 배워서 아는 지식을 묻지 않고, 추상적인 패턴과 규칙을 인식하고 유추하는 추상적 추론 능력을 측정하는 유형의 테스트에서 가장 큰 상승이 관찰된 반면, 어휘력과 같이 학습된 지식에 의존하는 '결정 지능'(crystallized intelligence)의 상승폭은 상대적으로 작았다. 데어리 교수에 따르면, 이 현상은 세대가 바뀌면서 사람들이 학교 교육이나 생활환경 변화(산업화, 시각 미디어 노출 등)를 통해 환경적인 영향에 의해 추상적이고 가설적인 문제에 접근하는 사고방식 자체가 더 발달하게 되었음을 의미한다고 분석한다. 즉, IQ 점수가 오른 것은 테스트에 유리한 특정 유형의 사고 능력이 환경 변화 덕분에 향상된 것이지, 전반적인 '지능' 자체가 비약적으로 발전했다고 보기는 어렵다는 것이다. 플린 교수도 이러한 증가가 실제 지능의 증가, 즉 후속 세대가 천재가 되었다는 증거로 이어지지 않는다고 주장했다. 만약 실제로 그렇게 되었다면, "간과하기에는 너무 위대한 문화적 르네상스"가 일어나야 했지만, 그는 프랑스와 네덜란드 등 IQ 상승이 높게 나타난 국가에서 그러한 증거를 찾지 못했다고 강조했다.
'플린 효과'의 원인은 공식적으로는 여전히 '미스터리'(mystery)로 남아있다. 플린 교수와 이후의 연구자들은 세 가지 주요 가설을 논의했다. 샘플링 오류가 가져온 편향에 의한 인공적인 결과(artifact)이거나, 사람들이 테스트에 더 익숙해졌으며 추상적 사고를 훈련하는 환경적 변화 덕분이거나, 사회경제적 환경이 개선되어 실제 인지 능력이 향상되었다는 등의 가설이다. 플린 교수는 환경적 요인을 더 유력하게 보았는데, 특히 '사회적 승수'(social multiplier) 가설을 통해, 환경적 요인에 의해 영향을 받는 능력의 작은 초기 우위가 더 나은 성과와 환경으로 이어지고, 이것이 다시 긍정적인 성과 향상을 낳는 '피드백 루프'(feedback loop)를 통해 세대를 거듭하며 지능 점수 격차를 확대한다는 것이다. 이는 곧 IQ 점수의 상승은 많은 사람의 환경이나 문화에 있는 '무엇인가'가 20세기 중반에 걸쳐 크게 변화했음을 시사한다. 플린 교수는 결론적으로 "IQ 테스트의 점수 차이는 다른 세대 또는 다른 문화 집단의 지능을 신뢰성 있게 비교하는 데 사용할 수 없다."라는 점을 강조했다.
이러한 분석을 통해 얻을 수 있는 중요한 시사점은, IQ 테스트 점수가 세대 간 혹은 집단 간 비교를 위한 절대적인 척도가 될 수 없다는 것이다. 그럼에도 불구하고 우리나라와 같이 입시와 취업 등 끝없는 경쟁이 과열된 사회에서는 '시험점수'와 같은 객관적인 평가 지표에 대해 강박적으로 집착하는 경향이 있는데, 잠재적인 오류를 내포할 수 있는 IQ와 같은 분석 방법도 그중 대표적인 하나다. 플린 효과는 IQ 점수가 세대의 문화적, 환경적 변화에 따라 엄청나게 달라질 수 있음을 보여주며, 이는 단일 지표로서의 IQ가 가진 한계를 명확히 한다는 점에서 우리에게 시사하는 바가 크다.
사실, IQ가 측정하는 '추상적 문제 해결 능력'은 오늘날 인공지능(AI)의 급속한 발달로 인해 그 '인간 고유의 가치'가 재평가되고 있다. AI는 방대한 데이터를 기반으로 한 패턴 인식, 논리적 추론, 복잡한 문제 해결 등 과거 IQ가 포착하려 했던 많은 영역에서 이미 인간의 능력을 보조하거나 능가하기 시작했다. 따라서, 이제 우리 사회는 단순히 "더 높이(IQ)"를 외치는 경쟁을 넘어, "무엇이 진정으로 가치 있는 인간의 능력인가?"라는 질문에 답해야 할 때이다. AI가 대체하기 어려운 인간 고유의 능력, 즉 EQ(감성 지능)와 창의성, 공감 능력, 윤리적 판단력, 복합적인 상황에서의 협업 능력에 초점을 맞추는 것이 더욱 중요해지고 있다. 이는 기계가 흉내 낼 수 없는 '인간다움'을 구성하는 핵심 요소이다. 플린 효과가 환경적 요인, 특히 '사고력 훈련을 위한 기술에 대한 노출'의 중요성을 시사했듯이, AI 시대의 교육과 성장은 '인간 상호작용의 심화'와 '비판적 성찰'을 중심으로 이루어져야 한다.
구체적으로 정답이 없는 개방형 문제 해결(open-ended problem solving)과 학문 간의 경계를 허무는 융합적 학습(interdisciplinary learning)을 통해 창의성과 복합적 사고를 기르고, 문학, 역사, 예술 등 인간의 감정적 경험과 윤리적 딜레마를 다루는 인문학적 소양을 심화하는 교육을 통해 공감 및 감성 지능을 고양하는 것이 더 필요하다. 요컨대, 플린 효과는 지능 테스트 점수가 세대를 뛰어넘는 비교 기준이 될 수 없으며, 환경과 문화에 의해 크게 영향을 받는다는 것을 보여주었다. 우리는 IQ라는 오류 가능성이 있는 척도에 대한 집착에서 벗어나, AI 시대에 더욱 빛을 발할 수 있는 공감, 창의성, 윤리성과 같은 인간 고유의 지적 및 정서적 자원을 배양하는 데 초점을 맞추어야 한다. 이것이야말로 세대를 거듭하며 우리가 진정으로 계발해야 할 '지성의 후속 세대'이다.