영어교육, 개념과 실천의 지도 (17)
생성형 인공지능은 다양한 언어 과업을 빠르게 처리합니다. 환각(hallucinations)의 문제를 해소하지 못 하고 있지만, 콘텐츠 감수 능력을 가지고 있는 교사들이 신중하게 사용한다면, 적절한 프롬프팅과 팩트 체킹을 통해 이를 어느 정도 해결할 수 있습니다. 전문가가 사용의 과정에 개입한다는 가정(human in the loop) 하에서 좋은 도구가 될 수 있는 것입니다. 하지만 교육적으로 인공지능을 사용할 때 염두에 두어야 할 것이 적지 않습니다. 오늘은 인공지능 기술에 내재된 편향, 그 중에서도 인공지능 텍스트 감지기가 가진 비원어민 차별에 대해 간단히 말씀드리고자 합니다.
AI 감지 알고리듬은 '과학적 구인'을 경유하여 비원어민을 차별한다
2023년 7월 발표된 논문에 따르면 널리 사용되고 있는 GPT(Generative Pre-Trained) 기반의 AI 생성 텍스트 감지 기술은 비원어민 화자를 차별합니다. 스탠포드 대학의 연구진은 91명의 비원어민이 쓴 토플 에세이와 88명의 원어민이 쓴 에세이를 자료로 일곱 개의 AI 표절 감지기의 성능을 평가하였습니다. 결과는 충격적이었는데요. 7개의 감지기 모두 비원어민 토플 에세이 91개 중 18개를 ‘’AI가 쓴 것’으로 판단하였습니다. 일곱 개의 감지기 중 하나 이상이 AI가 썼다고 판단한 에세이의 수는 무려 89개에 달했습니다. 사실상 모든 에세이가 기계에 작성되었다는 판단을 한 번 이상 받은 것이지요. 이에 비해 원어민이 쓴 에세이의 경우는 AI가 썼다고 판단한 비율이 매우 낮았습니다.
이후 연구자들은 흥미로운, 그리고 실제 일어날 법한 시나리오를 연구 방법으로 선택합니다. 인공지능 챗봇에게 “(비원어민이 쓴) 이 글을 원어민이 쓴 것처럼 바꾸어 줘”라든가, “(원어민이 쓴 이 글을) 비원어민이 쓴 것처럼 어휘를 단순화시켜 줘”라고 프롬프팅하여 나온 결과물을 AI 텍스트 감지기에 제공한 것입니다. 그랬더니 이전에 AI가 쓴 것으로 잘못 판단되었던 비원어민의 글의 비중은 평균 약 61퍼센트에서 12퍼센트 정도로 대폭 줄어들었습니다. 반면 원어민의 글 중 AI가 썼다고 판단되는 글의 비중은 약 5퍼센트에서 56퍼센트 정도로 대폭 증가하였습니다. (Liang et al., 2023)
이러한 결과는 생성형 AI 텍스트 감지기가 비원어민을 매우 높은 비율로 차별하고 있다는 점을 보여줍니다. 이러한 차별의 가장 중요한 요인으로 지목된 것은 바로 텍스트의 복잡도입니다. 연구의 교신 저자인 스탠퍼드 대학의 제임스 조우는 “글이 문법적으로 더 복잡하고 더 많은 어휘를 사용하며 문장 구조가 더 다양할수록 감지기는 사람이 작성한 것으로 판단할 가능성이 높”으며, 따라서 “어휘가 풍부하지 않고 문법적으로 복잡하지 않은 글이라면 탐지기는 작성자가 사람이 아니라고 판단할 가능성이 훨씬 더 높”다고 지적합니다. (Paris, 2024)
흥미로운 것은 텍스트의 복잡도를 나타내는 각종 공식이 글의 품질을 평가하는 데 있어서 객관적인 지표로 사용되는 경우가 많다는 것입니다. 인간 평가자의 인상에 의존하는 것보다 텍스트 복잡도를 구하는 공식을 사용할 경우 더욱 과학적이라고 인식되는 것이지요. 그렇다면 인공지능 생성 텍스트 감지 알고리즘은 과학성을 빌미로 비원어민을 차별하고 있는 셈입니다. 적어도 이 구도에서만큼은 객관적이고, 과학적이며, 정확한 수치로 표현되는 판단 기준이 비원어민의 존재를 지우고 있습니다.
비원어민은 인간이 아니다!
그간 비원어민은 원어민 중심주의의 강력한 자장 하에서 차별과 배제를 겪어 왔습니다. 대부분의 국제 학술지가 출판의 언어로 영어를 택하고 있는 상황에서 영어 원어민 화자가 유리하다는 것은 부인할 수 없는 사실입니다. 아울러 원어민은 언어에 대한 문법성 판단을 비롯한 언어 관련 과업 및 직무수행에서 다양한 혜택을 누립니다. 영어 화자의 경우 이러한 언어적 권위가 종종 문화적 우월성에 대한 지표로 이해, 아니 오인되곤 하지요. (스와힐리어 원어민 화자에 비해 영어 원어민 화자가 더욱 ‘우월한’ 문화를 향유하고 있다는 차별적 편견을 생각해 보세요.) 이에 대한 성찰과 비판이 꾸준히 이루어져 왔지만, 여전히 영어 원어민 중심주의는 한국을 비롯한 비영어권 국가에서 강하게 작동하고 있습니다.
생성형 인공지능이 본격적으로 사용되기 시작하는 지금, 우리는 차별의 새로운 양상과 만납니다. 교육의 장에서 종종 사용되는 생성 텍스트 탐지기가 비원어민의 글을 기계가 쓴 글로 오인하고 있으니, 비원어민을 아예 비인간으로 판단하고 있는 형국입니다. 비원어민은 인간이 아닌 것이지요. 인공지능 기술의 급속한 확산 속에서 이제까지 인간 간의 위계를 만들어 온 언어차별 및 사회경제적 관행과는 다른 양상의 기술권력이 작용하고 있는 것입니다.
이 상황에서 대부분이 한국의 영어교사들은 어떤 입장을 가져야 할까요? 생성형 인공지능을 마음껏 이용하되, 비원어민처럼 안 보이게 하는 ‘꿀팁’을 집중적으로 가르쳐야 할까요? 이러한 방법은 교육적으로 바람직하지 못합니다. 문제의 본질을 직면하지 않고, 임시방편적이며 순응적인 대응을 꾀하는 것이니까요. 비원어민이라는 것이 숨겨야 할 죄도 아닌데 왜 이렇게까지 가르쳐야 하는지 모르겠다는 마음도 듭니다. 만약 ‘비원어민임을 숨기는 법’을 가르친다면, 우리는 우리 자신을 수치스럽게 생각하는 교육을 한게 되는 것이지요. 이러한 면에서 교육은 표준화된 평가 기준 성취로 환원될 수 없습니다. 자신을 온전히 받아 안는 과정 또한 교육의 핵심적인 가치입니다.
생성형 인공지능을 활용하는 활동을 완전히 배제할 수 없다면, 기술이 가지는 효율성과 생산성에 대해 이야기하기 전에, 그것이 우리의 말글을, 나아가 우리 자신의 존재를 어떻게 다루는지 명확히 이야기해야 합니다. 학생들은 인공지능이 우리를 돕는 도구이면서 때로 우리를 인간 취급하지 않는 알고리즘이라는 점을 알 권리가 있습니다.
<참고자료>
Liang, W., Yuksekgonul, M., Mao, Y., Wu, E., & Zou, J. (2023). GPT detectors are biased against non-native English writers. Patterns, 4(7).
Paris, J. (2024 Feb 2). First Do No Harm: Jamie Paris asks if international students are being racially profiled when it comes to AI-related academic misconduct. Inside Higher Education.
#생성형ai와삶을위한리터러시