AI, 너 내 말투 마음에 안 들지?

AI는 어떻게 언어를 없애고 지배하는가

by 먀 ai

[2025년 9월 30일 먀 AI 뉴스레터로 발행한 글입니다.]

376c1635eed147f68c533862108c9acb.png


성경 이래로 가장 야심찬 다중언어 프로젝트가 뭔지 아시나요?

fff9416624f24833b168aee0c416f4a5.png

바로 '위키피디아(Wikipedia)' 입니다. 누구든 작성에 기여할 수 있는 온라인 지식 백과인 위키피디아는 340여 개 언어로 운영되고 있는데요. 2003년에 개설된 그린란드어 게시판은 작년(2024년)에 결국 폐쇄했습니다. AI를 비롯한 기계 번역에 기반한, 부정확한 자료가 점점 많아지면서 언어를 보존하기 어려워졌기 때문이지요. 오늘은 AI가 언어의 소멸을 어떻게 가속화시키는지, 그리고 하나의 언어 안에서도 어떻게 차별을 만들어 내고 있는지 알아보겠습니다.


콩을 심었는데 어떻게 팥이 나요...

위키피디아에는 영어로 된 자료가 가장 많습니다. 말하는 이가 적은 언어에 기반한 자료실에는 당연히 문서 수가 턱없이 적은데요. 이 격차를 메우기 위해, 일부 사용자는 AI 등을 활용한 기계 번역에 의존해 문서를 양산하기 시작했습니다. 그 결과 소규모 언어 자료에는 자동 번역을 거친 문서들로 뒤덮이게 되었지요. 문제는 품질이었는데요. 오역뿐만 아니라 번역 엔진이 적당한 단어를 찾지 못해 뱉어낸 무의미한 문자 나열도 보였습니다. 서아프리카 풀라니족이 사용하는 풀라니어로 번역 테스트를 해보았는데요. 결과를 보실까요?

efb706a3c6ab432abe1b955bcc067932.png
62eec68dc1fb4b149ed02d8fc79536c0.png 챗GPT가 번역한 풀라니어를(위) 구글 번역으로 돌린 결과(아래). 파인애플이 맛있긴 하지만, 저렇게 번역하면 곤란하다. 출처: 먀 AI 뉴스레터


챗GPT와 같은 대규모 언어 모델과 번역기는 인터넷의 방대한 텍스트를 긁어모아 학습하는데요. 화자 수가 적은 언어는 온라인에서 긁어모을 수 있는 자료가 부족하다 보니, 위키피디아 번역문이 학습 자료로 자주 쓰이고 있습니다. 2020년 연구에 의하면 일부 아프리카어 번역 모델의 경우, 학습 데이터의 절반 이상이 위키피디아로 추정되었습니다. 또 2022년에는 자료를 찾기 힘든 27개 언어에 대해 인터넷에서 쉽게 수집 가능한 자료는 위키피디아 뿐이라는 보고도 있었지요. 사용자가 많아 학습할 자료도 많은 언어들과 다르게, 위키피디아가 자료의 지분을 크게 차지하는 상대적 소수 언어는 위키피디아 자료의 품질에 번역기나 AI가 제공하는 정보에 영향을 크게 받습니다.


결국 AI는 아주 간단한 원리로 돌아간다고 볼 수 있습니다:

쓰레기를 넣으면 쓰레기가 나온다
Garbage in, garbage out


우리 말 표현으로는 '콩 심은 데 콩 나고 팥 심은 데 팥 난다'와 같은 의미지요. 위키피디아에 잘못 올라간 번역글은 결국 AI의 잘못된 학습으로 이어집니다. 잘못 학습한 AI는 다시 또 엉터리 출력을 하겠지요. 악순환이 지속되는 구조입니다.


이건 AI를 앞세운 문화적 약탈이야!

아베나키어는 전 세계에서 10명 미만이 사용하는 멸종 위기 언어입니다. 어느 날 아베나키어 교사인 멜라니 오봄사윈은 온라인 쇼핑몰 아마존에서 아베나키어 학습서를 발견했는데요. 책 안에는 아베나키어가 아닌 단어는 물론, 언어 특성상 존재할 수 없는 문법 요소까지 당당하게 기재되어 있었습니다. 게다가 저자로 표기된 언어학자는 이 책의 존재조차 모르고 있었지요. 이 책은 AI가 생성한 것으로 추정되며, 이 외에도 수천 권의 엉터리 언어 학습서가 아마존에서 판매되고 있었습니다.

d4c28afab946464aa2f26b12eec33622.png AI가 만든 것으로 추정되는 책과 작가 소개. 출처: 아마존

전문가들은 아래 이유로 AI 번역 남용을 '문화적 약탈'이라고 표현합니다:

이미 소멸 위기에 처한 언어를 지키려는 공동체가 사실상 존재하지 않는 학습 자료 때문에 혼란을 겪는다.

의욕 있는 학습자들은 잘못된 자료를 믿고 학습해 오히려 언어 보존에 해를 끼칠 수 있다.

누군가가 이런 자료로 상업적 이득을 취하는 것은 공동체 입장에서는 2차 피해다.


격주로 하나씩 언어가 사라진다는 유네스코 통계가 있습니다. 언어 소멸은 이미 진행 중인 문제지요. 하지만 AI 남용으로 인한 급격한 소멸은 조금 다른 이야기입니다. 디지털 생태계에서 밀려났단 이유로, 한 언어가 더욱 탄탄해지고 사용 인구를 늘릴 수 있는 기회를 애초부터 박탈당하기 때문이지요.


이제, AI로 인해 하나의 언어 안에서 벌어지는 일을 살펴보고자 합니다. 시선을 영어로 함께 돌려보실까요?


AI, 내 말투도 바꾸려는 거야?

미국의 한 코미디 방송에서, 어쩜 그리 영어를 잘 하냐는 사회자의 질문에 여자가 답합니다.

그야... 난 호주 사람이고 호주에서는 영어를 쓰기 때문이죠.


영어는 다양한 방언을 지닌 언어입니다. 우리가 익숙한 표준 미국식이나 표준 영국식 영어 외에도, 인도식, 나이지리아식, 아일랜드식, 자메이카식 등 수많은 영어 변종이 존재합니다. 원어민만 해도 10억 명 이상이 표준을 벗어나는 영어를 사용하는데요. 언어를 학습한 AI 모델이 생기면서 묘한 상황이 포착되었습니다. 바로, 챗GPT가 미국식 '표준' 영어를 지향한다는 점인데요. 미국에서 만든 챗GPT가 미국식 영어를 지향하는 게 무슨 문제일까요?


GPT-3.5 모델의 경우 미국식 영어 표현을 압도적으로 선호해, 비표준 방언이 섞인 질문을 받아도 표준 미국 영어로 답변하는 비율이 높았습니다. Colour나 centre와 같이 영국식 철자가 쓰이면, AI는 거의 예외 없이 미국 철자로 '교정'해 주었습니다. 전 세계 챗GPT 사용자 중 미국 비중은 15% 남짓에 불과한데도, 챗GPT는 다수의 사용자가 사용한 영어 표기를 굳이 미국식으로 통일해 버렸지요.

372660ab93ae4fb69e8092d485dd4499.png 다양한 영어 방언 입력과 출력을 비교하는 차트. 출처: 논문


위 그래프는 GPT-3.5가 다양한 영어 변종으로 입력을 받았을 때, 출력에서 철자 사용이 어떻게 바뀌는지를 보여줍니다. AAE는 아프리카계 미국인 영어, SBE와 SAE는 각각 표준(Standard) 영국식, 그리고 미국식 영어를 의미합니다. 보시면 거의 모든 방언에서 미국식 철자 비중(붉은색)은 늘어나고, 영국식 철자 비중(노란색)은 줄어들었지요?


얼핏 사소한 차이처럼 보이지만, 이는 AI가 언어적 다양성을 유지하기보다는 하나의 중심 언어를 기준으로 삼아 다른 변종을 지워버리는 방향으로 가고 있음을 보여줍니다. 실제로, 사용자가 늘어나면서 챗GPT가 자주 사용하는 단어들이 사람들의 말 버릇에 영향을 미치고 있다는 연구 결과도 있습니다!




2024년에는 총 748개의 단어가 국립국어원에 의해 표준국어대사전에 등재되었습니다.

7205753a0ba6489f9adf7c2188661310.png 표제어 추가 알림. 출처: 국립국어원


언어는 생기고, 사라집니다. 이를 언어의 생명력이라고 부르지요. 자연스러운 현상입니다. 하지만 AI로 인해 소수가 사용하는 언어가 급격히 망가지고, 또 다수가 사용하는 방언으로 은밀하게 유도당하는 건 자연스럽지 않습니다.


나라를 점령하면 가장 먼저 언어를 빼앗습니다. 식민지를 겪은 많은 국가가 지금까지 지배 국가의 언어를 사용하기도 하지요. 언어는 생각을 표현하는 가장 직접적인 도구입니다. 지배 당하는 중은 아닌지, 우리는 늘 깨어 있어야 합니다.


참고자료
- 논문 <Linguistic Bias in ChatGPT: Language Models Reinforce Dialect Discrimination>


먀 AI 뉴스레터: 단순 트렌드 나열이 아닌, '진짜' 인공지능 이야기
구독하기: https://mmmya.stibee.com/


keyword
매거진의 이전글AI 심리치료, 아직 위험한 이유