AI 시대 영어 격차의 진실

한국어 데이터 사이언티스트가 반드시 알아야 할 언어 비대칭성과 생존 전략

by AI개발자
한국AI생존전략.png

"영어를 할 수 있는 사람과 할 수 없는 사람 사이에, AI 활용 방식에서 이렇게까지 차이가 날 줄은 몰랐다"


이것은 내가 2024년 이후, 복수의 기업에서 AI 도입 지원을 하는 과정에서 반복해서 들은 말이다.

ChatGPT가 등장했을 때, 많은 사람이 "이제 언어의 장벽이 없어진다"고 기대했다. 번역 AI가 고정밀도가 되어, 영어를 못해도 영어권의 정보에 접근할 수 있는 시대가 될 것이라고 이야기를 했다.


확실히, 그 부분은 맞다. DeepL이나 ChatGPT 덕분에, 영어 문장을 읽는 장벽은 극적으로 낮아졌다.

그러나 현실은 다른 방향으로 나아가고 있다. AI 시대에 들어서서, 영어 화자와 한국어 화자의 정보 격차는 줄어들기는커녕, 구조적으로 확대되고 있다.


이번에는, 그 '보이지 않는 격차'의 정체를 기술적인 근거에서 풀어낸다.



문제의 핵심: AI는 영어로 가장 잘 생각한다

먼저 기술적 사실부터 확인하자.

현재 세계에서 사용되고 있는 LLM의 학습 데이터는, 영어가 압도적인 다수를 차지한다. 앞 장에서도 언급했지만, 웹 콘텐츠의 영어 점유율은 50% 초과, 한국어는 약 0.6~0.8% 수준이다.


학습 데이터의 양이 언어 능력에 직결되기 때문에, 영어에 관해서는 '이해의 깊이'가 다른 언어와 근본적으로 다르다.

더욱이 기술적인 비용 문제가 있다. 같은 정보량을 표현하는 경우, 토큰 수는 영어<한자·한글<조사·어미 변화의 순으로 많아지는 경향이 있다. 영어 문장에 비해 한국어는 약 1.5~2배의 토큰 수가 필요한 경우가 많다는 분석이 있다.


토큰이란 LLM이 텍스트를 처리하는 최소 단위다. 영어에서는 단어 단위로 토큰화되는 경우가 많지만, 한국어처럼 조사와 어미 변화가 결합되는 교착어는 처리 효율이 낮다. 특히 영어 위주로 설계된 토크나이저에서 한국어를 처리할 때, 의미 단위로 분할되지 않고 음절 단위로 쪼개지는 현상이 발생한다.


한국어로 AI를 사용하면, 영어의 약 1.5~2배의 비용과 처리 부하가 걸린다. 기업이 AI 시스템을 구축할 때, 이 차이는 누적되면 무시할 수 없는 규모가 된다.


그러나 비용보다 훨씬 심각한 문제가 있다. 성능 차이다.


LLM의 다언어 능력을 조사한 연구에서는, 영어 등의 고자원 언어와 저자원 언어 사이에 존재하는 성능 차이가 지적되고 있다. 특히 추론을 수반하는 복잡한 태스크에 속하는 전략적인 분석, 인과관계 파악, 맥락을 밟은 판단에서, 영어로의 지시 쪽이 품질 높은 출력을 얻기 쉬운 경우가 많다.


한국어로 질문한 경우, LLM은 한국어 쿼리를 영어로 내부 변환하고, 영어의 훈련 데이터로 길러진 지식을 기반으로 회답을 생성한 후, 다시 한국어로 변환하는 프로세스를 거치는 경우가 많다.


이 '한국어→영어→사고→한국어'라는 변환 과정에서, 정보는 반드시 열화된다. 영어 화자가 직접 영어로 생각하고, 영어로 문제를 제기하고, 영어로 답을 받는 프로세스와 비교하면, 명확한 핸디캡이다.



연구자에게 나타난 '2배의 핸디캡'

이 문제는, 연구의 세계에서 특히 심각한 형태로 가시화되고 있다.

오스트레일리아 퀸즐랜드 대학의 연구팀이 한국을 포함한 비영어권 8개국 연구자 908명을 대상으로 조사를 실시한 결과, 영어를 모국어로 하지 않는 연구자는 논문의 읽고 쓰기에 최대 2배의 시간이 필요하고, 영어의 질을 이유로 논문이 리젝되는 빈도도 약 2.5배 높은 등, 과학적 활동 전반에서 명확한 핸디를 지고 있다는 것이 정량적으로 나타났다.


논문 읽고 쓰기에 2배의 시간. 같은 연구 능력을 가진 인간이, 그저 사용하는 언어가 영어가 아니라는 이유만으로, 생산성이 반이 된다.


한국의 연구자들도 이 현실과 무관하지 않다. 한국 과학기술계에서 글로벌 경쟁력을 유지하기 위해 영어 논문 작성이 필수화되어 있지만, 그 과정에서 비영어 모국어 화자로서의 시간 비용은 여전히 크게 발생하고 있다.

AI 시대 이전부터 존재했던 이 격차가, AI의 등장에 의해 사라질 것이라 기대되었다. 그러나 실태는 다르다. 최신 연구·기술 정보는 여전히 영어로 발신된다. AI의 최신 논문은 arXiv에 영어로 투고된다. 새로운 모델의 문서는 영어로 쓰인다. 최첨단 구현 예시와 튜토리얼은 GitHub에서 영어로 공유된다.


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
AI개발자작가님의 멤버십을 시작해 보세요!

AI Workflow Architect, LLM Engineer, Vibe Engineering, Claude Code, AI 업무 자동화 컨설팅/AI강의

98 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 78개의 멤버십 콘텐츠 발행
  • 총 98개의 혜택 콘텐츠
최신 발행글 더보기
이전 10화한국 직장인 리스킬링 실패하는 이유