세계의 지붕에서 울려 퍼지는 '말'
티베트는 세계의 지붕이라고 불립니다. 그리고 티베트에는 한 가지 말만 있는 것이 아닙니다. 티베트 중앙에서 쓰는 언어는 위창어라고 합니다. 그리고 지역에 따라 암도어와 캄어로 구분이 됩니다. 물론 해당 언어들에 대한 번역을 진행하긴 했으나 너무 많아서 이번에는 위창어만 소개하기로 하겠습니다.
티베트 위창어는 티베트 고원 중앙지역에서 사용되는 표준 티베트어입니다. 8세기 이후로 강력한 문어(文語) 전통과 광대한 문헌을 보유하고 있습니다. 불교 경전입니다. 고유의 문자체계도 있습니다. 티베트 문자입니다. 이 것은 인도 브라흐미 문자에서 유래한 것입니다. 불교 경전을 기록하는 주요 기록 수단이기도 했습니다.
그런데. 1950년에 중국이 티베트를 침공합니다. 그래서 티베트의 지도자인 달라이 라마가 1976년에 망명을 결정하기도 합니다. 그리고 이후에 문화 대혁명이 일어납니다. 천안문 사태도 있지만 그때 많은 사원을 파괴하고 승려들을 학살했습니다. 그리고 전해 내려 오는 경전들을 소각해 버립니다.
현재 티베트는 감시 사회입니다. 위구르처럼 표준 중국어를 강제하고 사원을 통제하고 있으니까요. 그렇다면 사회에서 티베트어가 어떤 식으로 탄압되고 있을지 상상이 됩니다. 위구르어와 같은 입장인 겁니다.
티베트에서는 어린이들을 중국식 기숙사에 강제 수용하고 표준 중국어로만 교육합니다. 언어 수업 통제는 당연합니다. 티베트어 수업을 최소화하고 중국어 수업으로 대체하고 있습니다. 언론과 출판 역시도 통제하고 있습니다. 티베트어 미디어를 줄여버리고 있는 것입니다. 따라서 현대 문화 콘텐츠를 만들어 낼 수 없습니다.
제가 지난 번역에서 '문화적 전이'현상이 있는 것을 이야기했습니다. 분명 제가 번역한 것은 서정시입니다. 그런데 AI는 그것을 기도문으로 재창조한다거나 형태를 바꾸기도 합니다. 언어 코퍼스가 없기 때문에 일어난 일입니다. 만약 이런 언어들이 소멸한다면? 세월이 지나서 언어의 의미를 어떻게 알아볼 수 있을까요?
번역에 대해서 잠시 이야기해보려 합니다. 티베트어는 우리말과 어순이 같습니다. 주어-목적어-동사 순입니다.(SOV) 다만 문어체적인 성격이 강하기 때문에 구어체로 된 현대시의 정서를 담는 것이 힘듭니다. 거기다가 위창어는 교착어적 성격이 강합니다. 형태가 유사하기 때문에 문법적 오류는 적을 수 있습니다. 다만 의미론적인 치환이 심해질 수 있습니다.
잃어 버렸습니다
무얼 어디다 잃었는지 몰라
두 손이 주머니를 더듬어
길에 나아갑니다
돌과 돌과 돌이 끝없이 연달아
길은 돌담을 끼고 갑니다
담은 쇠문을 굳게 닫아
길 위에 긴 그림자를 드리우고
길은 아침에서 저녁으로
저녁에서 아침으로 통했습니다
돌담을 더듬어 눈물짓다
쳐다보면 하늘은 부끄럽게 푸릅니다
풀 한 포기 없는 이 길을 걷는 것은
담 저쪽에 내가 남아 있는 까닭이고
내가 사는 것은, 다만,
잃은 것을 찾는 까닭입니다
그 길을 잃었다.
어디에서 잃었는지조차 알 수 없다.
두 손으로 배낭을 찾으며, 길을 걸었다.
돌과 돌, 돌과 돌, 끝없이 이어져 있었다.
돌담으로 둘러싸인 길을 걸었다.
그 담장에는 쇠문이 굳게 닫혀 있어,
길 위에 긴 그림자가 드리워져 있었다.
그 길은 아침부터 저녁까지, 저녁부터
아침까지 끊임없이 이어져 있었다.
돌담에 기대어 눈물을 흘렸다.
고개를 들어보니, 하늘은 부끄러운 듯 푸르렀다.
풀 한 포기 없는 이 길을 걷는 까닭은,
내가 담장 너머에 남겨졌기 때문이다.
내가 살아가는 이유 또한,
잃어버린 그것을 찾기 위함일 뿐이다.
인공지능(AI) 기반 번역 기술은 오늘날 언어학에서 가장 흥미로운 분야 중 하나입니다. 특히 한국어와 티베트 위창어처럼 언어의 뿌리(어족)와 문법 체계가 완전히 다른 두 언어 사이의 번역은 단순한 단어 대 단어 치환을 훨씬 뛰어넘는 심층적인 과정을 요구합니다.
이 글은 "AI는 티베트 위창어를 어떻게 한국어로 번역했을까?"라는 질문을 중심으로, AI가 이질적인 언어 쌍 사이에서 문법적 구조를 어떻게 이해하고, 변환하며, 재구성하는지 그 원리를 탐구합니다. 이는 AI가 단순히 텍스트를 옮기는 것을 넘어, 각 언어가 가진 고유한 문법적 '사고방식'을 이해하고 재현하려 노력하는 과정을 보여줍니다.
AI 번역의 핵심인 신경망 기계 번역(NMT) 모델은 방대한 양의 번역 데이터를 학습하여 두 언어 간의 복잡한 문법적, 의미적 관계를 통계적으로 익힙니다. 한국어와 티베트어 번역에서 AI가 직면하는 주요 도전과 그 해결 원리는 다음과 같습니다.
어순(Word Order)의 처리: 다행히 한국어와 티베트어 모두 주어-목적어-동사(SOV)라는 기본 어순을 따릅니다. 하지만 문장 내에서 부사구나 수식어가 놓이는 위치, 또는 강조를 위한 어순 변화 등 미묘한 차이가 존재합니다. AI는 인코더(Encoder)가 원문의 어순을 이해하고, 디코더(Decoder)가 대상 언어의 자연스러운 어순으로 재배열하는 과정을 수행합니다.
형태론(Morphology)의 변환: 한국어는 '달리-는-다'처럼 단어의 뿌리(어근)에 다양한 접사(조사, 어미)를 붙여 문법적 관계를 나타내는 교착어입니다. 티베트어 역시 복잡한 동사 활용과 명사의 격을 표시하는 후치사(postposition)를 사용합니다. AI는 각 언어의 형태소를 분석하여, 이에 상응하는 문법적 기능을 대상 언어에서 찾아 매핑합니다. 예를 들어, 한국어의 '을/를'과 같은 목적격 조사는 티베트어의 특정 후치사나 동사 활용 형태로 번역될 수 있습니다.
주어/목적어의 명시성: 한국어는 문맥상 주어나 목적어가 명확하면 과감하게 생략하는 경향이 강합니다. 반면 티베트어는 문법적으로 이들을 비교적 명시적으로 표현하는 것을 선호할 수 있습니다. AI는 원문에서 생략된 정보를 문맥을 통해 추론하고, 대상 언어의 문법 규칙에 맞춰 이를 되살리거나 다시 생략하는 복잡한 결정을 내립니다.
동사 구문 및 시제 처리: 두 언어는 동작의 시간(시제), 지속성(상), 말하는 이의 태도(양태)를 표현하는 방식이 다릅니다. AI는 원문 동사 구문이 나타내는 총체적인 의미를 파악한 뒤, 티베트어에서 가장 적절한 동사 형태, 조동사, 또는 어미를 선택하여 의미를 옮깁니다.
윤동주 시 **「길」**의 한국어 원문과 티베트어 역번역문을 살펴보면 AI가 문법적 변환을 어떻게 수행하는지 구체적으로 알 수 있습니다.
한국어 원문에서 "잃어 버렸습니다"는 주어와 목적어가 생략된 채 동사만 있습니다. AI는 문맥상 목적어가 '길'임을 추론하고, 티베트어 번역에서는 "그 길을 잃었다"처럼 목적어를 명시적으로 추가했습니다. 이는 AI가 번역의 명확성을 위해 티베트어 문법 관습을 따른 것입니다. 또한, 한국어의 '버렸습니다'라는 완료형을 티베트어의 '잃었다'라는 단순 과거형으로 조정하여, 의미는 유지하되 문법 형태를 대상 언어에 맞췄습니다.
"길은 돌담을 끼고 갑니다"라는 한국어 원문은 '길'을 주어로 하여 능동적인 움직임을 묘사합니다. 그러나 티베트어 역번역은 "돌담으로 둘러싸인 길을 걸었다"처럼 '돌담으로 둘러싸인'이라는 수동적/상태적 표현을 사용하여 '길'을 수식하고, 주체는 암묵적으로 '화자'로 전환됩니다. AI는 원문의 의미를 보존하면서도, 대상 언어의 관습에 맞춰 문장 구조를 완전히 재구성하는 유연성을 보여줍니다.
또 다른 예로, "두 손이 주머니를 더듬어 / 길에 나아갑니다"라는 구절에서 한국어의 "두 손이"는 주격이지만, 티베트어 번역에서는 "두 손으로"라는 도구격으로 해석되었습니다. AI는 '손'이 행위의 주체이면서 도구로도 쓰인다는 점을 이해하고, 티베트어 문법에 맞는 도구격 조사를 선택했습니다. 심지어 "주머니"를 "배낭"으로 번역하는 어휘 선택의 확장도 보여주는데, 이는 AI가 단순한 사전적 의미를 넘어 문맥상 가장 자연스러운 어휘를 추론했음을 의미합니다.
"하늘은 부끄럽게 푸릅니다"에서 한국어의 현재 시제 '푸릅니다'가 티베트어 역번역에서 과거 시제 '푸르렀다'로 변환된 것은, 시 전체의 서술 시제와 일관성을 맞추려는 AI의 문맥적 판단을 보여줍니다.
또한 "내가 사는 것은, 다만, / 잃은 것을 찾는 까닭입니다"라는 구문에서 한국어의 강조 표현 '다만'은 티베트어에서 '또한'과 '뿐이다'로 분리되어 번역되었습니다. 이는 AI가 원문의 '단순함' 또는 '유일함'이라는 강조를 티베트어에서 더 명확하게 표현하기 위해 두 가지 요소를 사용했음을 보여줍니다.
위 사례들은 AI가 한국어와 티베트어 간의 문법적 간극을 메우는 복잡한 과정을 성공적으로 거쳤음을 증명합니다. 그러나 여전히 다음과 같은 미묘한 차이와 도전 과제가 존재합니다.
어휘의 미묘한 의미 차이: '주머니'와 '배낭'의 사례처럼, AI는 문맥에 가장 적합한 어휘를 선택하려 하지만, 시와 같은 문학 텍스트에서는 원문의 미묘한 뉘앙스를 완전히 포착하지 못할 수 있습니다.
시적 표현과 운율의 손실: 시는 단순한 의미 전달을 넘어 반복, 리듬, 비유 등 다양한 문학적 장치를 사용합니다. AI는 문법적 정확성은 높일 수 있지만, "돌과 돌과 돌이 끝없이 연달아"와 같은 반복과 리듬이 주는 감성적 울림은 번역 과정에서 손실되기 쉽습니다.
문화적 맥락의 깊이: 언어는 문화와 깊이 연결되어 있어 특정 표현은 해당 문화적 맥락 없이는 이해하기 어렵습니다. AI는 방대한 데이터를 통해 지식을 간접적으로 학습하지만, 인간 번역가처럼 깊이 있는 문화적 이해를 바탕으로 번역하기는 여전히 어려운 과제입니다.
AI는 티베트어와 한국어 번역에서 단순히 단어를 옮기는 것이 아니라, 두 언어의 고유한 문법적 체계를 이해하고, 원문의 의미를 대상 언어의 문법적 틀 안에서 **'재창조'**하는 복잡한 과정을 거칩니다. 이는 형태론적 분석, 구문론적 재구성, 그리고 의미론적 매핑을 포함하는 다층적인 작업입니다.
AI 번역은 언어 간의 문법적 다리를 놓는 기술적 진보를 넘어, 언어와 사고방식의 다양성을 이해하려는 인류의 노력을 반영하는 중요한 도구로 자리매김하고 있습니다.