02화. MEJE Works식 세계관 데이터 번역 설계

부제: 1개의 데이터로 39개 언어를 제어하는 원리

by 김동은WhtDrgon

1. 데이터가 먼저, 번역은 나중

1화에서 우리는 AI 번역이 왜 실패하는지 확인했습니다. 이제 해결책을 보겠습니다.


MEJE Works의 핵심은 단순합니다. 번역 전에 데이터를 만든다. 번역하면서 데이터를 수정하지 않습니다. 데이터가 완벽하면, 번역은 자동으로 따라옵니다.


많은 창작자들이 세계관을 '설정집'이나 '배경 자료' 정도로 생각합니다. 하지만 우리는 세계관을 데이터베이스로 봅니다. 그리고 번역은 이 데이터베이스를 다른 언어 체계로 '렌더링'하는 연산 과정입니다.


우리가 구축할 시스템은 단순히 한국어를 영어로 바꾸는 번역기가 아닙니다. 일종의 SSOT(Single Source of Truth) 를 만들고, 이를 통해 39개 언어로 동시에 파생되는 '다국어 세계관 시스템'을 설계할 것입니다.


지금부터 그 작동 원리를 보여드리겠습니다.


2. AI의 뇌를 해킹하다. 문장 대신 키워드

MEJE Works 방식의 핵심은 "문장이 아닌 키워드로 세계를 정의한다"는 것입니다.


문장의 함정

대부분의 창작자는 세계관을 이렇게 기록합니다:

"이계의 검은 특수한 '심장석'을 넣어 제작하며, 사용자의 마나와 공명하여 고유한 능력을 발휘한다."

이것은 서술형 설명입니다. 사람이 읽기에는 좋지만, AI에게는 최악입니다. 왜냐하면:

AI는 이 문장을 읽고도 '심장석', '마나', '공명'이 각각 어떻게 번역되어야 하는지 스스로 판단해야 합니다.

원고 20만 자를 번역하다가 5만 자 지점에서 '심장석'이 나왔을 때, AI가 이 설명 문장을 찾아낼 방법이 없습니다.

이 설명을 영어로 번역하면 또 다른 영어 문장이 되고, 그것을 다시 프랑스어로 번역하면 원본과 의미가 달라집니다.


키워드의 힘


반면, MEJE Works는 이렇게 정의합니다

Keyword: 심장석

Type: Common Noun (Magic Item Component)

Gender: Neutral

Korean: 심장석

English: Heartstone

Japanese: 心臓石 (しんぞうせき)

Spanish: Piedra Corazón

French: Pierre de Cœur

Description: Magical gemstone used as sword core, resonates with user's mana

Directive: Always use 'Heartstone' in English, never 'Heart Stone' or 'Core Stone'


이제 AI는

'심장석'이 마법 아이템 구성요소임을 압니다.

영어로는 'Heartstone' (한 단어)이어야 한다는 것을 압니다.

39개 언어 각각에 어떻게 표기되는지 정확히 압니다.

추측하거나 확률 계산할 필요가 없습니다.


이것이 키워드입니다. 키워드는 문장이 아니라 구조화된 데이터입니다.


언어학자들은 이런 개념의 최소 단위를 '의미소(Sememe)'라고 부르기도 합니다만, 우리에게 중요한 것은 학술 용어가 아닙니다. 중요한 것은 이 방식으로 정의하면 AI가 오역할 수 없다는 사실입니다.


세계관 = 키워드 클라우드


스타워즈를 떠올려 보십시오. 스타워즈 세계관의 본질은 무엇입니까?

Lightsaber, Force, Jedi, Sith, Padawan, Clone, Droid, Millennium Falcon...

이 단어들입니다. 이 키워드들이 서로 연결되어 하나의 거대한 의미망을 구성합니다. 스타워즈의 진짜 자산은 영화 대본이 아니라, 이 키워드 클라우드입니다.


여러분의 세계관도 마찬가지입니다.

판타지라면: "마나, 서클, 마법진, 정령, 용족..." 게임이라면: "스킬, 쿨타임, 버프, 디버프, 레이드..." 현대 로맨스라면: "계약 결혼, 일진, 재벌 2세..."

이 키워드들을 데이터로 정의하는 순간, 여러분의 세계관은 번역 가능한 형태가 됩니다.


3. MEJE Works 4단계 파이프라인

이제 이론을 실무로 옮겨봅시다. 우리는 총 4단계의 파이프라인을 거쳐 번역을 완성합니다.

이 구조는 공장의 생산 라인처럼 작동합니다. 원료(한국어 원고)가 들어가면, 4단계를 거쳐 완제품(39개 언어 번역본)이 나옵니다.


STEP 1. 정의 (Definition) 세계관의 헌법 제정

"AI가 추측할 여지를 0%로 만든다"

첫 번째 단계는 번역이 아닙니다. 규칙의 선언입니다.


우리는 Glossary.csv라는 파일에 세계관의 모든 고유명사와 특수 용어를 정의합니다. 여기서 중요한 것은 '강제성(Directive)'입니다.

AI는 확률 모델입니다. "다음에 올 단어"를 확률적으로 계산합니다. 글로서리는 이 확률 계산을 강제로 중단시킵니다.

AI의 일반적 작동:

"불의 창" 입력 → 확률 계산 → 70% Spear of Fire, 20% Flame Lance, 10% Fire Spear

글로서리 적용 후:

"불의 창" 입력 → 글로서리 검색 → Directive 확인 → 100% Flame Lance

AI는 이제 추측을 멈추고 준수를 시작합니다.


PART 1(04~13화)에서 우리는 이 글로서리를 완벽하게 만드는 법을 배웁니다. 음역과 의역을 언제 쓸지, 성별 정보를 왜 넣어야 하는지, 39개 언어를 어떻게 한 번에 관리하는지. 지루해 보일 수 있지만, 이것이 전체 시스템의 기초입니다.


STEP 2. 정규화 (Normalization) 한국어를 한국어로 번역하라

"AI가 이해할 수 있는 완벽한 한국어 만들기"


두 번째 단계는 원문 가공입니다.

한국어는 고맥락 언어입니다. 주어를 생략해도 되고, 목적어가 없어도 문장이 성립합니다. 현대 언어학에서는 이를 '주어 생략 언어(Null-subject language)'라고 부릅니다만, 핵심은 간단합니다. 한국어는 AI가 이해하기 어렵게 생겼다는 것입니다.


우리는 한국어 원문을 '언어 중립적 한국어(Language-Neutral Korean)'로 재작성합니다. 이 문장으로 교체하는 것이 아닙니다. 원문과 함께 AI에게 제공되는 것으로 ‘문장 원형’같은 역할을 합니다.


변경 전:

"그녀가 망설였다. 하지만 선택의 여지가 없었다."

변경 후:

"마법사 엘리아[여성]가 망설였다. 하지만 엘리아에게는 선택의 여지가 없었다."


무엇이 바뀌었습니까?

주어 복원: "그녀가" → "마법사 엘리아[여성]가"

지시 대상 명시: 두 번째 문장에 "엘리아에게는"으로 주어 재명시

성별 태그: [여성] 태그로 프랑스어, 스페인어 등에서 관사/형용사 일치


존비어(Honorifics) 전처리 예시

한국어 웹소설이나 게임에서 가장 까다로운 '존댓말/반말' 관계도 데이터로 명시합니다.

원본: "김철수가 부장에게 말했다. '알겠습니다.'"

전처리 후 (마스터 텍스트): "김철수[하위자/존댓말]가 부장[상위자]에게 말했다. '알겠습니다.'"

번역 결과 (일본어): "キム・チョルスは部長に言った。「かしこまりました。」"

번역 결과 (영어): "Kim Cheolsu said to the manager, 'Certainly, sir.'"


[존댓말] 태그 하나 때문에 일본어는 정중한 표현 Keigo로, 영어는 'Sir'가 붙은 Formal Tone으로 변환되었습니다. 이렇게 정규화된 원문을 우리는 마스터 텍스트라고 부릅니다. 이것이 있으면 일본어든, 아랍어든, 독일어든 동일한 품질로 변환됩니다.


PART 2(14~21화)에서 우리는 전처리의 모든 기술을 배웁니다. 존댓말/반말을 데이터로 어떻게 명시하는지, 단수/복수를 어떻게 구분하는지, 아랍어의 오른쪽→왼쪽 쓰기를 어떻게 처리하는지까지.


STEP 3. 최적화 (Optimization): 콘텐츠 유형별 맞춤 설계

"게임은 게임대로, 소설은 소설대로"


세 번째 단계는 유형별 최적화입니다.

게임 UI 버튼은 원문 대비 120% 이상 길어지면 화면 밖으로 튀어나갑니다. 웹툰 말풍선에는 물리적 공간 제약이 있습니다. 웹소설은 문단 단위의 서사적 호흡이 중요합니다. 대본은 대사와 지문의 톤이 완전히 달라야 합니다.


우리는 각 콘텐츠 유형에 맞는 데이터 컨테이너(CSV 템플릿)를 설계합니다.


게임 CSV:

UI_ID, Context, Korean, English, Max_Chars, Variables

BTN_START, Main menu, 게임 시작, Start Game, 15, None

MSG_WELCOME, Login, {PlayerName}님 환영합니다, Welcome {PlayerName}, 50, {PlayerName}


웹소설 CSV:

Chapter, Scene, Paragraph, Korean, English, Tone

Ch01, S01, P001, (문단 내용), (번역), Epic/Formal


PART 3(22~26화)에서 여러분은 자신의 콘텐츠 유형에 맞는 템플릿을 얻게 됩니다. 복사해서 바로 쓸 수 있습니다.


STEP 4. 실행과 환원 (Execution & Recirculation): 번역과 자산화

"20분의 실행, 영원한 자산"


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
김동은WhtDrgo···작가님의 멤버십을 시작해 보세요!

(주)메제웍스 CEO. 배니월드,BTS월드, 세계관제작자. '현명한NFT투자자' 저자. 본질은 환상문학-RPG-PC-모바일-쇼엔터-시네마틱-게임-문화를 바라보는 기획자.

509 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 26개의 멤버십 콘텐츠 발행
  • 총 26개의 혜택 콘텐츠
최신 발행글 더보기
이전 01화01화. 왜 당신의 AI 번역은 실패하는가?