04화. 글로서리 구조론: 번역의 헌법을 제정하라

부제: 단어장이 아닌 '규칙서'로서의 필수 컬럼 정의

by 김동은WhtDrgon

번역을 시작하기 전에, 우리는 입법을 해야 합니다.

3화까지 작업대를 준비했습니다. 구글 드라이브에 폴더를 만들었고, 중앙 스프레드시트를 세팅했고, AI 계정을 만들었습니다. 이제 첫 못을 박을 시간입니다. 하지만 망치를 들기 전에, 우리는 설계도를 그려야 합니다. 아니, 설계도보다 더 근본적인 것. 법전입니다.


프로그래밍을 조금이라도 해본 분이라면 알 것입니다. 코드를 짜기 시작할 때 가장 먼저 하는 일이 무엇입니까? 변수를 선언하는 것입니다. let heroName = "Seraphine" 이 한 줄이 선언되면, 이후 코드 어디에서든 heroName을 호출할 때마다 항상 "Seraphine"이 출력됩니다. 10번을 호출하든, 1,000번을 호출하든 변하지 않습니다.


글로서리는 번역의 전역 변수이자 헌법입니다. "세라핀"이라는 단어가 원고 어디에 등장하든, 영어로는 무조건 "Seraphine"이라고 선언하는 문서입니다. 한 번 선언하면 끝입니다. 원고에 1만 번 등장해도 일관됩니다.

PART 1은 총 10화입니다. 그 10화 전체가 이 글로서리를 완성하는 과정입니다. 왜 10화나 할애합니까? 글로서리가 번역 품질의 90%를 결정하기 때문입니다.


많은 분들이 AI 번역 도구를 켜자마자 원고부터 집어넣고 싶은 유혹을 느낍니다. 하지만 잠시 멈추십시오. 바로 그 성급함이 주인공 이름을 1장에서는 'White Dragon'으로, 3장에서는 'Baek-Yong'으로, 5장에서는 'The Pale Dragon'으로 방황하게 만든 원인입니다.


PART 1은 번역을 하는 단계가 아닙니다. 번역의 규칙을 만드는 단계입니다. 우리는 이것을 '글로서리 엔지니어링(Glossary Engineering)'이라고 부릅니다.


글로서리는 단어장이 아니다

많은 사람들이 "글로서리"라는 단어를 들으면 단어장을 떠올립니다. 한영 사전, 용어집, 뭐 그런 것. 절반만 맞습니다.

글로서리는 단어를 모아놓은 것은 맞습니다. 하지만 그 목적과 구속력이 전혀 다릅니다. 전통적인 번역 도구들과 MEJE Works 글로서리의 차이를 이해해야 합니다.


색인은 위치만 가리킨다

색인(Index)은 "이 단어가 몇 페이지에 있다"를 알려줍니다. 책 뒤편의 찾아보기입니다. 하지만 그 단어가 무슨 뜻인지, 어떻게 번역해야 하는지는 알려주지 않습니다. 위치 정보일 뿐입니다. AI에게는 무의미합니다. AI는 이미 전체 텍스트를 검색할 수 있기 때문입니다.

MEJE 글로서리는 위치가 아닙니다. 정의와 규칙을 담고 있습니다.


용어집은 강제성이 없다

전통적인 용어집(Wordlist)은 이렇게 생겼습니다. "엘프 = Elf (권장)". 번역가는 이것을 보고 "아, 그렇구나" 하고 참고합니다. 하지만 번역가가 판단하기에 문맥상 'Fairy'가 더 어울린다고 생각하면, 바꿉니다. 용어집은 권고사항입니다. 참고 자료입니다.

MEJE 글로서리는 다릅니다. "엘프-> en: Elf, Directive: Never use 'Fairy'"라고 적혀 있으면, AI는 이것을 명령으로 받아들입니다. 추론하지 않습니다. 확률 계산하지 않습니다. 그냥 "Elf"를 출력합니다.


스타일 가이드는 따로 논다

스타일 가이드는 톤앤매너를 규정합니다. "우리 번역은 격식체를 지향한다", "유머러스한 표현을 살린다" 같은 지침입니다. 하지만 이것은 별도의 문서입니다. PDF로 만들어서 번역가에게 전달합니다. AI에게 이것을 적용하려면 또 다른 프롬프트를 짜야 합니다.

MEJE 글로서리는 스타일 정보를 Description 컬럼에 통합합니다. "Speaks in archaic tone", "Cheerful personality, uses casual speech". AI가 한 번에 읽습니다.


텀베이스는 너무 비싸다

전문 번역 업계는 이런 통합 데이터베이스를 '텀베이스(Termbase)'라고 부릅니다. Trados, MemoQ 같은 전문 CAT(Computer-Assisted Translation) 툴들이 제공하는 기능입니다. 다국어 대역어뿐만 아니라 품사, 문맥, 금지어까지 포함합니다.

하지만 이 도구들은 수백만 원에 달합니다. 개인 작가나 소규모 스튜디오가 쓰기에는 너무 비쌉니다. 게다가 배우기도 어렵습니다. 전문 번역가를 위한 도구이기 때문입니다.

MEJE Works는 구글 시트로 '경량화된 텀베이스'를 구현합니다. 무료이고, 쉽고, 협업이 가능합니다. 전문 툴의 핵심 기능만 추출해서 누구나 쓸 수 있게 만들었습니다.


통합 마스터 데이터

결론적으로, 전통적인 도구들은 참고 자료입니다. MEJE 글로서리는 헌법입니다.

비유하자면 이렇습니다. 맛집 추천 리스트는 무시할 수 있습니다. 하지만 배달 주소는 정확해야 합니다. 틀리면 음식이 안 옵니다. 글로서리는 번역의 배달 주소입니다.

우리가 만들 글로서리는 이 모든 것을 통합한 마스터 데이터입니다. 사전처럼 뜻을 정의하고, 텀베이스처럼 다국어를 관리하고, 스타일 가이드처럼 톤을 규정하고, 규칙서처럼 AI를 강제합니다.

마지막으로 하나 더. 원형문(Archetype)이라는 개념이 있습니다. 글로서리가 '법'이라면, 원형문은 그 법이 적용될 '대상'입니다. 번역에 투입되기 직전의 전처리된 한국어 원고를 말합니다. 이것은 PART 2에서 상세히 다룹니다.

물론 세상에는 글로서리를 만드는 방법이 수없이 많습니다. MEJE Works의 방식이 유일한 정답은 아닙니다. 여러분의 프로젝트에 맞게 조정하고, 현장의 필요에 따라 변형해야 합니다. 하지만 우리가 지금 제시하는 구조는 수많은 시행착오를 거쳐 다듬어진 것입니다. 출발점으로 삼기에 충분히 견고합니다.


AI는 원래 일관성이 없다

왜 글로서리가 필요한지 이해하려면, AI가 어떻게 작동하는지 알아야 합니다.


AI는 본질적으로 확률 모델입니다. 여러분이 AI에게 "엘프를 영어로 번역하라"고 지시하면, AI 내부에서는 이런 일이 벌어집니다. 학습 데이터를 검색합니다. "엘프"와 관련된 영어 단어들의 출현 빈도를 계산합니다. Elf가 60%, Fairy가 25%, Spirit이 10%, Nymph가 5%입니다. AI는 가장 높은 확률을 선택합니다. "Elf"를 출력합니다.

문제는 여기서 시작됩니다.


같은 AI에게 10분 뒤 똑같은 질문을 다시 하면 어떻게 됩니까? 확률을 다시 계산합니다. 이번엔 문맥이 조금 달라서 확률 분포가 바뀝니다. Fairy가 35%로 올라갑니다. AI는 "Fairy"를 출력합니다.

원고의 다른 장에서 "엘프"가 다시 등장합니다. 이번엔 주변 단어들이 달라서 또 다른 확률 분포가 나옵니다. "Spirit"이 나올 수도 있습니다.

이것은 AI의 결함이 아닙니다. AI의 본성입니다. AI는 "다음에 올 가장 그럴듯한 단어"를 확률적으로 계산해서 출력할 뿐입니다. 매번 주사위를 굴리는 것과 같습니다. AI를 잘 쓰는 사람들은 이 확률을 이용하여 마치 예산을 넉넉히 준비하여 가챠를 뽑듯 AI 제네레이션을 차분하게 반복합니다.


이제 글로서리가 있을 때를 봅시다.

AI가 "엘프를 영어로 번역하라"는 지시를 받습니다. 하지만 확률 계산을 시작하기 전에, 먼저 글로서리를 검색합니다. "엘프"를 발견합니다. en 컬럼을 확인합니다. "Elf"라고 적혀 있습니다. Directive를 확인합니다. "Use 'Elf', never 'Fairy'"라고 적혀 있습니다.

AI는 확률 계산을 중단합니다. 그냥 "Elf"를 출력합니다.


글로서리는 AI가 확률 게임을 시작하기 전에 개입합니다. 주사위를 굴리지 못하게 합니다. 테이블에 고정시킵니다. 항상 같은 숫자가 나오도록 만듭니다.

결과는 명확합니다. 1번 번역하든 100번 번역하든 "Elf"입니다. 문맥이 달라도 "Elf"입니다. 다른 AI를 써도 같은 글로서리를 사용하면 "Elf"입니다.


글로서리는 AI의 확률 게임을 멈추고, 결정론적 결과를 내놓게 만듭니다.


7개 컬럼의 해부학

이제 글로서리가 실제로 어떻게 생겼는지 봅시다.

글로서리는 스프레드시트입니다. 행마다 하나의 키워드, 열마다 특정 정보가 들어갑니다. MEJE Works 글로서리는 7개의 필수 컬럼으로 구성됩니다. 각 컬럼이 왜 필요한지, 없으면 어떤 일이 벌어지는지 하나씩 뜯어보겠습니다.


물론 여러분의 프로젝트에 따라 컬럼을 추가하거나 빼거나 변형할 수 있습니다. 게임이라면 변수 보호 컬럼이 필요할 수 있고, 웹툰이라면 글자 수 제한 컬럼이 필요할 수 있습니다. 하지만 이 7개는 거의 모든 경우에 필요한 기본 뼈대입니다.


① Keyword: 번역 대상

첫 번째 컬럼은 Keyword입니다. 번역 대상이 되는 원문 단어입니다. 한국어로 적습니다. AI가 원고에서 이 단어를 발견하면 "특별 처리 대상"으로 인식합니다.

예를 들어 Keyword 컬럼에 "세라핀", "마나", "불의 검", "검은 숲"을 적어놓으면, AI는 원고를 읽다가 이 단어들을 만날 때마다 글로서리를 참조합니다.

주의할 점이 하나 있습니다. 동음이의어는 반드시 행을 분리해야 합니다.

한국어 '배'는 최소 3가지 의미가 있습니다. 배(ship), 배(pear), 배(stomach). 만약 글로서리에 "배-> ship"이라고만 적어놓으면, AI는 "그는 배를 먹었다"라는 문장을 "He ate a ship"이라고 번역할 수 있습니다.

그래서 이렇게 해야 합니다. Keyword 컬럼에 "배 (선박)", "배 (과일)", "배 (복부)" 세 개의 행을 만듭니다. 각각 다른 en 컬럼 값을 줍니다. ship, pear, stomach. 그리고 Description으로 구분합니다. "Transportation vessel", "Fruit, yellow skin", "Part of body, abdomen".

같은 철자지만 의미가 다르면 반드시 분리하십시오.


② Type: 이중 분류 체계

두 번째와 세 번째 컬럼은 Type입니다. 하지만 Type은 2개로 나뉩니다.

Type_Grammar (문법적 타입) AI에게 "이 단어를 문법적으로 어떻게 다룰지" 알려줍니다. Proper Noun(고유명사), Common Noun(일반명사), Verb(동사) 같은 것들입니다. 대소문자 표기와 관사 사용을 결정합니다.

Type_Semantic (의미적 타입) AI에게 "이 단어가 의미적으로 무엇인지" 알려줍니다. MEJE Works는 4대 기본 분류를 사용합니다.

인물 (Person)

사건 (Event)

사물 (Object)

장소 (Location)

그리고 각 분류 아래 세부 분류가 있습니다. 인물이라면 캐릭터인지, 집단인지, 직업인지. 사물이라면 아이템인지, 기술인지, 능력인지. 장소라면 시설인지, 자연인지, 지역인지.

왜 이렇게 복잡하게 나누냐고요? 같은 단어라도 문맥에 따라 의미가 달라지기 때문입니다.

지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
김동은WhtDrgo···작가님의 멤버십을 시작해 보세요!

(주)메제웍스 CEO. 배니월드,BTS월드, 세계관제작자. '현명한NFT투자자' 저자. 본질은 환상문학-RPG-PC-모바일-쇼엔터-시네마틱-게임-문화를 바라보는 기획자.

509 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 26개의 멤버십 콘텐츠 발행
  • 총 26개의 혜택 콘텐츠
최신 발행글 더보기
이전 03화03화. 작업 환경 세팅: AI와 데이터 시트 구조