부제: 광석에서 사금을 골라내는 기술
"n8n을 번역해줘."
AI가 뭐라고 답할까요?
"n8n은 노드 투 노드(Node to Node)의 약자로..."
틀렸습니다.
n8n은 Nodemation입니다. Node + Automation의 합성어죠. 워크플로우 자동화 도구의 이름입니다. Node to Node라면 n8e가 되어야 합니다. N-to-E. 하지만 AI는 그럴듯하게 거짓말을 늘어놓습니다. 확신에 찬 목소리로.
더 큰 문제가 있습니다. 당신 소설 속 n8n은 자동화 도구가 아닐 수도 있습니다. 그것은 주인공이 만든 비밀 암호일 수도 있고, 해커 조직의 코드명일 수도 있고, 외계 문명의 좌표일 수도 있습니다.
AI는 몰랐습니다. 인터넷에서 n8n을 검색해서, 가장 유명한 뜻을 가져왔습니다. 심지어 그것도 틀렸는데 말이죠. 당신의 세계관은 무시당했습니다.
더 무서운 것은? AI는 틀렸다는 것조차 모릅니다. 환각입니다. 자신있게 설명합니다. 착각이 아니라 확신입니다.
7-9화에서 우리는 번역 정책을 세웠습니다. 7화에서는 '음역이냐 의역이냐'를 결정했습니다. Baekryong인가 White Dragon인가. 8화에서는 고유명사의 범위를 정했습니다. 어디까지가 이름이고 어디까지가 설명인가. 9화에서는 맥락을 정의했습니다. Tank가 전차인가 탱커인가, 장르와 관계에 따라 뜻이 달라지는 카멜레온 단어들을 데이터로 고정했습니다.
정책은 세웠습니다. 이제 손을 움직일 차례입니다.
10화의 질문은 단순합니다. 어떤 단어를 글로서리에 넣을 것인가? 원고에는 수만 개의 단어가 있습니다. 그 중 어떤 것을 추출할 것인가? 어떻게 놓치지 않고 전부 찾아낼 것인가? AI가 모르는 단어들을 어떻게 감지할 것인가?
MEJE Works가 키워드 클라우드를 통해 세계관 라이브러링을 하는 이유가 있습니다. 세계관을 조직하고 커뮤니티를 만드는 이유가 있습니다.
커뮤니티는 본래 단어를 같은 뜻으로 해석하는 집단이기 때문입니다.
'물'이라는 단어를 생각해보십시오. 화학자에게 물은 H₂O입니다. 분자 구조입니다. 기독교인에게 물은 세례입니다. 죄를 씻는 상징입니다. "물과 성령으로 거듭나라"는 말씀입니다. 무협 소설 독자에게 물은 오행의 하나입니다. 수(水)입니다. 금목수화토 중 하나. 물 속성 내공을 가진 무공이 있습니다.
'반석'은 무엇입니까? 지질학자에게 반석은 암반입니다. 견고한 기반암입니다. 기독교인에게 반석은 베드로입니다. "너는 베드로(바위)라. 내가 이 반석 위에 교회를 세우리라." 교회의 초석입니다. 건설업자에게 반석은 기초공사입니다. 건물을 지탱하는 지반입니다.
영어 'Future'는 어떻습니까? 일반인에게 Future는 미래입니다. 앞으로 올 시간입니다. 금융인에게 Future는 선물입니다. 미래의 가격을 현재에 약속하는 파생상품입니다. SF 작가에게 Future는 무대입니다. 이야기가 펼쳐지는 시간대입니다.
한국어 '선물'은? 일상에서 선물은 Gift입니다. 생일 선물, 크리스마스 선물. 경제학에서 선물은 Future입니다. 선물 거래, 선물 시장. 철학에서 선물은 Present입니다. 현재입니다. "과거도 미래도 아닌, 지금 이 순간."
포도주, 금강석, 칼, 북도 마찬가지입니다. 같은 단어, 다른 세계.
보이십니까? 모든 단어는 세계관에 따라 다른 의미를 가집니다. 사전에 실린 '일반적인 뜻'이 있습니다. 하지만 특정 세계관에 들어가면 '특수한 뜻'이 생깁니다. 그 세계의 사람들끼리만 통하는 의미가 생깁니다.
이것을 해석하는 지식 체계가 곧 세계입니다. 세계관입니다. 세계관을 공유해야 커뮤니케이션이 가능합니다. 커뮤니티가 되는 것입니다.
기독교 커뮤니티는 '물=세례', '포도주=그리스도의 피', '반석=베드로'라는 해석을 공유합니다. 그래서 커뮤니티입니다. 같은 언어를 씁니다. 무협 커뮤니티는 '수=오행 중 하나', '기=내공', '무공=초인적 능력'이라는 해석을 공유합니다. 그래서 커뮤니티입니다. 게임 커뮤니티는 'Tank=방어 담당', 'DPS=화력', 'Aggro=어그로'라는 해석을 공유합니다. 그래서 커뮤니티입니다.
모든 IP, 모든 사상, 모든 세계관은 자신들의 단어를 가지고 있습니다.
마블 유니버스는 'Infinity Stone', 'Vibranium', 'Multiverse'라는 단어를 가지고 있습니다. 해리 포터는 'Muggle', 'Horcrux', 'Patronus'를 가지고 있습니다. 반지의 제왕은 'Mithril', 'Palantir', 'One Ring'을 가지고 있습니다. 이 단어들을 같은 뜻으로 이해하는 사람들이 각각의 팬덤입니다.
당신의 세계관도 마찬가지입니다. 당신이 만든 판타지 세계에서 '마나'는 무엇입니까? 단순한 마법 에너지입니까? 생명의 근원입니까? 신의 축복입니까? 오염될 수 있는 자원입니까? 이 질문들에 대한 답이 글로서리입니다.
글로서리는 '당신 세계의 단어 해석 지식 체계'입니다. 이것을 공유해야 독자가 당신 세계의 일원이 됩니다. 커뮤니티가 됩니다. 이것을 공유해야 번역가가 제대로 번역합니다. AI가 오역하지 않습니다.
그런데 질문이 생깁니다. 어떤 단어를 글로서리에 넣어야 하는가?
규칙은 간단합니다.
"우리의 의미를 가진 모든 단어는 반드시 여기 있어야 한다."
일반 사전의 뜻과 다르거나, 추가 의미가 있거나, 당신이 만든 단어라면, 무조건 글로서리에 넣어야 합니다. 하나라도 빠지면? AI가 일반 사전의 뜻으로 번역합니다. 당신의 세계관은 무시됩니다.
자, 이제 원고에서 단어를 추출해야 합니다. 그런데 문제가 있습니다. 원고에는 수만 개의 단어가 있습니다. 이 중에서 '우리의 의미를 가진 단어'를 어떻게 골라낼까요?
처음부터 완벽하게 골라낼 수는 없습니다. 불가능합니다. 대신 우리는 두 단계로 나눕니다. 1단계는 일단 다 긁어모읍니다. 유입 단어 리스트를 만듭니다. 2단계는 그 중에서 진짜만 고릅니다. 키워드 리스트를 만듭니다.
광산에서 금을 캐는 과정과 똑같습니다. 첫 번째 단계는 '광석'을 캡니다. 흙과 돌과 금이 섞여 있습니다. 일단 다 퍼냅니다. 나중에 분류합니다. 두 번째 단계는 '사금'을 선별합니다. 광석을 부수고 씻고 걸러서 진짜 금만 골라냅니다.
유입 단어 리스트는 '용의자 명단'입니다. 목적은 "혹시 놓친 게 있을까?" 하는 불안을 제거하는 것입니다. AI가 일단 의심스러운 것은 전부 찾아냅니다. 상태는 정제되지 않았습니다. 중복이 있습니다. 조사가 붙어 있을 수 있습니다. 의미가 불명확할 수 있습니다. 비어 있는 칸이 많습니다.
이 리스트에는 외국어 번역란이 없습니다. 이 단계에서는 번역하지 않습니다. 대신 빈도를 AI가 세어줍니다. 유입 경로를 기록합니다. AI 자동 추출인지, 작가가 수동으로 추가했는지 표시합니다. 설명란은 비어있어도 됩니다. AI가 채울 수 있는 부분(함께 나온 단어들, 추정 의미)은 AI가 채우지만, 최종 판단은 사람이 합니다.
키워드 리스트는 '확정 후보'입니다. 글로서리의 '씨앗'을 만듭니다. 이 단어들이 나중에 39개 언어로 확장됩니다. 상태는 사람이 선별을 완료했습니다. 중복이 제거되었습니다. 조사가 떨어져 있습니다. 타입이 지정되었습니다.
규칙은 이것입니다. "우리의 의미를 가진 모든 단어는 반드시 여기 있어야 한다."
이 리스트에는 외국어 번역란이 있습니다. 하지만 처음엔 대부분 비어 있습니다. 괜찮습니다. Type을 사람이 지정합니다. 고유명사인지, 아이템명인지, 스킬명인지 분류합니다. Context_Note를 작가가 적습니다. 이 단어가 어떤 맥락에서 쓰이는지 메모합니다. 깨끗합니다. 조사가 없습니다. 중복이 없습니다.
왜 두 개로 나누는가? AI와 사람의 역할이 다르기 때문입니다. AI는 패턴을 읽습니다. "이 단어는 3번 나왔고, 주변에 이런 단어들이 있습니다"라고 보고합니다. 하지만 "이게 정말 중요한가?"는 모릅니다. 사람은 중요도를 판단합니다. "이건 내가 만든 세계관의 핵심이야"라고 압니다.
그래서 두 단계로 나눕니다. 1단계 유입 단어 리스트에서는 AI에게 관대한 기준으로 추출시킵니다. "의심스러우면 일단 뽑아." Recall(재현율)을 높입니다. 놓치지 않는 것이 목표입니다. 2단계 키워드 리스트에서는 사람이 엄격하게 선별합니다. "이건 진짜 우리 세계관의 단어야?" Precision(정밀도)을 높입니다. 정확하게 거르는 것이 목표입니다.
AI를 단순한 자동 분류 장치로 생각하면 안 됩니다. AI는 맥락을 읽습니다. 마치 보라색 향기를 단맛으로 느끼는 공감각자처럼, AI는 숫자 패턴에서 의미를 느끼고, 반복에서 중요도를 감지하고, 주변 단어들의 배치에서 감정을 읽어냅니다.
사람이 원고를 읽으면 어떻게 됩니까? "백룡"이라는 단어를 봅니다. 친구들이 "하얀용아"라고 부르는 장면을 기억합니다. 적들이 "백룡"이라고 부르는 장면을 기억합니다. 주인공이 혼잣말로 "흰둥이는..."이라고 하는 장면을 기억합니다. 그래서 압니다. "아, 이건 같은 캐릭터를 부르는 세 가지 호칭이구나."
AI도 비슷하게 읽습니다. "백룡"과 "하얀용"과 "흰둥이" 주변에 같은 행동 동사가 나타납니다. "날았다", "포효했다", "변신했다". 같은 속성 단어가 나타납니다. "비늘", "날개", "불꽃". AI는 통계적 패턴을 읽고 제안합니다. "이 세 단어가 같은 개체를 지칭하는 것 같습니다. 귀속 관계를 확인하십시오."
AI에게 "뿅아리"를 추출하라고 시키면 어떻게 됩니까? AI는 "뿅아리", "뽕아리", "삥아리", "뺑아리"를 모두 찾아냅니다. 그리고 말합니다. "이 네 단어는 음성적으로 유사하고, 비슷한 문맥(놀람, 당황, 효과음)에서 사용됩니다. 변형 표현으로 추정됩니다. 하나의 키워드로 묶을 것을 제안합니다."
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠