부제: 원고에서 금을 캐는 기술, 그리고 데이터의 족보 관리
5화까지 우리는 템플릿을 완성했습니다. 구글 시트에 7개의 컬럼이 준비되어 있고, 드롭다운 메뉴가 설정되어 있고, 색상 코딩이 되어 있습니다. 이제 이 그릇을 채울 차례입니다.
여러분의 원고는 광산입니다. 그 안에는 금이 묻혀 있습니다. 우리의 임무는 금을 캐는 것입니다. 하지만 초보 광부들이 가장 많이 하는 실수는 무엇입니까? 돌멩이까지 전부 주워담는 것입니다.
"사과", "책상", "달리기", "하늘", "먹다"... 이런 평범한 단어들까지 전부 글로서리에 넣으려고 합니다. 100페이지 원고를 읽으며 모든 명사를 다 적습니다. 결과는? 3,000개짜리 글로서리가 만들어집니다. AI에게 이것을 입력하면 토큰이 낭비되고, AI는 오히려 혼란스러워합니다.
글로서리는 쓰레기통이 아닙니다. 사전도 아닙니다. 글로서리는 여러분 세계관의 특이점만 기록하는 장부입니다. 평범한 단어는 AI가 알아서 잘 번역합니다. 우리가 개입해야 하는 것은 AI가 헷갈릴 수 있는 단어, 일관성이 중요한 단어, 여러분이 직접 만든 단어뿐입니다.
그러라는 법은 없지만 MEJE Works 에서 진행해보면 최초 원고 200페이지에서 500개 키워드를 추출하는 것이 적정 수준입니다. 그마저도 뒤로 갈수록 점점 줄어듭니다. 그 이상은 노이즈입니다. 하나의 IP가 전체 4500개 선에서 대략 갈무리되는 경향이 있습니다.
이번 화에서는 어떤 단어를 캐고, 어떤 단어를 버릴지 그 기준을 배웁니다.
글로서리는 하늘에서 뚝 떨어지는 문서가 아닙니다. 데이터가 정제되고 승격되는 과정의 최종 목적지입니다.
MEJE Works는 세 가지 문서를 동일한 컬럼 구조로 관리합니다. 이것이 작업 효율을 극대화하는 비결입니다.
① 크롤링/유입 데이터 (Raw Data): 팬들의 트윗, 검색어, 커뮤니티 반응 등 날것의 데이터입니다. 엄청나게 많고 정제되지 않았습니다. MEJE Works는 [AI 기반 사용자 활동 실시간 분석 시스템(특허 1020240194262)]을 통해 이 데이터를 수집하고 분석합니다. 이 특허 시스템은 유입경로를 관리하고 팬덤이 만들어내는 새로운 키워드들을 추적합니다. 하지만 이것은 AI 번역과는 약간 거리가 있으니, 나중에 기회가 되면 이야기하겠습니다.
② 키워드 리스트 (Candidate List): 글로서리가 되기 전의 '후보생'입니다. 모든 단어에 고유 넘버링이 부여됩니다. 출처(Source ID)가 태깅되어 있습니다. 이 단어가 원고 몇 페이지에서 나왔는지, 혹은 어떤 팬 커뮤니티에서 처음 등장했는지 기록됩니다.
③ 글로서리 (Final Glossary): 키워드 리스트에서 살아남은 '정예 멤버'입니다. 키워드 리스트 시절의 넘버(Legacy ID)를 보존하여, 언제든 이 단어가 어디서 왔는지 추적할 수 있습니다.
이 세 문서가 같은 컬럼 구조를 가지면 무슨 일이 벌어질까요? 데이터의 이동이 물 흐르듯 자연스러워집니다. 키워드 리스트에서 중요한 단어를 발견했습니까? 그 행을 복사해서 글로서리에 붙여넣기만 하면 됩니다. 컬럼이 같으니까요. 추가 작업이 필요 없습니다.
상황을 하나 가정해봅시다. 3년 뒤, 여러분의 작품이 성공해서 시즌 2를 준비합니다. '백룡'이라는 단어의 뉘앙스를 바꾸고 싶습니다. 하지만 문제가 생깁니다. "이거 우리가 만든 거야, 아니면 팬들이 쓰던 거야?"
기원을 모르면 함부로 바꿀 수 없습니다. 팬들이 3년간 '백룡'이라는 표현으로 밈을 만들고, 팬아트를 그리고, 코스프레를 했는데 갑자기 공식 설정이 바뀌면 팬덤의 반발을 삽니다.
이럴 때 글로서리의 Legacy_ID를 추적합니다. 키워드 리스트를 확인합니다. 유입 데이터를 확인합니다. "아, 2024년 5월에 유행한 밈에서 시작됐구나." 확인할 수 있습니다. 의미의 빌드업 과정을 아는 자만이 세계관을 올바르게 확장할 수 있습니다.
단어에도 족보가 있어야 합니다. 이 단어가 작가의 머리에서 나왔는지, 팬들의 유행어에서 왔는지 기록하십시오. 그것이 세계관의 깊이가 됩니다.
이것은 MEJE Works만의 독창적인 발상이 아닙니다. 인류가 지식을 관리해온 역사적 방법론의 연장선입니다.
옥스퍼드 영어 사전(OED)의 인용 카드: 19세기, OED 편찬자들은 수백만 장의 종이 카드를 사용했습니다. 자원봉사자들이 책을 읽다가 특이한 단어를 발견하면 카드에 적어서 보냈습니다. 이것이 19세기판 '크롤링 데이터'입니다. 편집자들은 이 카드(키워드 리스트)를 선별하여 사전(글로서리)에 등재했습니다. 모든 단어에는 그것이 처음 쓰인 용례가 붙어 있었습니다. 용례가 없으면 진정한 정의가 불가능하기 때문입니다. MEJE Works가 Source ID를 남기는 것과 동일한 원리입니다.
위키데이터(Wikidata)의 Q-ID 시스템: 위키백과는 언어마다 표기가 다릅니다. Douglas Adams vs ダグラス・アダムズ. 위키데이터는 모든 개념에 언어 중립적인 고유 번호(예: Q42)를 부여합니다. 한국어 위키든 영어 위키든 Q42를 호출하면 연결됩니다. MEJE Works의 IDX가 바로 이 Q-ID 역할입니다. 글로서리 데이터를 추후 '세계관 위키(Wiki)'와 연동할 때, 이 ID가 있으면 자동 생성이 가능합니다.
이케아(IKEA)의 작명 분류학: 이케아의 수만 가지 제품 이름은 무작위가 아닙니다. 욕실용품은 스웨덴의 호수/강 이름, 의자/책상은 남자 이름, 직물/커튼은 여자 이름입니다. 데이터(이름)에 위계와 출처 규칙이 명확합니다. 이것이 브랜드의 일관성(Consistency)을 만듭니다.
이제 실전입니다. 원고를 앞에 두고 어떤 단어를 글로서리에 넣을지 판단해야 합니다.
① 고유성 (Uniqueness) - 필수: 작가가 만든 고유명사입니다. 인명, 지명, 조직명, 스킬명, 아이템명. 이것은 무조건 글로서리에 들어갑니다. "세라핀", "불의 검", "마법학교", "파이어볼"... 이런 단어들은 여러분 세계관에만 존재하는 특이점입니다. AI가 추측할 수 없습니다. 여러분이 정의해야 합니다.
② 모호성 (Ambiguity) - 필수: 두 가지 이상의 뜻으로 해석될 수 있는 단어입니다. '배'는 ship일 수도, pear일 수도, stomach일 수도 있습니다. '눈'은 eye일 수도, snow일 수도 있습니다. '말'은 horse일 수도, speech일 수도 있습니다. 이런 동음이의어는 반드시 글로서리에서 구분해야 합니다. 안 그러면 AI가 확률적으로 찍어버립니다.
③ 반복성 (Recurrence) - 권장: 3회 이상 등장하며 일관성이 중요한 일반명사입니다. '제국', '황제', '마나', '길드', '던전'... 이런 단어들은 평범한 단어처럼 보이지만, 여러분의 작품에서 특별한 의미를 가집니다. 원고에서 반복적으로 등장하고, 매번 같은 방식으로 번역되어야 합니다. 1장에서 'Empire'였다가 3장에서 'Kingdom'으로 바뀌면 독자가 혼란스럽습니다.
한 번만 등장하는 단어: "그는 사과를 먹었다." 이 문장에서 '사과'가 딱 한 번 나오고 다시는 안 나온다면? 글로서리에 넣을 필요가 없습니다. AI가 알아서 'apple'로 번역합니다.
문맥상 오해의 소지가 없는 평범한 단어: "하늘", "구름", "달리다", "먹다"... 이런 단어들은 AI가 완벽하게 번역합니다. 여러분이 개입할 필요가 없습니다.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.
오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠