13화. 프롬프트 엔진

데이터를 명령으로 바꾸는 기술

by 김동은WhtDrgon

1. 엔진에 연료를 주입하라

당신은 12화까지 완벽한 글로서리를 만들었습니다.

300개 키워드, Description 한 줄 한 줄 정성껏 작성했습니다. Directive를 세밀하게 명시했습니다. Gender 컬럼까지 채웠습니다. 39개 언어 표기까지 완료했습니다. 엑셀 파일을 열어보면 행 300개, 열 45개가 빼곡합니다. 아름답습니다.


하지만 이 엑셀 파일은 아무것도 하지 못합니다.

파일 크기는 500KB입니다. 데이터는 정확합니다. 구조는 완벽합니다. 하지만 이것은 그저 파일일 뿐입니다. 하드디스크에 저장된 비트의 나열입니다. AI는 이것을 읽지 못합니다. 엑셀을 구글 번역에 넣을 수 없습니다. Claude에게 업로드할 수도 없습니다. Gemini는 엑셀 파일을 볼 수는 있지만 "이게 번역 규칙이구나"라고 이해하지 못합니다.


데이터는 죽어 있습니다. 살려내려면 프롬프트가 필요합니다.


1903년 12월 17일, 노스캐롤라이나 키티호크 해변. 오빌 라이트가 비행기 엔진을 켭니다. 12마력 가솔린 엔진입니다. 엔진이 돌아갑니다. 프로펠러가 회전합니다. 하지만 비행기는 움직이지 않습니다.

왜입니까? 엔진과 프로펠러가 연결되지 않았기 때문입니다. 체인이 빠졌습니다. 아무리 강력한 엔진도 동력 전달 장치 없이는 쓸모가 없습니다. 오빌이 체인을 다시 겁니다. 엔진 → 체인 → 프로펠러 → 날개. 동력이 전달됩니다. 비행기가 12초 동안 36미터를 날았습니다. 인류 최초의 동력 비행입니다.


글로서리는 엔진입니다. 강력한 엔진입니다. 하지만 AI라는 날개와 연결되지 않았습니다. 체인이 필요합니다. 그 체인이 프롬프트입니다.

글로서리를 잘못된 형식으로 AI에게 주면, AI는 혼란스러워하거나 무시합니다. "이게 번역 규칙인가? 그냥 참고 자료인가?" AI는 추측합니다. 추측은 오류를 낳습니다.


13화는 두 가지 큰 작업을 다룹니다.


첫째, 글로서리 구축 파이프라인입니다. 원고에서 키워드를 추출하고, 정리하고, 설명을 붙이고, 다국어로 확장하고, 오류를 검증하는 5단계 프로세스입니다. 10화에서 우리는 키워드 추출 개념을 다뤘습니다. 하지만 그것은 이론이었습니다. "이런 것들을 추출해야 한다"는 방향 제시였습니다. 13화에서는 실전 프롬프트를 제공합니다. 복사해서 Claude나 Gemini에 붙여넣으면 바로 작동하는 프롬프트입니다.


둘째, System Instruction 설계입니다. 완성된 글로서리를 AI에게 '어떻게' 전달할 것인가? 단순히 복사-붙여넣기로는 부족합니다. AI가 글로서리를 '참고 자료' 정도로 여기면 안 됩니다. '헌법'으로 여기게 만들어야 합니다. Role(역할), Task(임무), Constraint(제약)를 설계하고, Few-shot(예시)으로 패턴을 학습시키는 법을 배웁니다.


이 두 작업이 끝나면, 당신은 번역 엔진을 손에 넣습니다. 원고를 넣으면 39개 언어로 일관되게 번역해주는, 백룡을 절대 White Dragon으로 바꾸지 않는, Directive를 90% 이상 준수하는 엔진입니다.

10화부터 12화까지는 설계도를 그렸습니다. 13화에서는 그 설계도대로 엔진을 조립합니다. PART 1의 진짜 완성은 지금부터입니다.


2. 분업의 원칙: 왜 한 번에 시키면 안 되는가

처음 AI를 접한 사람들이 흔히 하는 실수가 있습니다. "원고에서 키워드 뽑고, 정리하고, 영어로 번역하고, 일본어 중국어까지 다 채워줘." 한 번에 모든 것을 시킵니다. 효율적으로 보입니다. 하지만 결과는 처참합니다. AI는 '백룡'을 빼먹습니다. '화염구'와 '파이어볼'을 별개로 취급합니다. Description에 "멋진 캐릭터"같은 쓸모없는 말을 씁니다. 영어 번역에서 Baekryong이 아니라 White Dragon이라고 씁니다.


왜 이렇게 됩니까?


AI는 멀티태스킹을 못합니다. 사람도 마찬가지입니다. 심리학 연구에 따르면 인간은 한 번에 하나의 작업에만 집중할 수 있습니다. 멀티태스킹이라고 부르는 것은 사실 빠른 작업 전환(Task Switching)입니다. 작업 A를 하다가 작업 B로 전환하고, 다시 A로 돌아옵니다. 전환할 때마다 인지 비용이 발생합니다. 주의력이 분산됩니다. 실수가 늘어납니다.


AI도 똑같습니다. Transformer 아키텍처의 Attention 메커니즘은 입력 시퀀스의 모든 토큰에 주의를 분배합니다. 작업이 여러 개면 주의력이 분산됩니다. "키워드를 추출해"라는 명령과 "영어로 번역해"라는 명령이 동시에 들어오면, AI는 어느 쪽에 더 집중해야 할지 혼란스러워합니다. 결과적으로 이도 저도 아닌 결과물이 나옵니다.


포드 자동차 공장을 생각해보십시오. 1913년 헨리 포드가 도입한 컨베이어 벨트 시스템입니다. 한 명의 노동자가 자동차 전체를 조립하지 않습니다. 각 노동자는 하나의 작업만 반복합니다. A는 엔진을 조립합니다. B는 바퀴를 답니다. C는 도장을 합니다. D는 의자를 설치합니다.

이 시스템 이전에는 숙련공 한 명이 12시간 동안 자동차 한 대를 만들었습니다. 컨베이어 벨트 도입 후에는 93분 만에 한 대가 완성되었습니다. 생산성이 8배 증가했습니다.


왜입니까? 분업의 효율성 때문입니다. 각 노동자는 하나의 작업만 반복하므로 숙련도가 높아집니다. 실수가 줄어듭니다. 품질이 안정됩니다. 그리고 중요한 것은, 각 단계마다 품질 검사가 가능하다는 것입니다. 엔진 조립이 끝나면 검사원이 확인합니다. 문제가 있으면 그 자리에서 수정합니다. 다음 단계로 넘어가지 않습니다.

글로서리 구축도 마찬가지입니다. 광부 → 정제자 → 작가 → 번역가 → 감사관의 5단계 분업이 가장 빠르고 정확합니다. 각 단계는 하나의 명확한 임무만 수행합니다. 인간이 중간 점검을 합니다. 문제가 발견되면 그 단계에서 수정합니다. 다음 단계로 넘어가지 않습니다.


"AI에게 한 가지 일만 명확히 시켜라. 여러 가지 일을 한 번에 시키지 마라."


3. 1단계: 광부 - 원석을 캐내는 법


목표: 원고에서 번역이 필요한 모든 키워드 후보를 남김없이 추출합니다.


사람이 눈으로 읽으면서 키워드를 찾으면 빠뜨립니다. 3만 자 원고를 읽다 보면 집중력이 떨어집니다. '마나 회로'가 딱 한 번 나왔는데, 그걸 놓칩니다. 나중에 번역에서 1화에서는 "Mana Circuit"이라고 했다가 10화에서는 "Magic Circuit"이라고 하는 불일치가 생깁니다. AI는 지치지 않습니다. 원고를 처음부터 끝까지 스캔하면서 모든 고유명사, 신조어, 기술 용어를 찾아냅니다.


한국어의 특수성: 조사 제거 문제

영어는 간단합니다. "The dragon", "A dragon", "Dragon's" 모두 기본형은 "Dragon"입니다. 하지만 한국어는 조사가 붙습니다. "백룡이", "백룡은", "백룡을", "백룡의", "백룡과", "백룡에게". AI는 이것을 6개의 다른 단어로 인식할 수 있습니다. 글로서리를 만들 때 "백룡"이라는 키워드 하나만 등록해야 하는데, "백룡이", "백룡은", "백룡을"이 각각 별도 행으로 들어가면 혼란스럽습니다.


프롬프트에 "조사를 제거하고 기본형만 출력하라"고 명시해야 합니다. 하지만 조사 제거가 항상 간단하지는 않습니다. "불"이라는 단어를 봅시다. "불이 났다" - 여기서 '불'은 명사입니다. Fire. "불을 켰다" - 여기서도 '불'은 명사입니다. Light. "문을 열었다" - 여기서 '을'은 조사입니다.


AI가 "불이"에서 "이"를 제거하면 "불"이 남습니다. 맞습니다. 하지만 "켰다"에서 뭔가를 제거하려 하면 안 됩니다. "켰"은 동사 어간이지 명사가 아닙니다. 형태소 분석이 필요합니다. 다행히 최신 LLM(대형언어모델)은 한국어 형태소 분석 능력이 뛰어납니다. 프롬프트에 명확히 지시만 하면 됩니다.


프롬프트 설계 핵심 요소:

Few-shot 예시가 필수입니다. AI에게 "조사를 제거하라"고 말로만 하면 이해도가 70% 정도입니다. 예시를 주면 95%로 올라갑니다. AI는 패턴을 학습합니다. "아, '이/가/을/를'을 떼어내고 명사만 남기는구나. 그리고 그 단어가 나온 문장도 함께 기록하는구나."


빈도 카운트는 생략합니다. 초보자들이 자주 요구하는 것이 "각 키워드가 몇 번 나왔는지 세어줘"입니다. 그럴듯해 보입니다. 빈도가 높으면 중요한 키워드일 것 같습니다. 하지만 AI는 숫자를 잘 못 셉니다. 특히 긴 텍스트에서 정확한 빈도를 세려면 계산 능력이 필요한데, LLM은 계산기가 아닙니다. "백룡"이 실제로는 47번 나왔는데 AI는 "약 50회"라고 애매하게 답하거나, 심지어 "32회"라고 틀린 숫자를 줍니다.

대신 "이 단어가 나온 문장 하나"를 함께 출력하게 합니다. 이것이 훨씬 유용합니다. 나중에 Description을 작성할 때 문맥을 참고할 수 있습니다.


카테고리 추측을 시킵니다. AI에게 "이게 캐릭터인지, 아이템인지, 장소인지 추측해봐"라고 시킵니다. 100% 정확하지는 않지만, 초벌 분류로는 충분합니다. 나중에 사람이 검토하면서 수정하면 됩니다.


[실전 프롬프트: 광부]

당신은 한국어 웹소설 키워드 추출 전문가입니다.

임무: 제공된 원문에서 번역이 필요한 키워드를 추출하십시오.

대상:

- 고유명사 (인명, 지명, 조직명)

- 신조어 (스킬명, 아이템, 마법, 몬스터)

- 게임 용어 (스탯, 시스템 메시지)

- 영어 단어 또는 코드 (n8n, S급)

규칙:

1. 조사 제거: "백룡이" → "백룡", "마나를" → "마나"

2. 기본형(명사)만 출력

3. 번역하지 말 것 (한국어 유지)

4. 해당 단어가 나온 문장 하나를 함께 출력

예시:

입력: "백룡이 검을 들었다."

출력: 백룡 | 캐릭터 | 백룡이 검을 들었다

출력 형식 (CSV):

키워드 | 카테고리추측 | 문맥문장

[여기에 원문 붙여넣기]


사용 팁: 3만 자 이상 원고는 챕터별로 나눠서 돌리십시오. Gemini 1.5 Pro는 한 번에 긴 텍스트를 처리할 수 있지만, 품질을 위해서는 1만~2만 자 단위로 끊는 것이 좋습니다. 결과를 복사해서 엑셀이나 구글 시트에 붙여넣으십시오. CSV 형식이므로 자동으로 열 구분이 됩니다. 챕터별로 돌렸다면, 나중에 합칠 때 중복 키워드가 생깁니다. 이것은 2단계에서 처리합니다.


이 단계를 마치면, 당신은 용의자 명단을 손에 넣습니다. 원고에 등장하는 모든 특별한 단어들의 리스트입니다. 아직 정제되지 않았습니다. 중복도 있고, 분류도 부정확합니다. 하지만 광산에서 금광석을 캐낸 것입니다. 흙과 돌이 섞여 있지만, 금은 그 안에 있습니다. 다음 단계에서 흙을 털어냅니다.


4. 2단계: 정제자 - 금괴를 제련하는 법

목표: 1단계에서 나온 날것의 리스트를 정리하여 '마스터 키워드'와 '변형어(Variant)'로 구조화합니다.

1단계 결과에는 중복이 많습니다. 당신 소설의 주인공 이름이 "백룡"인데, 팬들이 애칭으로 "흰둥이"라고 부릅니다. 작중에서 존칭으로 "백룡님"이라고도 나옵니다. 회상 장면에서 어릴 적 이름 "소룡"도 나옵니다.

1단계 AI는 이것들을 모두 추출합니다: 백룡, 흰둥이, 백룡님, 소룡. 이것들은 모두 같은 캐릭터입니다. 글로서리에는 하나만 등록해야 합니다. 어느 것을 '마스터'로 삼을까요? 보통 가장 공식적이고 자주 쓰이는 표현입니다. 이 경우 "백룡"입니다. 나머지는 '변형어(Variant)'로 기록합니다. 나중에 AI가 번역할 때 "흰둥이"를 만나면, "아, 이건 백룡의 별명이니까 Baekryong으로 번역해야겠다"라고 판단할 수 있게 됩니다.


병합 로직 4가지:

동일 대상: 별명, 애칭, 존칭이 같은 사람을 가리킵니다. 백룡, 흰둥이, 백룡님, 소룡은 모두 같은 캐릭터의 다른 호칭입니다.

표기 변형: 띄어쓰기나 철자 차이입니다. "파이어볼"과 "파이어 볼"은 띄어쓰기 차이일 뿐 같은 스킬입니다. "파이어불"은 오타입니다.

약어와 정식 명칭: "헌터 아카데미"의 줄임말이 "헌터 아카"입니다. "아카데미"만 단독으로 나올 때도 문맥상 헌터 아카데미를 가리키는 경우가 있습니다.

외래어 표기 차이: 영어 "Dragon"의 한국어 표기가 사람마다 다를 수 있습니다. 표준 외래어 표기법은 "드래곤"이지만, 작중에 "드레곤"이라고 쓴 부분이 있을 수 있습니다.

연관어 vs 귀속어: 중요한 구분

초보자가 자주 하는 실수가 연관어(Related)와 귀속어(Variant)를 혼동하는 것입니다.

귀속어: 같은 대상을 가리킵니다. 백룡 = 흰둥이 (같은 사람). 연관어: 다른 대상이지만 관련 있습니다. 마나 ≠ 마나 회로 (다른 개념).

"마나"는 에너지입니다. "마나 회로"는 그 에너지가 흐르는 통로입니다. 다른 것입니다. 이것을 병합하면 안 됩니다. 각각 글로서리에 등록해야 합니다. AI에게 이 구분을 시키려면 "같은 대상인가?"를 묻는 로직을 넣어야 합니다.


[실전 프롬프트: 정제자]

당신은 데이터 정리 전문가입니다.

임무: 제공된 키워드 리스트에서 중복과 변형을 찾아 병합하십시오.

병합 기준:

1. 같은 대상을 가리키는 다른 표현 (별명, 애칭, 존칭)

2. 띄어쓰기 차이 또는 철자 변형

3. 약어와 정식 명칭

4. 외래어 표기 차이

주의: 연관어는 병합하지 마십시오.


예: "마나"와 "마나 회로"는 다른 개념이므로 병합 금지

규칙:

- 가장 공식적/빈번한 표현을 마스터 키워드로 선택

- 나머지를 변형어로 기록

- 병합 이유를 간단히 적을 것

예시:

입력:

백룡 | 캐릭터

흰둥이 | 캐릭터

파이어볼 | 스킬

파이어 볼 | 스킬

출력:

백룡 | 흰둥이 | 캐릭터 | 동일 인물의 애칭

파이어볼 | 파이어 볼 | 스킬 | 띄어쓰기 정규화

출력 형식 (CSV):

마스터키워드 | 변형어(쉼표구분) | 타입 | 병합이유

[1단계 결과 붙여넣기]


중요: 이 단계 결과를 사람이 반드시 검토하십시오. AI가 실수할 수 있습니다. 예를 들어 "검", "철검", "목검", "성검"을 모두 병합할 수 있습니다. "전부 검이니까 같은 거겠지"라고 잘못 판단한 것입니다. 올바르게는 각각 별도 키워드로 등록해야 합니다. 엑셀로 결과를 열어서, "병합이유" 컬럼을 읽으면서 하나하나 확인하십시오. 이상한 병합이 보이면 분리하십시오.

이 단계를 마치면, 중복이 제거된 정제된 키워드 리스트를 손에 넣습니다. 300개였던 것이 200개로 줄어들 수 있습니다. 같은 것을 여러 번 센 것들이 정리되었기 때문입니다. 이제 금괴가 준비되었습니다. 다음 단계에서 보증서를 발급합니다.


5. 3단계: 작가 - 보증서를 작성하는 법

목표: 키워드에 대한 설명문(Description)을 작성합니다.


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
김동은WhtDrgo···작가님의 멤버십을 시작해 보세요!

(주)메제웍스 CEO. 배니월드,BTS월드, 세계관제작자. '현명한NFT투자자' 저자. 본질은 환상문학-RPG-PC-모바일-쇼엔터-시네마틱-게임-문화를 바라보는 기획자.

532 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 17개의 멤버십 콘텐츠 발행
  • 총 62개의 혜택 콘텐츠
최신 발행글 더보기
이전 12화12화. Description & Directive