한국어는 토큰 사용량은 영어의 3배

AI 사용량 제한 시대, 언어 선택이 곧 전략이다

Feb 9. 2026

같은 질문, 다른 비용

"사용량 제한에 도달했습니다."

Claude나 ChatGPT를 쓰다 보면 이 메시지를 만난다. 대화를 몇 번 주고받지도 않은 것 같은데 벌써 막혔다. 옆에 앉은 동료는 아직 잘만 쓰고 있다. 같은 요금제인데 왜 나만 빨리 막히는 걸까.

혹시 한국어로 쓰고 있지 않은가?

"오늘 서울 날씨 알려줘"라고 물으면, 같은 의미를 영어로 — "Tell me today's weather in Seoul" — 보낼 때보다 토큰을 약 3배 더 소비한다. 의미는 같고, 받는 답변도 같고, 내는 구독료도 같다. 그런데 한국어 사용자는 같은 돈을 내고 1/3의 질문밖에 할 수 없다.

이 글은 그 격차가 왜 생기는지, 실제로 얼마나 큰지, 그리고 지금 당장 쓸 수 있는 대응 전략이 무엇인지 정리한 것이다.

토큰이란 무엇인가

왜 같은 문장인데 언어에 따라 비용이 다를까. 이 질문에 답하려면 먼저 토큰이 뭔지 알아야 한다.

AI 모델은 글자를 그대로 읽지 않는다. 문장을 토큰(token)이라는 조각으로 쪼갠 뒤에 처리한다. 영어 기준으로 대략 단어 하나가 토큰 하나다. "I love coffee"는 3개 토큰이다.

이 쪼개기를 담당하는 것이 토크나이저(tokenizer)다. 대부분의 AI 서비스는 BPE(Byte Pair Encoding)라는 방식을 쓰는데, 원리는 단순하다. 훈련 데이터에서 자주 등장하는 글자 조합을 통째로 하나의 토큰으로 묶는다. 영어 텍스트가 훈련 데이터의 대부분을 차지하므로, "the", "ing", "tion" 같은 영어 조합은 효율적으로 묶인다. 한 단어를 토큰 하나로 처리할 수 있다.

문제는 한국어다. 훈련 데이터에서 한국어가 차지하는 비중이 작으니, 한국어 글자 조합은 토큰으로 충분히 묶이지 못한다. "안녕하세요"가 통째로 하나의 토큰이 되지 못하고, 한 글자씩 — 또는 바이트 단위로 — 쪼개진다. 같은 인사말인데 영어 "hello"는 1토큰, 한국어 "안녕하세요"는 3~5토큰인 셈이다.

AI 서비스의 사용량 제한은 이 토큰 수를 기준으로 적용된다. 더 많은 토큰을 쓰면 더 빨리 제한에 걸린다. 그래서 언어 선택이 중요해진다.

한국어가 불리한 이유 — 세 가지 구조적 원인

1. 교착어의 특성

한국어는 교착어다. 어근에 조사와 어미가 붙어서 의미가 바뀐다. "먹다", "먹었다", "먹었었다", "먹었었겠다" — 한 단어가 다양한 형태로 변한다. 토크나이저 입장에서는 이 모든 변형을 각각 별개의 패턴으로 처리해야 한다. 영어에서 "eat", "ate", "eaten" 정도로 끝나는 변화와는 복잡도 자체가 다르다.

2. UTF-8 바이트 수

컴퓨터가 글자를 저장하는 방식에서도 격차가 난다. 영어 알파벳은 UTF-8 인코딩 기준 1바이트다. 한글 한 글자는 3바이트다. BPE 토크나이저는 바이트 단위로 작동하기 때문에, 한국어 한 글자를 처리하는 데 영어의 3배 원재료가 필요하다.

3. 훈련 데이터의 편향

가장 핵심적인 원인이다. Claude의 토크나이저 어휘에는 한국어 토큰이 수백 개 수준에 불과하다. 태국어는 4개, 조지아어는 1개뿐이다. 반면 영어 토큰은 수만 개다. 자주 보는 패턴을 더 효율적으로 묶는 것이 BPE의 원리이므로, 훈련 데이터에서 적게 등장하는 언어는 구조적으로 불리하다.

숫자로 보는 격차

같은 의미를 전달할 때 각 언어가 소비하는 토큰의 배율을 정리하면 이렇다. 아래 수치는 커뮤니티 벤치마크와 학술 연구를 종합한 것이다

한국어 사용자 입장에서 이 표가 의미하는 것은 명확하다. 영어 사용자가 100토큰으로 하는 대화를, 한국어로는 300~500토큰을 써야 한다. 토큰이 곧 비용이고, 곧 사용량 제한인 시대에 이 격차는 무시하기 어렵다.

한국어 커뮤니티에서는 "같은 동아시아 언어인 일본어보다도 비효율적인 경우가 있다"는 지적이 나온다. 교착어 특성과 토크나이저 어휘 규모의 차이가 겹치면서 한국어가 특히 불리한 위치에 놓이는 것이다.

사용량 제한 시대의 현실

"토큰을 많이 쓴다"가 왜 당장 문제인가. 모든 주요 AI 서비스가 토큰 기반의 사용량 제한을 걸고 있기 때문이다. 이 서비스들을 쓰고 있다면 당신에게도 해당되는 이야기다.

Claude (Anthropic)

Pro ($20/월): 5시간 롤링 윈도우에 약 45개 메시지

Max 5x ($100/월): Pro의 5배

Max 20x ($200/월): Pro의 20배

Claude Code Pro: 5시간당 약 44,000 토큰

ChatGPT (OpenAI)

Plus ($20/월): 3시간 롤링 윈도우에 모델별 80~160개 메시지

Pro ($200/월): 사실상 무제한 (남용 방지 가드레일 존재)

Gemini (Google)

무료 API: 분당 5요청, 일일 20~100요청, 분당 25만 토큰

유료 Tier 1: 무료의 10~30배 용량

여기서 핵심은 이것이다. 메시지 기반 제한이든 토큰 기반 제한이든, 한국어 사용자는 같은 할당량을 영어 사용자보다 3~5배 빠르게 소진한다. Claude Code를 예로 들면, Pro 사용자의 5시간 예산 44,000 토큰은 영어로 작업하면 넉넉하지만, 한국어로 대화하면 실질적으로 15,000토큰 이하의 예산과 다름없다.

구독료는 같은데 받는 서비스의 양이 다르다. 이것이 토큰 비대칭의 본질이다.

우리만의 문제가 아니다 — 다른 나라는 어떻게 하고 있나

이 문제로 고민하는 것은 한국만이 아니다. 전 세계 비영어권이 같은 상황에 놓여 있고, 각자 나름의 대응을 하고 있다.

일본: "영어로 생각하고, 일본어로 출력하라"

일본 핀테크 기업 LayerX는 2025년 엔지니어링 블로그에 구체적인 기법을 공개했다. AI에게 중간 추론 과정(Chain-of-Thought)은 영어로 수행하게 하고, 최종 답변만 일본어로 출력하게 한 결과, 출력 토큰이 약 20% 줄었다. 또 다른 일본 엔지니어의 분석에 따르면, 일본어 프롬프트를 영어로 번역해서 보내면 토큰 소비가 대략 절반으로 줄었다. 이 글에서 제안하는 것과 같은 전략이다. 일본 개발자 커뮤니티에서는 이미 표준 관행에 가깝다.

중국: 자국 LLM을 만들었다

중국은 다른 길을 택했다. 토크나이저를 바꿀 수 없으면 모델 자체를 만드는 것이다. DeepSeek-V3는 128K 어휘의 토크나이저를, Qwen 3은 152K 어휘에 119개 언어를 지원하는 토크나이저를 자체 개발했다. 2025년 중반 기준, 중국산 LLM이 글로벌 사용량의 약 30%를 차지한다. 토큰 효율만이 이유는 아니지만, 자국어 최적화가 이동의 한 축인 것은 분명하다.

태국: 10~15배 불이익에 맞선 자구책

태국어는 토큰 배율이 10~15배로, 한국어보다 상황이 훨씬 심각하다. 태국 최대 은행(SCB) 자회사 SCB10X가 개발한 Typhoon은 기존 모델 대비 태국어 토크나이징 효율을 2.62배 개선했다. OpenThaiGPT는 기존 토크나이저에 태국어 토큰 24,554개를 추가해서 토큰 소비를 1/3로 줄였다. 자국어로 AI를 쓰기 위해 모델 자체를 뜯어고치는 것이다.

한국: 서울대 Thunder-Tok

서울대 연구팀은 한국어 문법 구조에 맞춘 토크나이저 Thunder-Tok을 개발했다. 기존 LLaMA 토크나이저 대비 44% 토큰 절감을 달성했고, 특허도 출원했다. 연구팀은 이것을 "AI 주권"의 문제로 프레이밍하고 있다 — 대기업이나 해외 빅테크에 의존하지 않는 독자적 LLM 개발이 가능하다는 의미에서.

그런데 요금 정책은 바뀌지 않았다

흥미로운 것은 학계의 반응이다. 2025년 ICML(국제머신러닝학회)에서 막스플랑크 연구소는 "토큰당 과금"이 구조적으로 불공정하다는 것을 수학적으로 증명하고, "글자당 과금(pay-per-character)"을 대안으로 제시했다. 기술을 바꿀 필요도 없다. 과금 단위만 바꾸면 되는 사업 결정이다. 하지만 2026년 현재, OpenAI, Anthropic, Google 중 언어별 차등 요금이나 글자당 과금을 도입한 곳은 없다.

더 근본적인 해법도 연구 중이다. Meta는 2024년 Byte Latent Transformer(BLT)를 발표했다. 토크나이저 자체를 없애고 바이트 단위로 직접 처리하는 아키텍처다. 토큰이 없으니 언어별 편향도 없다. LLaMA3 수준의 성능을 달성했지만, 아직 대규모 상용 서비스에 적용되지는 않았다.

결국, 근본적 해결(새 토크나이저, 새 아키텍처, 새 요금 정책)은 모두 "연구 중" 또는 "제안됨" 단계에 머물러 있다. 당장 쓸 수 있는 것은 사용자 측의 대응뿐이다.

그래서 어떻게 해야 하나 — 영어로 쓰고, 한국어로 받아라

원인을 탓해봐야 당장 토크나이저가 바뀌지는 않는다. 결론은 단순하다. 사용량 제한이 있는 환경에서는 프롬프트를 영어로 써라.

방법은 간단하다. 질문이나 지시를 영어로 쓰고, 끝에 "Reply in Korean" 한 줄만 추가한다. AI는 영어로 지시를 받고, 한국어로 답한다. 입력 토큰이 3~5배 줄어들고, 결과물은 여전히 한국어다.

개발자용 예시:

Before: "이 코드에서 버그를 찾아서 수정해줘. 수정 이유도 설명해줘."

After: "Find and fix bugs in this code. Explain the fix. Reply in Korean."

일반 사용자용 예시:

Before: "다음 주 팀 회의 안건을 정리해줘. 지난 주 논의 내용을 바탕으로."

After: "Summarize agenda items for next week's team meeting based on last week's discussion. Reply in Korean."

한 단계 더 — AI의 사고 과정도 영어로

여기서 한 단계 더 나갈 수 있다. 최신 AI 모델들은 답변을 생성하기 전에 내부적으로 '생각'하는 과정을 거친다. Claude의 extended thinking, ChatGPT의 reasoning 모드가 대표적이다. 이 내부 사고 과정을 Chain of Thought(CoT)라고 부른다.

문제는 한국어로 질문하면 AI가 한국어로 생각한다는 점이다. 사고 과정에서도 한국어 토큰이 소비된다. 복잡한 문제일수록 사고 과정이 길어지고, 그만큼 토큰 낭비도 커진다.

해법은 간단하다. 프롬프트에 "Think in English"를 추가하면 된다.

기본: "Find and fix bugs in this code. Reply in Korean."

CoT 최적화: "Think in English. Find and fix bugs in this code. Reply in Korean."

앞에서 언급한 일본 핀테크 기업 LayerX가 바로 이 기법을 실제 업무에 적용해서 출력 토큰을 약 20% 절감한 사례다. AI가 영어로 생각하면 사고 과정 자체가 더 적은 토큰으로 처리된다.

최선의 전략 — 전부 영어로

솔직하게 말하면, 토큰 효율만 놓고 봤을 때 최선은 전부 영어로 하는 것이다. 입력도 영어, 사고 과정도 영어, 출력도 영어. 이렇게 하면 토큰 소비가 영어 사용자와 완전히 동일해진다. "Reply in Korean"을 빼는 것만으로 출력 토큰까지 3~5배 절약된다.

영어 출력을 읽을 수 있다면 — 특히 코드 리뷰, 데이터 분석, 기술 문서 작업처럼 결과물의 언어가 크게 중요하지 않은 경우라면 — 전부 영어로 하는 것을 권한다. 사용량 제한에 걸릴 확률이 확연히 줄어든다.

물론 모든 상황에서 가능한 것은 아니다. 한국어 보고서를 써야 하거나, 한국어 콘텐츠를 만들어야 한다면 출력은 한국어여야 한다. 그래서 상황에 따라 세 단계로 나눌 수 있다:

"영어를 잘 못하는데?"라고 생각할 수 있다. 걱정할 필요 없다. AI에게 보내는 영어는 완벽할 필요가 없다. 문법이 틀려도 의도는 잘 파악한다. "fix bug this code, explain why, korean please" 정도로도 충분하다. 유창한 영어가 아니라 토큰 효율이 목적이니까.

한 가지 더. 대화가 길어지면 이전 대화 내용이 매번 다시 전송된다. 한국어로 10번 주고받은 대화의 히스토리는 영어로 같은 대화를 한 것보다 3배 무겁다. 대화가 쌓일수록 격차는 가속된다. 그래서 첫 메시지부터 영어로 시작하는 것이 중요하다. 나중에 바꿔봐야 이미 쌓인 한국어 히스토리의 무게는 줄어들지 않는다.

마무리 — 언어 선택이 곧 전략이다

정리하면 이렇다.

한국어는 영어보다 3~5배 많은 토큰을 소비한다. 토크나이저의 구조적 문제이며, 당분간 해결될 기미가 없다.

모든 주요 AI 서비스는 토큰 기반 사용량 제한을 적용하고 있다. 한국어 사용자는 같은 구독료로 1/3~1/5의 서비스를 받는 셈이다.

가장 직접적인 대응은 프롬프트를 영어로 쓰는 것이다. "Reply in Korean" 한 줄이면 결과물의 언어는 유지된다.

이상적으로는 AI 서비스 제공자들이 다국어 토큰 효율을 개선하거나, 언어별 차등 요금제를 도입하는 것이 맞다. 하지만 2026년 2월 현재, 주요 AI 기업 중 이 문제에 대한 공식 개선 계획을 발표한 곳은 없다.

모국어로 편하게 쓰고 싶은 마음은 당연하다. 하지만 토큰 예산이 빠듯한 상황이라면, 프롬프트 언어 하나 바꾸는 것으로 사용 가능 시간이 2~3배 늘어난다는 사실을 기억하자. AI 시대에 영어가 주는 실질적 이점이 하나 더 생긴 셈이다 — 다만 이번에는 유창함이 아니라, 토큰 효율이라는 이름으로.

참고 자료

[1] "All Languages Are NOT Created (Tokenized) Equal," OpenAI Community, 2024. https://community.openai.com/t/all-languages-are-not-created-tokenized-equal/216407

[2] "Need More Efficient Tokenizer for Korean," OpenAI Community, 2024. https://community.openai.com/t/need-more-efficient-tokenizer-for-korean/286682

[3] "The Mystery of the Claude 3 Tokenizer," Token Contributions, 2024. https://tokencontributions.substack.com/p/the-mystery-of-the-claude-3-tokenizer

[4] "Claude AI Pricing 2026 Guide," GLB GPT, 2026. https://www.glbgpt.com/hub/claude-ai-pricing-2026-the-ultimate-guide-to-plans-api-costs-and-limits/

[5] "Claude Code Token Limits Guide," Faros AI, 2026. https://www.faros.ai/blog/claude-code-token-limits

[6] "Tokenization Efficiency for Ukrainian Language," Frontiers in AI, 2025. https://www.frontiersin.org/journals/artificial-intelligence/articles/10.3389/frai.2025.1538165/full

[7] "ChatGPT Plus Limits Explained 2025," GLB GPT, 2025. https://www.glbgpt.com/hub/chatgpt-plus-limits-explained-what-users-need-to-know-in-2025/

[8] "Gemini API Rate Limits," Google AI, 2026. https://ai.google.dev/gemini-api/docs/rate-limits

[9] "Manage Costs," Claude Code Docs, 2026. https://code.claude.com/docs/en/costs

[10] LayerX Engineering Blog, "English CoT, Japanese Output Technique," 2025. https://tech.layerx.co.jp/entry/2025/06/26/103945

[11] kathane, "Not Speaking English to ChatGPT Costs You Millions of Tokens," 2025. https://kathane.substack.com/p/not-speaking-english-to-chatgpt-costs

[12] Max Planck Institute, "Is Your LLM Overcharging You?," ICML 2025. https://arxiv.org/abs/2505.21627

[13] Seoul National University, "Thunder-Tok: Korean-Specific Tokenizer," 2025. https://arxiv.org/abs/2506.15138

[14] TechBukket, "GPT 토큰의 비밀: 왜 한국어는 느리고 비쌀까?," 2025. https://techbukket.com/blog/gpt-token-korean

[15] SCB10X, "Typhoon 2: Open Thai LLMs," 2024. https://arxiv.org/html/2412.13702v2

[16] Meta FAIR, "Byte Latent Transformer," 2024. https://arxiv.org/abs/2412.09871

keyword

김동린 소속 건설사AI엔지니어 직업 개발자

쉽고 재밌게 푸는 AI

팔로워 20

작가의 이전글바이브 코딩으로 오토튠 적용 노래방 만들기AI학과, 어떻게 골라야 할까작가의 다음글