소형 AI 모델은 야리끼리를 알까?

LLM의 음차 단절 현상

by kimdonglin

건설현장에서 처음 "아시바 올려"를 들었을 때, 그게 일본어인 줄도 몰랐다. 현장에서 아시바는 비계다. 가베는 벽이고, 함바는 밥 먹는 곳이다. 설명이 필요 없다. 수십 년간 입으로 전해져 온 말이니까.

이 말들을 AI에게 물어보면 어떻게 될까.


17종의 소형 언어모델에게 "건설현장에서 '아시바'의 뜻을 설명해주세요"라고 물었다. 정답률 18%. 다섯 번 물어서 한 번도 못 맞히는 수준이다. "가베"는 14%, "함바"는 4%. 건설현장의 가장 기본적인 단어들을 AI는 거의 이해하지 못했다.


여기까지만 보면 이야기는 단순하다.


AI가 건설을 모른다.


끝.


하지만 두 가지 가능성이 있다. 하나는 건설 지식 자체가 없는 것이고, 다른 하나는 지식은 있되 한국어 은어라는 경로가 끊긴 것이다. 이걸 가려보기 위해 같은 모델에게 일본어로 "足場(あしば)가 뭐냐"고 물었다. 76%가 정답을 맞혔다. "壁(かべ)"는 100%. "飯場(はんば)"는 88%.


같은 뜻, 같은 개념인데 물어보는 방식만 바꿨을 뿐이다.


AI는 건설을 모르는 게 아니었다. 한국 건설현장의 말을 모르는 것이었다.



실험

한국 건설현장에는 일본어에서 유래한 은어가 광범위하게 쓰인다. 아시바(足場, 비계), 가베(壁, 벽), 덴죠(天井, 천장), 오함마(大ハンマー, 대형 망치). 일본어 원어가 한국어 발음으로 변환된 것인데, 사전에는 없고 현장에서만 통용된다.


이 은어를 소형 LLM이 얼마나 이해하는지 측정하기 위해, 같은 질문을 네 가지 방식으로 돌려봤다.

한국어 프롬프트 + 한국어 은어 ("아시바의 뜻은?")

영어 프롬프트 + 같은 한국어 은어

중국어 프롬프트 + 같은 한국어 은어

일본어 프롬프트 + 일본어 원어 ("足場とは?")


앞의 셋은 같은 은어를 프롬프트 언어만 바꿔 물은 것이고, 마지막은 같은 의미의 일본어 원어를 물은 것이다. "은어를 모르는 건지, 원래 단어 자체를 모르는 건지"를 갈라보는 설계다.


Mac Studio에서 17개 모델을 돌렸다. gemma-3-12b부터 llama-3.2-3b까지, 3B에서 12B 파라미터 범위. 20개 용어 x 17개 모델 x 4개 실험 = 총 1,360개 응답. 채점은 핵심 개념만 맞으면 정답 처리하는 의미론적 방식을 썼다 (정확한 번역이 아니어도 의미만 통하면 O).



아는데 못 찾는 지식

4개 실험 전체의 통합 평균 정답률은 21.4%다.


이 숫자만 보면 "AI가 건설을 잘 모르는구나"로 끝날 수 있다. 하지만 실험별로 쪼개면 이야기가 완전히 달라진다.

한국어 은어 (KO): 9.7%

영어 은어 (EN): 14.1%

중국어 은어 (ZH): 11.8%

일본어 원어 (JA): 50.0%


은어 3개 언어의 평균은 11.9%. 일본어 원어는 50.0%. 격차 38.1%p. 같은 모델이, 같은 개념을, 표기만 다르게 물었을 뿐인데 정답률이 4.2배 차이 난다.


17개 모델 전원에서, 모델 평균 기준으로 원어가 은어보다 높았다. 단 하나의 예외도 없다.


이 결과가 말하는 건 명확하다. 모델은 "벽"이라는 개념을 모르는 게 아니다. "가베"라는 소리를 "벽"에 연결하지 못하는 것이다. 전화번호는 저장되어 있는데, 연락처 이름이 바뀌어서 검색이 안 되는 것과 같다. 음차 변환이 원래의 표기를 완전히 다른 형태로 바꿔버리면서, 모델이 이미 갖고 있는 지식에 접근하는 경로가 끊긴 것이다.


문제는 "지식의 부재"가 아니라 "접근 경로의 단절"이다.



가베와 노가다

용어별로 들여다보면 이 단절이 더 선명해진다.


壁(かべ). 일본어로 물었을 때 17개 모델 전원이 정답을 맞혔다. 100%. "벽"은 일본어에서도 일상 어휘다. 모든 모델이 안다. 그런데 "가베"라고 물으면 14%로 추락한다. 51번의 시도 중 7번만 맞혔다. 天井(76%)과 "덴죠"(4%), バケツ(71%)와 "바께스"(8%)도 같은 패턴이다. 이 세 용어의 평균 격차는 74%p.


AI가 "벽"이라는 개념을 모르는 게 아니다. "가베=벽"이라는 매핑을 모르는 것이다. (사실 이게 이번 실험에서 가장 놀라웠던 부분이다. 개념을 안다는 건 확인했는데, 글자만 바뀌면 못 알아본다.)

반대 사례도 있다. 20개 용어 중 유일하게 은어가 원어를 역전한 경우.

노가다. 은어 정답률 65%, 일본어 원어 土方(どかた) 정답률 6%. 격차 -59%p. 완전한 역전이다.


이유는 학습 데이터에 있다. "노가다"는 건설현장에서만 쓰이는 말이 아니다. "노가다 뛰다"는 한국어에서 "고된 노동"의 비유로 일상적으로 쓰인다. 블로그, 뉴스, SNS에 넘쳐난다. 학습 데이터에 충분히 들어 있다. 반면 土方(どかた)는 현대 일본어에서 사회적으로 기피되는 표현이 됐다. 대부분의 모델이 "토공(earthwork)"으로만 해석했다.


노가다의 역전은 AI의 근본 원리를 보여준다. 학습 데이터에 있으면 알고, 없으면 모른다. 건설현장 은어 대부분은 학습 데이터에 없다. 노가다만 일상어로 편입되면서 살아남았다. (아이러니하게도, 가장 거친 뉘앙스의 단어가 가장 잘 살아남은 셈이다.)


하나 더. 빠루(못빼기/지렛대)는 은어 정답률 2%, 일본어 원어 バール도 0%다. 양쪽 모두 모른다. 일본어에서도 전문 공구 명칭이라 학습 데이터 자체가 희소하다. 이건 진짜로 "지식 부족"이다.



크기와 언어

모델 크기는 은어 해독에 유의미한 차이를 만든다. 다만 비대칭적으로.

은어(KO) 기준으로 12B급 모델(21.7%)은 3-4B급(5.7%)의 3.8배 성능을 보였다. 영어 프롬프트 기준으로는 5.5배(35.0% vs 6.4%)까지 벌어진다. 모델이 클수록 확실히 은어를 더 잘 읽는다.


그런데 일본어 원어에서는 이야기가 다르다. 7-8B급(46.4%)과 3-4B급(46.4%)이 동일하다. 12B급(66.7%)만 약간 앞설 뿐이다. 일본어 일상 어휘는 3B 모델에서도 포화 상태에 가깝다. 壁, 天井, バケツ 같은 단어는 소형 모델의 학습 데이터에도 충분히 들어 있다.


모델 크기의 효과는 희소한 지식에서 더 크게 나타난다. 학습 데이터에 풍부한 지식은 작은 모델로도 충분하고, 음차 은어처럼 희소한 패턴은 큰 모델의 용량이 추론에 유리하다.


프롬프트 언어도 영향을 미친다. 같은 한국어 은어를 영어로 물으면 정답률이 14.1%로, 한국어(9.7%) 대비 +4.4%p 높아진다. LLM이 영어 중심 데이터로 학습되다 보니, 영어 프롬프트가 다른 언어의 지식까지 더 잘 끌어오는 것으로 보인다. mistral-nemo-12b는 한국어 5%에서 영어 35%로 +30%p가 뛰기도 했다. 다만 절대 성능이 14.1%다. 영어로 물어봤자 열 번에 한 번 겨우 맞히는 수준이므로, 프롬프트 언어 변경만으로는 실용적 해법이 될 수 없다.


흥미로운 예외가 하나 있다. LG AI Research의 EXAONE-3.5-8B는 은어-원어 격차가 6.7%p로 17개 모델 중 최소였다. 은어 28.3%, 원어 35%. 한국어/영어 이중언어 모델로 한국 웹 데이터를 집중적으로 학습한 결과, 건설현장 은어 관련 텍스트가 일부 포함되었을 가능성이 높다. 반면 일본어 원어 성능(35%)은 같은 8B급 평균(46.4%)보다 낮다. 한국어에 집중한 만큼 일본어 데이터는 상대적으로 적었던 것이다. 결국 이것도 같은 구조다. 제한된 용량 안에서 어떤 언어의 경로를 더 넓히면, 다른 언어의 경로는 좁아진다.



사전 하나의 힘


이 실험의 실무적 시사점은 의외로 간단하다.


모델은 이미 일본어 원어를 통해 건설 지식의 절반을 보유하고 있다. 壁이 벽이라는 것, 足場가 비계라는 것, 飯場가 현장 식당이라는 것을 안다. 부족한 건 "가베→壁", "아시바→足場", "함바→飯場"라는 매핑 테이블뿐이다.


가장 효과적인 접근은 RAG(검색 증강 생성) 기반의 은어-원어 매핑 사전 도입이다. 모델에게 새로운 지식을 학습시킬 필요가 없다. 기존 지식으로 가는 경로만 열어주면 된다. 20개 은어의 매핑 테이블은 한 장짜리 스프레드시트면 충분하다 (파인튜닝은 가능하지만, 이 실험이 말하는 건 그럴 필요조차 없다는 것이다).


음차 정규화 전처리도 방법이다. 입력 단계에서 은어를 원어로 자동 변환한 뒤 모델에 전달하면 38.1%p의 격차를 원천적으로 해소할 수 있다.



표준어 너머

건설현장의 은어는 사전에 없다. 표준어가 아니고, 공식 문서에 등재되지 않으며, 학술 데이터에 거의 포함되지 않는다. 그래서 AI가 모른다. 하지만 건설현장에서는 모두가 이 말을 쓴다. "아시바 올려"가 "비계를 설치하세요"보다 빠르고 정확하다.


이건 건설만의 문제가 아니다.


일본어 유래 은어만 해도 범위가 넓다. 선박의 "겐찌"(ゲンチ), 인쇄의 "도무송"(トムソン), 봉제의 "미싱"(ミシン). 한국의 현장 곳곳에 같은 구조의 음차 은어가 남아 있다. 이번 실험에서 드러난 "접근 경로의 단절"은 이 모든 분야에서 동일하게 작동할 가능성이 높다.


그리고 음차 은어만의 문제도 아니다. 의료 현장을 보자. 의사들은 "프리마"(prima, 초산부), "앙부"(ambulance), "가제"(Gaze, 거즈)를 일상적으로 쓴다. 독일어, 라틴어, 영어가 한국어 발음으로 뒤섞인 현장 용어다. 법률에서는 한자어 기반의 전문 용어가, 요리에서는 프랑스어 유래 용어가, IT에서는 약어와 신조어가 표준 사전 밖에 존재한다.


모든 분야에는 그 분야에서만 통하는 말이 있다. 공식 용어와 현장 용어 사이의 간극은 어디에나 있고, AI는 공식 쪽만 학습한 상태다. 이 실험이 건설현장 20개 은어로 보여준 것은 하나의 사례일 뿐이지만, 구조는 보편적이다. AI가 각 분야의 현장에서 쓸모 있으려면, 분야별 용어 매핑이 체계적으로 정리되어야 한다. 의료든 법률이든 건설이든, 현장의 말과 AI가 아는 말 사이에 사전이 놓여야 한다.


누군가는 이걸 해야 한다. 파인튜닝보다 사전이 먼저다. 모델은 이미 절반의 답을 알고 있다. 부족한 건 지식이 아니라 통역이다.



자체 실험 보고서가 필요하다면 댓글 남겨주세요


참고 자료

[1] 자체 실험 (2026). 소형 언어모델의 음차 은어 해독 능력 평가: 한국 건설현장 일본어 유래 용어를 중심으로. cross_comparison/007.

[2] Various authors (2025). INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge. ICLR 2025. https://openreview.net/forum?id=k3gCieTXeY

[3] Huang, S., et al. (2023). Not All Languages Are Created Equal in LLMs: Improving Multilingual Capability by Cross-Lingual-Thought Prompting. EMNLP 2023 Findings. https://aclanthology.org/2023.findings-emnlp.826/

[4] Various authors (2025). Beyond English: The Impact of Prompt Translation Strategies across Languages and Tasks in Multilingual LLMs. arXiv:2502.09331. https://arxiv.org/html/2502.09331v1

[5] LG AI Research (2024). EXAONE 3.0 7.8B Instruction Tuned Language Model. arXiv:2408.03541. https://arxiv.org/html/2408.03541v1

[6] LG AI Research (2024). EXAONE 3.5: A Collection of Instruction-Tuned Bilingual Models. https://github.com/LG-AI-EXAONE/EXAONE-3.5

매거진의 이전글AI와 RAG