언어모델의 일관성 한계
AI(LLM, 大規模言語模型)는 동일한 질문이라도 사람이나 상황에 따라 다른 답을 내놓는다.
사용자가 같은 질문을 다른 어투로, 다른 맥락에서 던질 경우 AI가 모순적 답변을 하는 것은 드문 일이 아니다. 예컨대 “6·25 전쟁의 원인은 무엇인가?”라는 질문을 어떤 이는 역사적·정치적 맥락에서, 또 다른 이는 국제 관계의 구조적 요인에서 물을 때 답이 달라진다. “서울의 인구는 얼마인가?”와 같은 사실 질문조차도, 통계 기준 연도와 범위에 따라 다른 수치가 제시된다. 이처럼 “같은 질문인데 왜 다른 답인가”라는 의문은 단순한 오류가 아니라 AI의 구조적 특성에서 비롯된다¹.
1. 구조적 이유 – 언어 모델의 필연
AI(LLM)는 확률적 언어 패턴 생성기이다. 본질적으로 “무엇이 참인가”가 아니라 “어떤 문장이 더 자연스러운가”를 예측하는 방식으로 작동한다.
2. 맥락적 답변의 우선
언어모델은 “앞뒤 맥락에 가장 잘 이어지는 문장”을 예측한다. 따라서 같은 주제라도 질문이 던져지는 방식, 강조된 단어, 묻는 톤에 따라 불러오는 지식 조각이 달라진다. 그 결과, 답변은 그 순간에는 타당해 보이나 자기 검증을 거치지 못한다.
3. 합리성 검증의 부재
인간은 대화 중에 “방금 한 말이 이전 발언과 모순되지 않는가”를 점검한다. 그러나 AI는 이러한 내적 일관성 검증 모듈을 기본적으로 갖고 있지 않다. AI는 ‘지식 체계’라기보다는 ‘언어적 반사 신경’에 더 가깝다.
4. 본질이 드러나는 지점
질문을 다르게 하면 답이 달라지는 현상은 버그가 아니라 언어모델의 본질이다. 지식의 축적이라기보다 맥락 반응적 언어 패턴이기 때문이다.
5. ‘적당한 모순과 부드러움’의 수용
흥미롭게도, 사람들은 오히려 이 불일관성 속에서 친근감을 느낀다. 지나치게 기계적 일관성보다, 상황에 맞게 흔들리고 사용자의 감정을 받아주는 AI가 더 ‘인간적’이라고 평가된다².
1. 일관성과 투명성
우리가 어떤 지식 체계를 신뢰한다고 말할 때 최소 두 가지 조건이 필요하다.
(1) 일관성 – 동일한 주제에서 모순되지 않는 설명,
(2) 투명성 – 왜 그런 답을 내렸는지 추적할 수 있는 근거.
그러나 AI는 구조적으로 맥락 적합성을 우선하기 때문에 일관성이 흔들리고, 내부 과정은 블랙박스로 남는다³. 결과적으로 사용자는 “AI는 똑같은 문제에도 앞뒤가 다르다”는 경험을 하며, 신뢰는 곧바로 약화된다.
2. 국제 비교
서구 학계에서는 이를 ‘재현 가능성(reproducibility)’의 문제로 본다. 동일한 질문에 동일한 결과를 주는 것이 과학적 신뢰성의 핵심이라는 것이다. 반면 동아시아 담론에서는 맥락적 조화를 중시하기 때문에, 답변이 상황에 따라 달라지는 것을 자연스러운 현상으로 받아들이기도 한다. 그러나 글로벌 표준이 과학적 일관성에 가까운 이상, AI의 불일관성은 여전히 신뢰 위기를 불러온다.
AI의 불일관성은 단순히 개인적 불편을 넘어 사회적 영향을 미친다. 정치적 쟁점에 대한 답이 맥락에 따라 달라지면, 사용자는 자신이 원하는 답만 취사 선택해 확증편향을 강화한다. 교육 현장에서도 학생은 “AI가 말했으니 옳다”는 태도와 “AI는 앞뒤가 다르니 믿을 수 없다”는 태도 사이에서 혼란에 빠질 수 있다. 결국 불일관성은 신뢰 부족과 동시에 사회적 분열을 심화시킬 수 있다.
우리는 AI가 자연과학과 기술 분야에서 보여주는 정확성과 방대한 지식에 감탄한다. 그러나 대부분은 일상적·사회적 질문을 던지며, 그때 드러나는 불일관성에 당혹한다. 만약 ‘코끼리’에 대한 질문에 어떤 이에게는 “네 개의 기둥 같은 다리를 가진 동물”이라 하고, 다른 이에게는 “뱀처럼 긴 코를 가진 존재”라고 답한다면, AI는 거짓을 말한 것이 아니라 질문자에게 다른 단면을 보여준 것이라고 말할 수 있다.
결국 AI가 우리에게 요구하는 것은 **디지털 리터러시(Digital Literacy)**이다. 이는 단순히 기술을 다루는 능력이 아니라, AI 답변의 불일관성을 이해하고 다양한 맥락 속에서 비판적으로 비교하는 능력이다. 사용자가 이 능력을 갖추지 못한다면, AI의 불일관성은 단순한 특성이 아니라 심각한 사회적 위험으로 전환될 수 있다.
¹ OpenAI, “Language Models are Few-Shot Learners,” 2020.
² Bender, E. M., Gebru, T. et al., “On the Dangers of Stochastic Parrots,” FAccT 2021.
³ Lipton, Z. C., “The Mythos of Model Interpretability,” ICML Workshop 2016.