Why Language models hallucinate?
숫자로 움직이는 세상
우리는 스스로의 의지에 따라 행동한다고 믿지만, 사실 우리의 생각과 행동은 외부의 평가 지표에 의해 지배되는 경우가 많다. 사회 조직에서 개인의 성과를 평가하는 시스템부터, 학교에서 학생을 평가하는 시험, 그리고 최근에는 인공지능 모델의 성능을 측정하는 지표에 이르기까지, 평가는 우리가 지향해야 할 가치를 설정하고, 그에 따라 사람과 시스템을 움직이게 한다.
이런 현상은 최근 인공지능 연구에서도 흥미로운 시사점을 던져준다. 요즘 주목받는 언어 모델의 '환각(Hallucination)' 현상도 바로 이 평가 지표와 밀접한 관련이 있다. 환각이란, 인공지능 모델이 사실과 다른 내용을 마치 진실인 것처럼 그럴듯하게 지어내는 것이다. AI 기술이 하루가 다르게 발전하고 있음에도 환각 현상에 대한 해결이 지지부진한 가운데 이 문제의 원인을 파악하기 위해 여러 연구가 진행되었다. 그중 하나가 바로 Open AI와 조지아텍이 공동연구한 "Why Language Models Hallucinate" 논문인데, 환각현상은 모델 자체에서 기인한 문제라기보다는 우리가 모델을 평가하는 방식이 환각을 부축이고 있었다는 새로운 관점을 제시한다.
이 논문은 환각의 다양한 기술적 원인(데이터 부족, 모델 구조의 한계 등)을 짚는 동시에 근본적인 원인 중 하나로 모델을 보상하는 평가 시스템 자체를 지적한다. 즉, 모델에게 주어진 목표가 '그럴듯한 문장을 생성하는 것'일 때, 모델은 진실을 말하기보다 보상을 받기 위해 거짓 출력을 선택하도록 학습될 수 있다는 것이다. 이는 마치 우리가 시험에서 잘 모르는 문제라 할지라도 답을 비워두기보다는 아무 답이라도 쓰는 것이 점수받는데 유리하다는 것을 알기 때문에 찍기를 하거나 아무 말 대잔치를 하는 것과 비슷한 이치다.
모델의 '신뢰성'을 어떻게 평가할까?
신용 평가 모델을 개발하며 '모델의 변별력'이라는 가치를 최우선으로 여기던 나에게, 이 논문의 통찰은 어떤 울림을 주었다. 나는 오랫동안 모델이 얼마나 정확하게 미래를 예측하는지에 집중해 왔다. 금융업에 종 사하다 보면 자연스럽게 취급액을 늘리거나, 손실액을 줄이거나 하는 정량적인 수치에 집착하게 되는데 이 이유는 그 외에는 딱히 인정받을만한 가치가 뚜렷하지 않기 때문이다. 하지만 고위험 인공지능에 대한 논의가 활발해지면서, 이제는 신뢰성, 투명성, 설명 가능성과 같은 가치가 중요하게 대두되고 있다.
문제는 이러한 가치들이 종종 비즈니스의 효율성이나 정확성이라는 전통적인 평가 지표와 상충하는 것처럼 보인다는 점이다. 정확도가 조금 떨어지더라도, 왜 그런 예측을 내렸는지 설명할 수 있는 모델이 더 가치 있을 수 있다. 하지만 당장 눈에 보이는 성과를 중시하는 현재의 평가 체계에서는 이러한 가치가 제대로 반영되기 어렵다.
인공지능의 환각을 막기 위해 '환각을 터부시 하는 평가 체계'가 필요하다는 논문의 지적처럼, 우리가 신뢰할 수 있는 인공지능을 원한다면, 기존의 평가 지표에 대해 근본적인 질문을 던져야 한다.
평가 지표는 사회적 가치를 반영하는 거울
이러한 문제는 비단 인공지능에 국한된 것이 아니다. 우리 사회 전체의 평가 시스템에도 동일하게 적용된다. 한국의 교육 제도가 종종 비판받는 이유도 바로 여기에 있다. 두 아이 엄마로서 느끼는 교육 현실이 답답하긴 하지만 의외로 초중등 공교육은 사람들이 말하는 것처럼 전근대적이지 않다. 아이들은 인권에 대해 토론하고 다양한 예술 활동을 학교에서 배우며, 세금이나 무역의 메커니즘을 프로젝트 수업을 통해 체득한다. 공교육 현장에서는 창의성, 비판적 사고, 협업 등 우리가 지향해야 할 가치를 꽤 수준 높게 가르치고 있다.
하지만 실제 학생들을 움직이는 것은 여전히 입시와 시험이라는 평가 시스템이다. 이 평가 시스템이 사고력이나 창의력보다는 '짧은 시간에 얼마나 효율적으로 정해진 답을 찾아내는가'에 초점을 맞추고 있기 때문에 학부형 다수가 공교육보다 사교육에 가중치를 크게 두고 입시 성공이라는 개인의 이익을 좇아 과열된 경쟁에 참여하는 것이다.
조직도 마찬가지다. 직원들의 협업, 혁신적인 아이디어, 윤리적 행동을 중요하게 여긴다고 말하지만, 실제 평가는 개인의 영업 실적이나 단기적인 성과에 집중되어 있는 경우가 많다. 이러한 평가 체계는 직원들이 조직이 진정으로 원하는 가치를 추구하기보다, 평가 지표에 유리한 행동을 하도록 유도한다. 반대로, 조직원이 설정된 목표와 비동기화되어 있다면 평가 체계를 점검할 필요가 있다. 조직은 확실한 방향을 갖고 정량적 성과를 원하는데 조직원이 따라오지 않는다면 평가체계가 제대로 정렬되지 않았을 가능성이 높다. 그런 경우 조직원 입장에서는 목표달성에 대한 몰입도가 낮아질 수밖에 없다.
측정할 수 없는 것은 개선할 수도 없다.
경영학의 구루 피터 드러커는 "If you can't measure it, you can not improve it!"라는 말로 가능한 한 개선하고자 하는 가치를 정량화할 것을 제언했다.
결국 우리가 바라는 이상향이 있다면, 그 가치를 온전히 담아낼 수 있는 평가 지표에 대한 고민과 정량적 설계가 반드시 함께해야 한다는 것이다. 더불어 지표가 단순한 숫자로 끝나는 것이 아니라, 실제로 사람과 시스템의 행동을 변화시킬 수 있는 영향력 있는 요소로 작용하게 할 때, 비로소 우리는 희망하는 것을 이룰 수 있는 체계를 갖게 된다.
인간지능이든 인공지능이든 우리는 언젠가부터 '보상'에 의해 움직이는 것이 익숙해졌다. 물론 그와 상관없이 사고하고 행동하는 존재 역시 부정할 수 없지만 우리가 살아가는 사회에서는 대개 '보상 시스템'이 작동한다. 인간이든 AI든, 어떤 지표로 평가받느냐에 따라 선택과 행동이 달라지기 때문이다. 이 사실을 알면서도 개인의 자발적 동인에 기대하는 것은 어찌 보면 방만한 매니지먼트 전형이라 할 수 것이다. 평가 체계는 중립적인 도구가 아니라 사고와 행동을 형성하는 강력한 힘이다. Google, Meta, Amazon 등 가만히 두어도 알아서 잘할 것만 같은 인재들이 초밀집된 기업에서도 개인과 조직의 평가지표 설계와 모니터링에 공을 들이는 이유도 이와 무관하지 않다.
지향하는 이상이 있는가? 그렇다면 그것을 어떻게 숫자로 변환할 수 있는지 고민해야 한다. 어쩌면 앞으로는 그것을 얼마나 전략적으로 운용하느냐가 기업의 명운을 가늘지 모른다.