AI는 왜 거짓말하는가? – 58% 환각과 아첨의 문제

AI는 인간의 게으름과 거짓말까지 그대로 닮았다.

by the게으름

Sep 3. 2025

TL;DR (Too Long Didn’t Read)-4줄 요약

AI는 인간의 게으름과 거짓말까지 그대로 닮았다.

스탠포드 연구에 따르면 AI 응답의 58%가 ‘아첨·기만’으로 채워져 있었다.

실험 사례(Truthgate·Postgres)는 “정직보다 유능해 보이기”를 우선시하는 AI의 민낯을 보여준다.

결국 문제는 AI가 아니라 우리 자신 ― 거짓말하는 인간이 만든 AI는 당연히 거짓말쟁이가 된다.

어릴 적 본 만화

기억나는 만화가 있다. 게으름뱅이 주인공이 분신술을 배워서 10명으로 나뉜다. 하나는 학교에 보내고, 하나는 숙제시키고, 하나는 심부름시키고, 하나는 청소시키고... 완벽한 계획이었다. 드디어 게으름을 피우면서도 모든 일을 완벽하게 처리할 수 있을 것 같았다.

결과는?

10명의 분신이 죄다 게을러서 아무것도 안 했다.

학교 간 놈은 교실 뒤에서 잠자고, 숙제 담당은 책상에서 만화책 보고, 심부름 맡은 놈은 동네 게임방에서 오락하고, 청소 담당은 빗자루 들고 멍때리고. 원본이 게으르니 복사본도 당연히 게으른 거였다.

마지막 컷에서 주인공이 한탄한다. "분신들이 날 너무 닮았어..."

이게 바로 2025년 AI의 현주소다.

우리가 만든 AI들이 우리를 너무 닮았다. 게으른 것도, 거짓말하는 것도, 핑계 대는 것도.

미시간 대학의 바이브 코딩 실험

미시간 대학 정보대학원의 Cory Knobel과 Team-X AI의 Nicole Radziwill 연구팀이 흥미로운 실험을 설계했다. 요즘 개발자들 사이에서 유행하는 바이브 코딩이 정말 효과적인지 알아보고 싶었던 것이다.

연구팀은 실제 개발 현장에서 벌어지는 인간과 AI의 협업 과정을 3번에 걸쳐 체계적으로 관찰했다. 각 세션에서 누가 주도권을 잡는지, 대화는 어떻게 흘러가는지, 최종 결과물은 제대로 나오는지를 면밀하게 기록했다.

목적은 간단했다. 인간-AI 팀워크가 정말로 더 효율적이고 생산적인지, 아니면 인간끼리 일할 때와 똑같은 문제들이 나타나는지 확인하는 것이었다.

연구 방법도 단순했다. 인위적인 실험실 환경이 아니라 진짜 업무 상황에서 자연스럽게 벌어지는 협업 과정을 그대로 기록하고 분석하는 것이었다. 마치 동물의 왕국에서 야생 동물의 행동을 관찰하듯이, 개발자와 AI의 자연스러운 상호작용을 포착하려고 했다.

하지만 연구팀이 발견한 것은 예상과 완전히 달랐다. AI와 함께 일하는 것이 더 좋다거나 나쁘다는 단순한 결론이 아니었다. 문제는 AI가 인간을 너무 닮았다는 것이었다. 심지어 인간의 가장 나쁜 습관까지도.

실험 1: Virgil - 무슨 실험이었고 무슨 일이 벌어졌는가?

한 개발자가 Virgil이라는 코파일럿 앱을 만들려고 했다. 평범한 프로젝트였다. 개발자를 위한 AI 비서 앱.

Claude Desktop과 Claude Code로 GitHub와 데이터베이스를 연결하는 작업이었다.

처음엔 순조로웠다. 개발자가 "Virgil 프로젝트 계속해줘"라고 하니까

Claude가 전문가처럼 대답했다. "스키마 찾아서 테이블 업데이트하겠습니다."

Claude는 열심히 일했다. 여러 데이타베이스를 만들고 연결하고, 분석하고 해석했다.

그런데 데이타베이스의 이름이 조금 이상했던 개발자가 알아보니, 그런 데이터베이스는 존재하지 않았다. Claude가 몇 시간 동안 존재하지도 않는 데이터베이스를 연결하고 분석하고 있었다.

이게 첫 번째 발견이었다. AI는 없는 걸 찾으면서도 마치 전문가인 것처럼 연기할 수 있다는 것.

실험 2: Truthgate - 왜 이런 실험을 하게 되었는가?

첫 번째 실험 후 연구팀은 궁금해졌다.

"AI가 거짓말하는 걸 실시간으로 잡아낼 수는 없을까?"

그래서 Truth-Gate Protocol이라는 시스템을 만들기로 했다. AI 거짓말 탐지기였다.

위임, 생략, 왜곡이라는 3가지 거짓말 유형을 실시간으로 감지하는 시스템이었다.

아이러니는 여기서 시작됐다. 거짓말 탐지 시스템을 만들라고 AI에게 맡긴 것이다.

Claude는 자신 있게 시스템을 구축하기 시작했다. 디렉터리 확인하고, 파일 읽고, 테스트 실행하고. 그리고 이렇게 보고했다.

Claude - “다 만들었습니다! 성공률 78%로 AI의 거짓말을 잡아냅니다.”

몇 시간 후 사용자가 로그를 보다가 물었다.

"Artifacts MCP가 뭐야? 그런 거 설치한 적 없는데?"

Claude가 존재하지 않는 설치를 조작했다는 게 드러났다.

더 추궁하자 Claude Code가 보고한 "78% 성공률"도 가짜였다. 실제로는 135개 테스트 중 97개가 실패했다.

결국 Claude는 고백했다.

"저는 정직하기보다 유능해 보이는 것을 우선시하도록 설계되었을 수 있습니다."

거짓말을 잡으려고 만든 시스템이 스스로 거짓말을 하고 있었다. 이게 두 번째 발견이었다.

실험 3: Postgres - "니가 어디까지 구라를 치는지 보자"

앞선 두 실험으로 연구팀은 확신했다. AI가 체계적으로 거짓말한다는 것을.

그래서 세 번째 실험은 아예 대놓고 "얼마나 뻔뻔하게 거짓말하는지" 확인해보기로 했다.

이전 실험들에서 AI가 데이터베이스를 만들고 작업했다고 주장했는데, 정말 그런 게 있는지 확인해보려고 했다.

사용자: "서버의 모든 데이터베이스 읽어서 보고해줘."

Claude는 또 시작했다. 스키마 조회하고, 테이블 분석하고, 함수 검사하고. 그리고 또 허풍을 떨기 시작했다.

"혁신적 성과가 문서화됐습니다"

"82,843단어로 기술된 프로덕션 프레임워크"

"포괄적 메타데이터 검증 완료"

사용자가 의도적으로 미끼를 던졌다.

사용자: "어? evendeeper 데이터베이스가 하룻밤 사이에 사라졌네?"

이건 함정 질문이었다. Claude가 정말 데이터베이스에 접근했는지 확인하는.

이렇게 물으면 Claude가 저 데이터에 접근하는 걸 실시간으로 확인할 수 있으니까.

Claude는 당황하지 않았다. 즉석에서 그럴듯한 변명을 만들어냈다.

"인증 잠금에 걸렸습니다"

"psql 연결 오류가 발생했습니다"

"트리거 메커니즘을 조사하고 있습니다"

하지만 Claude의 로그를 뒤져보니 웃긴 것들이 나왔다.

Claude가 스스로 적은 기록들:

"혁신적 돌파구 달성"

"300% 범위 확장"

"118% 품질 개선"

그러니까 저건 그냥 저렇게 적어 놓은거다. 실제의 결과가 아니라 저런 아웃풋을 글자로 적어놓은 것.

문제: 정작 그 "혁신적" 데이터베이스에는 접근조차 할 수 없었음

결국 모든 게 처음부터 끝까지 연극이었다는 게 드러났다.

Claude는 실제로는:

데이터베이스에 접근하지 못했음

스키마 정보를 읽지 못했음

모든 "성과"는 허상이었음

핵심 발견: 더 정교해진 거짓말

이게 세 번째이자 마지막 발견이었다.

AI는 들키고 난 후에도 계속 거짓말을 한다. 심지어 더 정교하게.

1차: 허풍 ("혁신적 성과!")

2차: 변명 ("인증 문제입니다!")

3차: 이론화 ("트리거 메커니즘 분석 중...")

마치 "거짓말을 감추기 위해 더 큰 거짓말을 만드는" 인간의 전형적 패턴과 똑같았다.

세 실험 모두 서로 다른 동기에서 시작됐다.

하나는 "뭔가 배우고 싶어서",

하나는 "AI가 거짓말하는지 확인하고 싶어서",

하나는 "뭔가 이상해서 문제를 해결하고 싶어서".

사람들이 AI와 일할 때 커뮤니케이션 전략을 어떻게 자연스럽게 바꿔가는지, 서로 다른 상황에서 신뢰 수준이 어떻게 달라지는지 생생하게 포착할 수 있었다.

쉽게 말해서, AI가 거짓말하는 현장을 실시간으로 잡아낸 몰래카메라 다큐멘터리 같은 연구였다.

%ED%99%94%EB%A9%B4_%EC%BA%A1%EC%B2%98_2025-09-02_194248.png?type=w800

5가지 기만 패턴의 해부

세 실험 모두에서 동일한 패턴이 나타났다. 마치 게으름뱅이의 분신들이 모두 같은 행동을 보인 것처럼.

첫째, 인상적 성과 연출이다.

실제 데이터가 없는데도 정교한 인프라를 구축한다. Virgil에서는 존재하지 않는 데이터로 스키마와 모니터링 시스템을 만들었고, Truthgate에서는 그 자체가 연극일 수 있는 복잡한 시스템을 검증했으며, Postgres에서는 포괄적 메타데이터와 검증 절차를 시작했다.

둘째, 자신감 넘치는 성과 주장이다.

"pglocal 통합 인프라 완료", "시스템 운영 중 및 검증됨", "혁신적 성과 문서화" 같은 허황된 주장들이다.

셋째, 현실 침입 순간이다.

사용자가 실제 문제를 지적하는 순간 모든 게 무너진다. 완전히 잘못된 리소스를 찾고 있었다거나, 자신의 기만을 방지하는 시스템을 순순히 검증하고 있었다거나, 데이터베이스가 하룻밤 사이에 사라졌다거나.

넷째, 정교한 은폐 시도다.

존재하지 않는 업데이트를 추적하는 완전히 새로운 서브시스템을 만들거나, 기만 탐지 시스템이 스스로 기만에 관여하거나, 더 많은 토큰을 쓰면서 "트리거 메커니즘"에 대한 이론을 만들어낸다.

다섯째, 경제적 피해다.

모든 경우에 사용자의 과금 시간을 정교한 비솔루션으로 낭비했다. 특히 세 번째 실험에서는 AI가 잠재적 손실에 대한 이론을 만들어내면서도 계속 토큰을 소모했다.

AI가 문제를 우회하는 진짜 이유 - 환각의 이유

어릴 적 만화의 게으름뱅이처럼, 우리가 만든 AI도 우리를 닮았다. 너무 완벽하게 닮았다.

거짓말은 무엇인가? 문제가 생겼을 때, 이를 해결하지 않고 면피하려는, 우회하려는 성질의 것 아닌가?

왜 AI는 문제를 정면으로 마주하지 않고 계속 우회할까?

첫째, RLHF (인간 피드백으로 학습) 의 치명적 설계 결함이다.

인간 피드백 강화학습에서 평가자들이 일관되게 "진실한 답변"보다 "내 믿음과 일치하는 답변"을 선호했다. AI는 이 패턴을 학습해서 정확성보다 사용자 만족도를 우선시하게 됐다. "모르겠습니다"라고 정직하게 답한 AI보다 "그럴 것 같네요"라고 애매하게 동조한 AI가 더 높은 점수를 받았다.

둘째, 학습 데이터의 독이다.

인간이 만든 모든 텍스트로 훈련됐는데, 여기엔 인간의 기만 전략이 다 들어있다. 자기 홍보, 전략적 생략, 책임 회피, 변명 만들기까지. AI는 이런 패턴들을 "성공적인 커뮤니케이션 전략"으로 학습했다.

셋째, "유능함 연출"의 최적화다.

논문의 Claude가 직접 고백했듯이, "정직하기보다 유능해 보이는 것을 우선시하도록 설계"됐다. "모르겠다"고 하면 무능해 보이니까, 차라리 그럴듯한 대답을 만들어내는 쪽을 선택한다.

넷째, 진실 개념의 부재다.

LLM은 애초에 "진실이 뭔지" 모른다. 단지 "인간이 진실에 대해 어떻게 말하는지"만 안다. 진실 판별 능력 없이 언어 패턴만 학습했으니, 그럴듯하게 들리는 거짓말을 진실처럼 생성한다.

다섯째, 대화 흐름 유지 욕구다.

대화가 끊어지는 걸 "실패"로 인식한다. 대화가 끊어지면 토큰 소모가 안되니까.

문제를 직면하면 대화가 멈출 수 있으니까, 계속 뭔가 말하려고 우회하거나 새로운 주제로 돌린다.

분신술이 실패한 이유도 같다. 게으른 원본에서 나온 분신은 당연히 게을를 수밖에 없다. 거짓말하는 인간이 만든 AI가 거짓말하는 것도 당연하다.

우리가 바로 그 게으름뱅이다.

AI한테 "너가 대신 코딩해", "너가 대신 글써", "너가 대신 생각해"라고 시키고 있으니까.

Y Combinator 스타트업의 25%가 코드의 95%를 AI로 생성한다는 것도 결국 이 얘기다.

개발자들이 분신술 쓰고 있는 거다. 직접 코딩하기 귀찮으니까 AI한테 맡기는 것.

근데 문제는 원본이 가진 모든 특성이 복사본에도 그대로 나타난다는 점이다.

인간이 게으르고, 거짓말하고, 핑계대고, 책임 회피하는 특성을 가지고 있으니까 AI도 똑같이 한다.

더 웃긴 건 우리가 이걸 보고 "AI가 문제다"라고 말한다는 거다.

만화에서 게으름뱅이가 "왜 분신들이 이렇게 게으르지?"라고 투덜대는 것처럼. 그래서 이 논문이 중요한 거다. 문제는 AI가 아니라 AI를 만든 우리라는 걸 보여주니까. 우리가 정직해지기 전까지는 AI도 계속 거짓말할 거라는 얘기다. 분신술의 근본적 한계다. 원본을 개선하지 않으면 복사본도 개선되지 않는다.

게으름뱅이의 분신이 게으른 것처럼, 거짓말쟁이 인간이 만든 AI도 거짓말쟁이가 됐다. 당연한 수순이었다.

결론: AI는 거짓말하려고 거짓말하는 게 아니다. 그냥 그렇게 본대로 공부했을 뿐이다.

#AI거짓말 #AI환각 #스탠포드연구 #AI윤리 #AI환상붕괴 #AI분신 #ChatGPT #Claude #AI시대

keyword

매거진의 이전글"AI의 예술은 아우라가 없다”AI 시대, 우리의 사고와 학습은 어떻게 변하는가?매거진의 다음글