김홍열의 디지털 콘서트
법원 제출 서류에 인공지능이 생성한 가짜 판례를 인용한 혐의로 세 명의 변호사가 총 5,000달러의 벌금을 부과받았다. 지난 2월 미국 와이오밍주 연방법원은 미국 대형 할인점 월마트를 상대로 개인 상해 소송을 제기한 모건앤모건 소속 변호사 2명과 소규모 로펌 소속 변호사 1명이 가짜 판례를 인용한 것과 관련, 이와 같은 결정을 내렸다. 모건앤모건은 1,000명이 넘는 변호사들에게 AI가 만든 가짜 판례를 법원 서류에 인용하면 해고될 수 있다는 내용의 내부 이메일을 발송했고, 켈리 랭킨 와이오밍주 연방지방법원 판사는 변호사들은 자신들이 인용한 판례가 실제 발생한 사건인지 확인해야 할 윤리적 의무가 있다고 밝혔다
법원 제출 서류에 가짜 판례를 인용한 경우는 또 있다. 미국 인디애나주 연방 판사는 AI가 생성한 가짜 사례를 인용한 변호사에게 15,000달러의 벌금을 부과했다. 비단 법원뿐만이 아니다. AI ‘할루시네이션(환각)’ 문제는 도처에서 발생하고 있다. 지난 24일 미국의 AI 코드 편집 회사인 커서(Cursor)에서 서비스하는 AI 모델의 환각으로 사용자들의 불만과 해지가 이어졌다. 사용 중 로그아웃이 계속 반복되자 불편을 느낀 사용자가 챗GPT 기반의 AI 챗봇 ‘샘’에게 그 이유를 문자, 샘은 “새로운 정책에 따라 예상되는 동작”이라고 답변했다. 어이없는 답변에 화가 난 사용자들의 탈퇴가 이어지자 커서는 AI 챗봇 샘이 회사에 없는 정책을 만들었다고 공식 발표했다.
이미지 출처=Pixabay.com
일반적으로 할루시네이션의 원인은 부족한 데이터, 데이터의 오류, 알고리즘 편향, 문맥 이해의 어려움 등 복합적 원인에 의해 발생한다. 따라서 데이터가 많아지고 학습량이 늘어나면 할루시네이션이 줄어들 것으로 예상했지만 현실은 그렇지 못하다. 오히려 AI 성능이 고도화될수록 할루시네이션 확률이 높아지고, 내용은 더 교묘해진다. 지난 16일 오픈AI가 공개한 최신 모델 o3와 o4 mini의 할루시네이션 확률은 각각 33%, 48%로 나타났다. 이전 추론 모델인 o1과 o3 mini이 보여줬던 16%와 14.8%보다 두세 배 이상 높은 수치다. 할루시네이션 확률이 높다는 것은 그만큼의 신뢰 하락을 의미한다.
그러니 신규 모델이 계속 나온다고 해도 근본적으로 AI의 할루시네이션은 피할 수 없다고 봐야 한다. 여기에는 두 가지 주요 이유가 있다. 하나는 기술적 원인에 기인한다. 생성형 AI 시스템의 기본 아키텍처인 대형 언어 모델(LLM)은 훈련 데이터의 통계적 패턴을 기반으로 텍스트를 생성한다. 이 과정에서 AI는 "진실"보다는 "그럴듯한 응답"을 작성하도록 훈련되었기 때문에 사실관계와 무관한 내용이 생성될 수도 있다. 데이터가 많은 경우에는 그럴듯한 응답이 진실에 가까울 수 있지만, 그렇지 않으면 잘못된 대답을 내어놓을 가능성이 높다. 또 데이터가 극히 부족한 최신 정보에서는 오류가 더 빈번하고 내용 또한 황당한 경우가 많다.
다른 하나는 현재 유통되는 텍스트의 불완전성에 기인한다. AI가 학습하는 텍스트는 현실 세계에서 유통되는 콘텐츠다. 이 콘텐츠에는 기본적으로 진실과 오류가 혼재되어 있다. 잘못된 정보, 조작된 데이터, 유언비어 등은 어느 정도 늘 있었지만, 레거시 미디어 시기에는 팩트 체크를 통해 검증된 텍스트가 주로 유통되었다. 그러나 디지털 네트워크 시대에 들어와 레거시 미디어의 영향력이 약해지면서 검증된 텍스트의 비중이 줄어들고 있다. 유튜브 대중 시대에는 이런 경향이 더 심해지고 있다. 알고리즘에 의한 확증편향이 심해져 팩트 확인된 콘텐츠보다는 자신의 취향·이념에 친밀한 콘텐츠를 더 소비하고 있고, 이런 콘텐츠의 조회수가 더 높게 나온다.
AI 업무 활용 (PG=연합뉴스)
그러나 가장 중요한 이유는 AI는 자신이 생성하는 내용의 정확성을 검증하는 내부 메커니즘이 없다는 사실이다. AI는 질문에 대한 답을 불과 몇 초 안에 제출한다. AI가 작성한 문장은 신뢰 가득한 긍정적 표현으로 가득 차 있지만, 잘못된 답변에 대해 결코 책임지지 않는다. 앞에서 사례 든 것처럼 실제 있지도 않은 판례를 그럴듯하게 만들어 사실인 것처럼 답변한다. 잘못된 답변으로 인한 책임은 당연히 인간이 부담한다. 이 사실이 매우 중요하다. ChatGPT 이후 생성형 AI가 유행되면서 AI를 자주 이용하게 되고 어느 순간 AI 답변에 과도한 신뢰를 보내고 있지만, 부지불식간에 AI는 내부 검증 시스템이 없다는 사실을 잊게 된다.
지식의 절대적 양을 비교하자면, 개인 인간보다 AI가 당연히 더 많다. AI는 하나의 시스템이라 세상의 모든 지식이 들어가 있지만, 개인 인간의 저장 능력은 제한적일 수밖에 없다. 그러나 결과물에 대한 태도는 분명 다르다. 인간은 자신의 이름으로 텍스트와 콘텐츠를 발표하고 그 내용에 대해 책임진다. 명예 또는 책임감 등이 오류 없는 콘텐츠, 최대한 사실과 진실에 가까운 콘텐츠를 생산한다. 이런 차이는 전혀 사소하지 않다. 5,000달러의 벌금을 부과받은 세 명의 변호사는 이 사실을 망각했다. 인간과 AI, 둘 다 불완전하지만, 자신의 글이 잘못된 사실에 기초할 수 있다고 생각하는 인간과 오류에 대한 자각이 없는 AI는 분명 다르다. AI의 답변을 선택적으로 이용해야 하는 이유다.
++