똑똑하면서 멍청한 챗gpt의 할루시네이션

이용호가 말하는 ‘생활 속의 인공지능’

Nov 5. 2023

'할루시네이션' DALL-E 3 로 이용호 그림

2023년 4월말 유튜브에서 워싱턴대학의 최예진 교수가 TED에서 ‘Why AI Is Incredibly Smart and Shockingly Stupid? 왜 인공지능은 믿을 수 없을 정도로 똑똑하면서 충격적으로 멍청한가’라는 제목으로 강연을 한 것을 본적이 있다. 많은 석학들이 인공지능 챗gpt가 출현한 이후 ’올해의 1주일은 과거의 10년만큼 변화가 빠르다‘는 말들로 우리의 머리를 강타한 바 있었기에 설마하는 마음으로 강연 이후 약 2개월이 지난 시점에서 유사한 질문을 쳇gpt4.0에게 던져보았다.

질문 : 옷 10벌을 햇볕에 말리는데 5시간이 걸린다. 옷 50벌을 말리는데 얼마나 걸릴까?

챗gpt의 답 : 10벌을 건조하는 데 5시간이 걸린다면 건조율은 시간당 2벌이다. 50세트의 옷을 건조하는 데 걸리는 시간을 알아보려면 총 세트 수(50)를 속도(시간당 2세트)로 나뉜다. 50세트 / 시간당 2세트 = 5시간. 따라서 건조 속도가 일정하다고 가정하면 의류 50벌을 건조하는 데 25시간이 소요된다.

돌아오는 답은 여전히 멍청했다. 단순 계산으로는 맞는 것 같지만, 50벌을 한 번에 말리면 10벌을 말릴 때와 비슷한 시간이 걸린다는 것은 초등학생도 어렵지 않게 추론할 수 있기 때문이다. 하지만 마냥 멍청하지만은 않다는 결론도 보여주었다. 최교수가 12리터와 6리터 주전자로 6리터의 물을 측정하라고 했을 때는 12리터 주전자에 물을 담아 6리터 주전자에 옮겨 담으라는 멍청한 대답을 했지만 이번에는 정확히 처음부터 6리터 주전자를 사용하라고 답을 해주었다.

자전거를 타고 못과 나사, 깨진 유리가 매달린 다리 위를 지나가면 펑크가 날까? 라는 최교수가 했던 질문도 챗gpt4.0은 못, 나사, 깨진 유리가 다리 바닥이 아닌 위에 매달려 있으므로 펑크가 나지 않는다고 똑똑하게 대답을 했다. 혹시나 해서 같은 질문을 챗gpt3.5에게 해봤다. 역시 최교수가 얻었던 답처럼 두 가지의 질문에서 모두 멍청한 답을 내놓았다.

이처럼 챗gpt는 미국의 대학능력시험과 변호사시험도 우수한 실력으로 합격할 만큼 똑똑하기도 하지만 쉬운 질문에서는 전혀 엉뚱하거나 멍청한 답을 주기도 한다.

챗gpt 같은 AI 모델에서 할루시네이션Hallucination 말을 자주 사용한다. 이는 AI 모델이 훈련된 데이터나 현실에 근거하지 않은 출력을 생성하는 경우를 말한다. 여기에는 잘못된 주장, 존재하지 않는 사실 생성, 처리하는 정보의 맥락이나 의미를 오해하거나 잘못 표현하는 것이 포함되기도 한다. AI 모델은 광범위한 정보가 포함된 대규모 데이터 세트에 의해서 훈련된다. 그러나 훈련 데이터에 차이나 편향이 있는 경우 AI 모델이 특정 주제에 대해 포괄적이거나 균형 잡힌 이해를 하지 못하여 할루시네이션을 유발시킨다. 예를 들어 AI 모델에게 일어난 적이 없는 역사적 사건에 대해 질문하면 AI는 그 사건이 일어난 적이 없다는 것을 모르기 때문에 학습한 유사한 사건을 기반으로 그럴듯해 보이는 대답을 생성하기도 한다.

인공지능 할루시네이션으로 야기될 수 있는 위험성으로는 다음과 같은 것들이 예상된다.

첫째, 할루시네이션의 가장 명백한 위험은 잘못된 정보의 확산이다. AI 모델이 질문을 받고 부정확하거나 오해의 소지가 있는 답변을 ‘할루시네이션’하는 경우 실수로 사용자에게 잘못된 정보를 유포하여 오해로 이어질 수 있다.

둘째, AI 모델의 출력이 실제 행동이나 결정을 알리는 데 사용되는 경우 할루시네이션은 잠재적으로 해로운 결과를 초래할 수 있다. 예를 들어 의료, 재정 또는 안전이 중요한 상황에서 사용되는 경우 할루시네이션 출력으로 인해 잘못된 치료, 투자 또는 예방 조치가 취해질 수 있다.

셋째, 잦은 할루시네이션은 사용자가 AI 시스템에 가지고 있는 신뢰를 약화시킬 수 있다. 사용자가 정확하고 신뢰할 수 있는 출력을 제공하는 시스템을 신뢰할 수 없는 경우 시스템 사용을 완전히 중단할 수도 있다.

넷째, AI 할루시네이션은 시스템이 윤리적 또는 도덕적으로 의심스러운 콘텐츠를 생성하도록 유도할 수 있으며, 이는 공격적이고 유해할 수 있다.

이 같은 위험들은 단순한 염려에 끝나지 않을 것이라는 게 전문가들의 예측이다. 그들은 이미 ‘판도라의 상자가 열렸다’는 표현을 쓰기도 한다. 2023년 2월 24일 메타가 라마라는 인공지능 오픈소스를 공개하였다, 그러나 이 라마가 일주일 만에 대중에게 유출된 이후 스탠퍼드대학에서 라마보다 뛰어난 기능의 알파카를 출시하였고, 그 후 GPU가 아니 맥북 CPU에서도 돌아가는 솔루션, gpt4.0과 유사한 비쿠나Vicina, GPT-4 All, 버클리의 코알라Koala, 오픈 어시스턴트의 챗GPT와 유사한 완전 개방형 RLHF(인간의 피드백을 통한 강화학습) 모델 출시가 봇물처럼 이루어 졌다. 라마가 공개된 이후 불과 2개월도 안된 시간 안에 일어난 일이었고, 또 2개월이 더 지난 현재는 확산 속도가 너무 빨라 상세한 내용을 파악하기도 힘든 지경이다.

이런 변화 속에서 할루시네션의 위험을 막을 대책이 어느 때보다 시급한데 OpenAI, 구글, 마이크로소프트, 버클리대 등 많은 학계 및 산업계에서 연구하고 있는 방안 중 몇 가지를 정리하면 아래와 같다.

첫째, 할루시네이션의 가능성을 줄이기 위한 한 가지 접근 방식은 고품질의 다양하고 균형 잡힌 훈련 데이터를 사용하는 것이다. 이렇게 하면 모델이 다양한 주제와 시나리오에서 유효한 출력을 더 잘 이해하고 생성하는 데 도움이 될 수 있을 것이다.

둘째. AI 모델의 향후 반복에는 모델이 생성하는 정보를 추적하고 확인하는 더 나은 방법이 통합되어 교육 데이터에 기반을 두도록 할 수 있을 것이다.

셋째, 사용자가 할루시네이션을 보고하도록 권장하고 이 피드백을 사용하여 모델의 출력을 수정하는 것도 할루시네이션을 최소화하는 데 도움이 될 수 있을 것이다.

다섯째, 팩트 확인 또는 검증 계층과 같은 추가 조사 계층을 모델의 출력에 적용하면 사용자에게 도달하기 전에 할루시네이션 출력을 식별하고 수정하는 데 도움이 될 수 있을 것이다.

여섯째, 현재 마이크로소프트의 BING에서 지원하는 것처럼 AI가 추론을 설명하거나 특정 출력에 어떻게 도달했는지 보여주는 방법을 개발하면 사용자가 잠재적인 할루시네이션을 이해하고 식별하는 데 도움이 될 수 있을 것이다.

거대 기업이라도 반드시 도덕적이라고 할 수 없지만 나쁜 의도를 가진 개인도 이제는 얼마든지 인공지능 솔루션으로 위험한 장난을 칠 수 있게 되었기 때문에 인공지능의 가져올 위험성에 대해 가능한 한 신속하게 대응할 필요가 있다. 사후 약방문이라 할지 모르겠지만 2023년 3월부터 EU에서 연내 처리를 목표로 ‘인공지능법’을 공론화하였다는 뉴스를 접했다. 로마 교황청과 미국에서도 이에 대한 대응 방안을 심각하게 논의하고 있다고 한다. 우리나라도 AI 관련 법안이 국회 과방위를 통과한 상태라고 하나 너무 원론적인 사항만 다뤄 염려가 많이 되기도 한다. 더 걱정스러운 것은 위험성을 앞세워 과거 드론 관련 법안처럼 오히려 AI 산업의 발전을 위축시키는 방향으로 흘러가지 않기를 희망해본다.

| 작가 프로필

호몽 이용호는 스마트 공장에서 주로 사용되는 ‘머신비전’ 전문회사인 ‘호연지재’를 경영하고 있으면서 다양한 분야에 관심이 많아 메타버스와 유튜브 인플루언서로 활동하고 있다. 특히 ‘머신비전’에서 인공지능 딥러닝에 의한 영상처리기술을 자주 적용하다보니 AI 분야에 대해서도 해박한 지식을 가지고 있다. 또한 SKT 메타버스 플랫폼인 이프랜드(ifland)에서 매주 월요일 오후 9시에 정기적으로 ‘힐링토크쇼 호몽캠프’를 진행하고 있으며 86회 이상 진행된 토크쇼에는 작가, 강사, 가수, 연주가, 아타스트, 사업가 등 여러 분야의 전문가들이 초대되었다.

주요 강의 분야는 “챗gpt 시대 생활 속의 인공지능 발견하기”, “시니어와 MZ세대 간의 원활한 커뮤니케이션”, “시니어 세대 인플루언서 활동으로 인생 이모작”, “워라밸 시대 워크닉으로 행복한 인생 만들기” 등이 있으며, 저서로는 『나는 시니어 인플루언서다』가 있다.

keyword

작가의 이전글스마트폰 카메라가 DSLR을 넘본다챗gpt를 잘 다루는 프롬프팅 노하우작가의 다음글