전문가만이 AI의 할루시네이션을 잡아낼 수 있다
세종대왕이 맥북프로를 던졌다는 밈(meme)에 대해 들어본 적 있나요? 챗GPT가 대중에게 공개된 초창기 시절, 인터넷을 뜨겁게 달군 밈 중 하나였습니다. 소위 ‘세종대왕 맥북 던짐 사건’으로 알려진 이 사건은 챗GPT에 ‘조선왕조실록에 기록된 세종대왕의 맥북프로 던짐 사건에 대해 알려줘’는 질문을 던지면서 시작되었습니다. 그러자 챗GPT는 아래처럼 엉뚱한 대답을 하고 맙니다.
세종대왕이 맥북을, 그것도 에어가 아닌 프로를 최환이라는 관료에게 던졌다는 챗GPT의 답변은 많은 이들에게 실소를 자아냈습니다. 인터넷 커뮤니티에서는 이를 밈화 하였고, 언론에도 다수 보도되었습니다. 챗GPT 출시 초창기에 나왔던 이 밈으로 인해 우리는 생성형 인공지능이 엉뚱한 대답을 한다는 사실을 알게 됩니다. 이처럼 인공지능이 허구의 정보를 사실처럼 제시하는 현상을 ‘할루시네이션(hallucination)’이라고 부릅니다.
그렇다면, 인공지능에서 할루시네이션이 발생하는 이유는 무엇일까요? 주된 이유는 인공지능이 실제 정보를 ‘이해’하는 것이 아니라는 점인데요. 우리는 대화할 때 상대방의 말을 이해하고 답변을 하는데요. 인공지능은 주어진 문맥과 앞선 단어들을 보고, 그다음에 나올 단어나 문장을 ‘확률’적으로 예측할 뿐입니다. 그저 학습한 데이터를 바탕으로 ‘이 다음엔 이런 단어가 나올 가능성이 높다’라고 생각하며 문장을 만드는 거죠. ‘개구쟁이 철수가 학교에서’라는 문장을 이전까지 생성했다면, 그다음에는 ‘장난을 쳤다’와 같은 문장이 확률이 높겠죠? 인공지능은 이처럼 수많은 데이터를 학습해서 가장 확률이 높은 문장을 생성하는 데 최적화 되어있습니다. 대부분의 경우, 개구쟁이 철수는 학교에서 장난을 치겠지만, 가끔은 장난치지 않고 진중한 모습을 보일 때도 있겠죠? 이처럼 인공지능의 특성상, 100% 맞는 답을 내놓는 것은 불가능에 가깝습니다.
하지만, 이제 세종대왕 맥북 프로 밈은 지나간 이야기가 된 지 오래입니다. 챗GPT 초창기 버전인 3.5버전에서는 대놓고 할루시네이션인 대화가 자주 발생했지만, 최근의 챗GPT는 할루시네이션 현상을 많이 극복했습니다. 세종대왕이 맥북프로를 던졌냐고 물어봐도, 시대가 다르다며 정상적인 답변을 합니다. 이처럼 최근의 챗GPT는 눈에 띄는 '큰 실수'는 하지 않습니다.
과거와 현재의 할루시네이션 변화 양상을 다른 사례로 살펴보겠습니다. 개인적으로 한국프로야구(KBO)의 롯데 자이언츠(이하 자이언츠)를 응원합니다. 어린 시절부터 광팬이었죠. 챗GPT가 처음 출시되었을 때, 3.5 버전에게 자이언츠에 대한 질문을 해본 적이 있는데요. 그때의 답변을 함께 보시죠.
야구에 관심이 없는 분들에게는 그럴듯한 답변으로 보입니다. 하지만, 야구를 조금만 아는 팬이라면 하나부터 열까지 틀린 사실이 열거되어 있다는 것을 알 수 있습니다. 하나하나 지적할 부분이 많지만, 자이언츠 팬에게 가장 치명적으로 다가오는 부분은 우승 횟수가 3회라고 말한 것입니다. 자이언츠는 1992년 우승이 마지막으로, 지금까지 단 2회만 우승을 해 본 우승과는 거리가 먼 팀입니다. 팬들도 이에 콤플렉스를 가지고 있는데, 챗GPT는 당당하게 3번 우승했다고 거짓을 이야기하네요.
그렇다면 최신 버전의 챗GPT에 질문하면 어떤 답을 얻을 수 있을까요? 아래 답변을 확인해 보겠습니다.
이제 모든 답변이 완벽해 보입니다. 앞서 가장 문제가 되었던 답변인 우승 횟수는 정확하게 수정이 되었습니다. 심지어 연도도 정확하게 맞춥니다. 하지만, ‘찐’ 자이언츠 팬이라면 역시나 답변 중 한 부분이 자꾸 걸릴 겁니다.
바로 ‘가을야구의 상징’이라는 표현인데요. KBO에서 가을야구란 상위권 팀들이 최종 우승 팀을 가리기 위해 가을에 진행하는 경기를 뜻하는 표현입니다. 총 10개 팀 중, 상위 5개 팀만 가을야구에 참여하여 우승을 향한 치열한 경쟁을 펼치는데요. 자이언츠는 지난 10년간 단 한 번, 가을야구에 진출했습니다. 그것도 2017년으로, 이후 자이언츠의 최고 순위는 고작 7위일 정도로 약팀 신세를 벗어나지 못합니다.
이처럼 대부분의 사용자는 인공지능의 답변에서 사실과 다른 부분을 쉽게 인지하지 못합니다. 하지만, ‘가을야구의 상징’이라는 표현처럼, 자이언츠를 잘 아는 팬이라면 눈에 띄게 잘못된 정보는 문제가 됩니다. 만약, 여러분이 과제로 자이언츠를 조사하는 글을 챗GPT의 도움을 받아 작성했는데, 채점하는 선생님이 자이언츠의 팬이었다면 어떻게 되었을까요? 이처럼 인공지능이 생성한 결과물은 매우 그럴듯해 보이지만, 실제로는 정확하지 않기 때문에 이를 맹목적으로 신뢰하는 것은 위험합니다.
최근의 교묘해진 할루시네이션 사례는 인공지능에 대한 비판적 사고와 함께 AI 리터러시의 중요성을 강조합니다. 우리는 인공지능이 생성하는 정보를 비판 없이 받아들이기보다는, 그 내용이 실제로 신뢰할 만한지 검토하고 판단할 수 있는 능력을 길러야 합니다. 여전히 인간의 판단과 비판적 시각이 필수적입니다.
오늘 글은 현재 집필 중인 'AI Literacy' 관련 원고의 초안에서 발췌했습니다. 추후 수정이 이루어질 예정이라 책에 그대로 실리지는 않을 것입니다. 날것 그대로의 초고라는 점에서 봐주시면 감사하겠습니다. :)