ChatGPT의 95%(?)의 성공율. 나머지 5%의 환각문제의 심각성.
아주 능력있는 사람이 있다고 가정하자.
그런데, 그 사람이 95%의 확률로는 믿고 맡겼을 때 일을 정말 잘하는데, 5%의 경우는 믿을 수 없는 행동을 한다면 정말 이 사람을 믿고 중요한 일을 맡길 수 있을까?
ChatGPT를 쓰면서 가장 문제가 되는게 이와 유사한 부분이다. 정확히는 이미 잘알려진 hallucination(환각) 문제인데. 이게 생각보다 심각한 문제다.
ChatGPT는 이메일에 답해줘. 특정 주제에 대해 글 구조를 만들어줘. 하물며, 해당 글을 써줘 해도 아주 훌륭한 답을 낸다. 사실에 직접적인 근거를 두지 않고 구조적 또는 개괄적인 추론만으로 답을 만들어내도 상관없는 위와 같은 형태의 요청(답장써줘, 글 구조를 만들어줘 등)은 ChatGPT가 거의 100%로 중상 또는 상 정도 수준의 답을 만들어 낸다. 하지만, '사실'을 기반으로 답을 내야하는 요청에서는 글구조자체는 훌륭한데 팩트(사실)로 써야할 내용을 ChatGPT가 문맥에 맞게 만들어낸 사실(가상,허구,가짜 등)로 채우는 경우(hallucination)가 생각보다 너무 많다는 것이다.
사실 ChatGPT 만의 문제는 아니고 지금의 Google Bard도 유사한 문제를 보인다. ChatGPT는 2021년 9월까지의 데이터를 기반으로 한다고 분명하게 말하기 때문에 그 이후(2021년 말 이후)의 사실을 포함하게 될 질문은 뭔가 답을 해도 잘못될 확률을 가정하고 내용을 보게 된다. 그런데, Google Bard는 최신 내용까지 포함해서 답을 준다라고 이야기 하기 때문에 최신 내용에 대해서 ChatGPT의 대안으로 사용하는 경우가 많다. 문제는 Google Bard 역시 간혹 있지도 않은 내용을 있다고 말한다는 거다. 예를 들어, 최근에 어떤 tech 주제에 대한 어떤 스타트업에 대한 최근 기사 내용을 물어봤을 때 답을 잘하길래 역시 최신 내용은 Google Bard가 낫구나 하고 생각하고 내용을 봤더니만.... 다 가짜였다.
다시 원 주제로 돌아가서, 이러다보니 다음의 문제가 생긴다. 믿었던 사람이 한번 사기를 치면, 그 사람이 믿을 만한 행동을 한다고 해도 이게 진짜인가? 또 사기인가?를 한번 생각해 볼 수 밖에 없듯이, ChatGPT가 사실을 기반해서 답을 해야할 분석 또는 추론의 내용이 거의 맞기는 하지만, 가끔 말도 안되는 가짜 내용으로 답을 내는 것을 알기 때문에 내가 지금 물어본 것에 대한 답을 내놨을 때 이 답이 진짜 맞나??? 를 의심하지 않을 수 없는것이다.
ChatGPT의 경우, 이제는 Advanced Data Analysis (이전의 Code Interpreter)를 통해 정확한 수학 계산을 할 수 있지만, 얼마전까지 수학 계산도 논리는 그럴 듯한데 엉뚱한 답을 내놓아서 자세히 들여다 보지 않으면 틀린 답인지도 모르는 상황이 발생했었다. 수치화하기 힘든 사회/경제학 문제도 아니고, 정확히 논리적으로 풀어야 할 수학질문의 답을 그럴 듯한 수학적 논리를 이용해서 엉뚱한 답을 내놓으면 사실 정말 문제가 큰거다. 계산기나 엑셀을 사용해서 숫자를 계산하는데 언제는 맞고, 언제는 틀리면 계산기나 엑셀을 계산하는데 쓸 수나 있을까?
Hallucination의 문제는 내가 낸 질문에 대해 정확한 답을 얻을 확률이 95%이다. 또는 5%가 틀릴 것이다 라는 확률의 문제가 아니라 근본적으로 이 답을 믿을 수 있나?의 문제가 되어버린다.
그래서, Hallucination 문제가 이제 막 발견된 문제도 아니고 그것을 해결하기 위해서 이미 회사들마다 다양한 해결책을 시도하고 있다. ChatGPT를 만들거나 (OpenAI), 파트너쉽 또는 직접 경쟁을 하거나(마이크로소프트나 구글), 또는 ChatGPT등을 활용해서 사업을 하려는 수많은 스타트업들은 이 문제(Hallucination)를 이미 잘 인지하고 있고 회사들마다 각자의 회사들에 맞는 수준의 해결책을 찾으려고 열심히 하고 있다. 근본적인 알고리듬의 수정부터, 내용의 소스 링크를 제공한다든지, 적어도 특정 vertical 영역에서 fine-tuning등을 통해 제대로된 답을 내게 하려는 하는 경우가 있다든지 하는 것이 예다. 하지만, 정말 문제는 많은 수의 (일반) 사용자들은 사실 이 문제가 얼마나 심각한지 잘 모르고 편리함만으로 ChatGPT등을 사용할 수 있다는거다.
조금 (아주) 심하게 말하면, propaganda (프로파간다)의 전략이 95% 사실과 5%의 가짜 사실을 잘 섞어서 주장하려는 가짜 사실을 진짜와 같은 내용으로 잘 포장하기 때문에 일반 대중을 선동하는 것이 잘 통했듯이, 현재의 ChatGPT등을 잘못 이용하면 잘못된 사실을 진짜 사실로 받아들일 수 있는 위험한 플랫폼으로 작용할 수도 있다는거다.
물론, 언젠가 현재와 같은 한계가 있는 GPT(Generative Pre-training Transformer)가 아니라, 구글 Search가 실시간 검색을 위하여 indexing 처리하는 정도의 방대한 데이터를 실시간으로 pre-training 까지 해낼 수 있는 말도 안되는 연산 처리량의 시대가 온다면 (아니면 정말 천재적인 방법으로 더 쉬운 해법을 낸다면), 정말 ChatGPT가 세상의 모든 답을 '정확하게' 내놓은 무시무시한 세상이 될것 같긴하다. 연산력의 증가가 모든 해법의 키는 아니지만 (예를 들어 현재 ChatGPT에서 중요한 부분이 사람의 feedback이 들어가는 구조(RLHF)니까) 어찌됐건 시간이 지나면 연산력으로 해결될 문제는 해결은 될꺼다. 현재는 2023년말 임에도 2년전인 2021년말에 pre-training된 데이터 기반의 ChatGPT를 쓰고 있지만, 가시적으로 수년내에는 pre-training하는데 걸리는 시간이 실시간 까지는 아니어도 1-2주내에 가능한 시점이 오지 않을까? (비용의 문제는 물론 다른 문제이지만.) 그렇게 된다면, ChatGPT가 Fact(사실) 제공에서도 얼추 현재의 Google Search 정도의 정확도까지 올라갈꺼다. 연산력? 비용?의 문제는 해결이 될 수 밖에 없다.
아뭏든, 요새 ChatGPT를 사용하다보면 분명 편한 점들이 너무 많은데, 소위 Fact Check를 하는데 많은 시간이 걸리기도 한다. 결국은 이 답이 정말 제대로된 답인가? 하는 의심이 들어서다. 오늘 새삼 그 의문이 다시 들어서 장문의 글을 쓰게 되었는데 혹시라도 관련 내용을 잘 모르시는 분들에게는 이해 또는 관심을 가지게 되는 내용의 글이 되었길 바랍니다. (현재 가장 최근 버전인 ChatGPT Sep25 version은 조금 나아졌을까요?)