할루시네이션은 LLM이 사실과 다른 내용을 생성하는 현상이죠. 현상의 정의만 보면 없애야 되는 현상이라는 생각을 자연히 하셨을 겁니다. 그런데 사실 인간도 신경과학적 관점으로 봤을 때, 창의적인, 그러니까 무언가 새로운 패턴과 방식으로 정보를 조합하여 결과물을 낼 때 종종 DMN 활성화 상태에서 영감을 얻는다고 합니다.
이를 미뤄볼 때 할루시네이션도 AI의 창의력을 높이는 데에 도움이 되지 않을까?라는 의문이 들어, 이번 주제를 들고 왔습니다. 오늘은 할루시네이션과 창의력의 관계에 관해 소개해 드리겠습니다.
중국 과학원과 국제 디지털 경제 학술원에서 오늘 주제로 연구한 프리프린트 상태의 연구를 먼저 보고 이야기를 나눠볼까 합니다.
할루시네이션은 정확성을 떨어뜨린다는 이유로 부정적인 요소로 여겨졌는데 이 논문은 다른 접근을 했습니다. 본격적인 내용을 보는 데 앞서, 먼저 이 논문에서는 할루시네이션을 두 가지로 구분합니다. 여러 연구자가 채택하고 있는 구분인데요. 첫 번째는 실제 사실과 다르게 생성되는 오류를 야기하는 사실성 할루시네이션입니다. 예를 들면 세종대왕 맥북 던짐 사건 같은 게 있습니다. 두 번째는 사용자 지침이나 문맥을 벗어난 오류를 야기하는 충실성 할루시네이션입니다. 사용자가 특정 주제를 물어봤는데 인공지능이 연관성이 떨어지는 정보를 제공하는 현상을 예를 들 수 있겠네요.
논문을 본격적으로 보면 앞서 제가 추측한 것과 같이 논문에서도 ‘할루시네이션이 창의적인 사고를 촉진할 수 있는 잠재력이 있다’고 주장합니다. 이어서 코페르니쿠스의 지동설처럼 과거 과학사에서 기존의 오류로 치부되었던 개념들이 새로운 사고를 자극해 혁신적인 발견으로 이어진 사례를 제시하며, LLM의 할루시네이션도 이와 유사한 창의적인 통찰의 기회를 제공할 수 있다고 설명합니다.
이러한 이유로 논문에서는 창의성을 발휘하기 위해 할루시네이션을 적극적으로 유도하고 평가하는 두 단계의 생성적 프레임워크를 제안했습니다. 이에 대해 좀 더 살펴보면 첫 번째 단계인 발산 단계에서는 주제와 연관된 새로운 아이디어를 생성하고, 두 번째 단계인 수렴 단계에서는 이를 다듬어 구체적이고 창의적인 결과물로 정제합니다. 또한, 사람에게 적용하던 창의성 평가 요소인 유연성, 독창성 등을 LLM의 창의성 평가에도 적용할 수 있는 방법론을 제시하고 있었습니다.
마지막으로 논문에서는 LLM의 창의성 극대화를 위해 사람의 신경과학적 메커니즘을 LLM에 적용하거나 강화 학습을 통해 창의성을 지속적으로 개선할 수 있는 방법을 제안했습니다.
새로운 접근이라 좋아 보였습니다. 그런데 ‘동료 검토’ 단계 등을 거치지 않아서 그런지 한계점이 몇 가지 보였고, 이로 인해 주장이 충분히 납득되지 않았습니다. 우선 이론을 제시하는 데 그치고, 구체적인 실험적 데이터나 통계적 분석이 부족했습니다. 다음으로 창의성 측정에 관해 객관적인 평가 기준을 제시하지 못했습니다. 또한, 할루시네이션의 잠재적 위험성에 대한 언급이나 부정적 영향에 관해서는 충분히 논의되지 않은 연구로 보였습니다.
하지만 이런 한계점들이 있다고 해서 할루시네이션과 창의성의 관계를 완전히 부정하긴 어려울 것 같습니다. 인간의 뇌도 창의적 사고를 할 때 전전두엽의 상상력과 해마의 기억 처리가 결합되듯, LLM의 할루시네이션도 단순한 오류가 아닌 새로운 정보의 재조합 과정일 수 있기 때문이죠.
여기서 주목할 만한 개념이 '제어된 할루시네이션'입니다. 완전히 자유롭게 두는 것이 아니라, 특정 범위 내에서 새로운 조합과 상상을 허용하는 거죠. 이는 AI 학습 방식 자체의 변화를 가져올 수 있습니다. 지금까지는 '정확한 답변'을 위주로 학습을 시켰다면, 앞으로는 '창의적인 답변'을 장려하는 방향으로 진화할 수 있을 것 같습니다.
물론 이 과정에서 균형이 중요합니다. 법률이나 의료 같이 정확성이 중요한 분야에서는 할루시네이션을 최소화하고, 예술 창작이나 아이디어 발상 같은 영역에서는 이를 적절히 활용하는 방식으로 말이죠.
어쩌면 할루시네이션이 인간의 고정관념을 깨고 새로운 사고방식을 열어주는 촉매제 역할을 할 수도 있을 것 같습니다.