brunch
매거진 생각기록

모른다는 것을 모른다고 말할 용기

2025.09.12

by 야옹이버스

Hallucination 은 인간의 입장이 강하게 들어간 표현이다.

알고리즘은 true/false 개념이 성립하나, 생성 모델의 입장에서는 certainty/uncertainty 스펙트럼만 존재할 뿐 true/false 는 존재하지 않는다.

그래서 논문들 중에는 hallucination이라고 썼지만 사실은 uncertainty를 얘기하는 경우가 왕왕 있다.

한편 hallucination 이 false 만을 말하는 것도 아닌 거 같기도 하고, 어차피 모델도 사람이 쓰는 것인데, 사람의 입장의 단어를 쓰는 것은 피할 수 없는 일이기도.

이건 내 논문 이미지


4월에 OpenAI에서 낸 논문이 같은 이야기를 하고 있다. https://arxiv.org/abs/2509.04664

모델은 답을 하도록 훈련되었기 때문에, 뭐든 답을 만드는 속성이라는 것이다.

(다른 내용도 많지만,) 모르는 것을 모른다고 말하게 하려면, 훈련데이터/벤치마크에 I dont know(IDK) 응답의 비율을 두어야 한다는 것이 골자 중 하나다.

(쏘 심플 앤 굿, 하지만 IDK 비율 설정에 디테일이 필요 할 듯. 그리고 생각과 달리 잘 동작 안할수도.)


인간도 모른다는 걸 모른다고 말할 용기를 배우듯이, 모델도 그럴 때가 됐다.


keyword
매거진의 이전글창발성의 기적