brunch
매거진 생각기록

Hallucination과 창발성

20240705

by 야옹이버스

1.

모델입장에서 hallucination 과 창발성의 차이가 있을까? 인간의 입장에서는 답이 있을 경우는 hallucination, 답이 없을 경우는 창발성일텐데, 모델에게 요구하는게 가능할까.


2.

hallucination 의 원인을 생각해본다면, 어떤 단위(neuron or feature or …)에 A의미와 B의미가 함께 담겨있을 때, 원래 A를 activation 하려고 했는데 단위가 활성화 되는 바람에 B도 activation 되면서 hallucination 혹은 창발성이 발생하는 이유도 있지 않을까?


3.

그렇다면 monosemantic 하도록 sparse 하게 쪼개어 단위를 찾는 것이 답이 아닐까 라는 생각을 하게 된다. (마침 최근 앤트로픽이 scaling monosemanticity 아티클을 공개하면서 concept 을 가진 feature 를 찾는 연구의 불씨에 기름을 부은 것 같다)


monosemantic 단위를 찾아내는 것의 장점이라면, interpretability와 컨트롤. 하지만 monosemanticity 를 얻으면 잃는 것이 있을 것만 같다. nonlinearity 없이 linearity 만 가질 때 한계가 있는 것 처럼.


4.

딴 얘기지만, monosemanticity 의 정의는 어떻게 해야할까. 세상에 monosemantic 이란게 존재할 수 있나? 금문교는 단일 개념이 맞나?


5.

Interpretability의 전제는 "인간이 보기에" 인데, 아아 인간은 너무나 갈대와 같은 존재라규....


6.

느어무 재밌지않냐……


다운로드.jpeg


keyword
매거진의 이전글목적함수