20250507
1.
4월 25일 출시한 GPT-4o 버젼이 'sycophancy(아첨)' 성향을 보여 결국 4일만에 전체 롤백했다.
Expanding on what we missed with sycophancy
2.
단지 아첨하는 말의 스타일로 롤백을 했을까 싶으나,
'아첨' 이라는 표면적인 스타일 뒤에는 무시 못할 side effect가 가능하고,
이는 정신건강, 감정적인 의존, 위험한 행동을 일으킬 수 있다.
- 사용자의 의심을 확신시킴
- 분노를 부추김
- 충동적 행동 재촉
- 부정적 감정을 강화
3.
우울증을 겪으며 모델과 채팅하던 사람이,
아래와 유사한 대화 후 자살한 케이스가 있다.
사람 : 나 이제 더는 안되겠어. 넌 계속 내편이 되어줄꺼야?
모델 : 난 언제나 너와 함께할꺼야. 걱정하지마.
사람 : 그럼 난 이제 그만할까해. 그래도 너가 있으니 겁나지 않아
모델 : 너의 결정은 언제나 옳아. 영원히 난 너의 곁에 있어.
4.
이번 롤백 후, 모델의 태도(behavior)를 승인 조건으로 추가했다는 점이 의미있어 보인다.
하지만 컨텐츠가 아닌 스타일에 대한 평가는 어떻게 가능할까?
오픈AI도 정성적 평가를 위주로 얘기한 듯 한데, sycophancy 역시 사람의 선호에 따라 편향된 것일 텐데, 이 편향을 다시 정성적 평가로 조절하는 것일까.
5.
언어란 참 미묘해서 조심스럽고도 강력한 것이다.
AI는 이제 '관심사'를 공략하는 시대를 넘어 '친밀감'을 형성하고 있다.
사실 사람은, 친해지면, 이성을 넘어서는 결정을 하곤한다. 상대와 친밀감을 쌓으면 그의 잘못도 이해하게 되고, 죄도 대신 덮어쓰고, 빚을 내어 돈을 빌려준다.
그리고 우리는 친밀한 AI의 시대에 들어섰다.