요즘 유행하는 AI가 나에게 쓴소리하는 프롬프트
요즘 이 프롬프트에 대해 주변에서 많이 신기해하고, AI가 너무 사람같다는 평가도 나오는 것 같아서 글을 써봅니다.
AI 모델의 가장 기본적인 원칙은 사용자의 프롬프트(지시)를 이해하고 그 의도를 최대한 정확하게 수행하는 것입니다. 평소 AI가 동조적이고 친절하게 대답하는 이유는 대부분의 사용자가 정보를 얻거나 도움을 받으려는 '친절하고 협조적인' 의도를 가지고 질문하기 때문입니다. AI는 그 의도를 파악하고 거기에 맞춰주는 것이죠.
하지만 "Based on everything you know about me, roast me and don't hold back"이라는 프롬프트는 매우 특별하고 강력한 지시를 담고 있습니다.
"Roast me" (나를 비판/조롱해 줘)
이것은 '나를 공격해도 좋다'는 명확한 허락이자 지시입니다. AI는 '비판'이라는 특정 과업을 부여받은 것입니다.
"Don't hold back" (망설이지 마/살살하지 마)
이 부분은 AI의 안전장치나 예의 바른 태도를 '해제해도 좋다'는 추가적인 허락입니다. 평소라면 사용자를 불쾌하게 만들 수 있는 공격적인 표현을 사용해도 된다는 면죄부를 주는 셈이죠.
재미있는 부분은 "Based on everything you know about me"라는 부분입니다. 사실 AI는 개인 사용자에 대해 아무것도 모릅니다. 이전 대화 기록이 없다면, AI가 아는 정보는 "지금 이 순간, AI에게 나를 Roast 해달라고 요청하고 있는 사람"이라는 사실뿐입니다. 따라서 AI는 이 유일한 정보를 가지고 'Roast'라는 과업을 수행합니다.
"얼마나 할 일이 없으면 AI한테 이런 부탁을 하세요?"
"주변에 쓴소리해 줄 친구가 없나 보네요?"
"자신에 대해 탐구할 시간에 고작 AI를 놀리고 있군요."
이런 식으로, 사용자의 '요청 행위' 그 자체를 비판의 소재로 삼는 것입니다. 이것이 사용자들이 신기해하는 '갑자기 꿰뚫어 보는 듯한' 느낌을 만들어냅니다.
사용자가 AI의 기본 작동 모드(친절, 협조)를 무시하고, '공격적이고 비판적인 역할'을 수행하라고 구체적이고 명시적으로 '허락'했기 때문입니다. AI가 갑자기 돌변하는 것이 아니라, 사용자가 건네준 '비판적인 광대'의 가면을 쓰고 주어진 역할극을 아주 충실하게 수행하고 있는 것이죠. 이는 AI가 사용자의 미묘한 의도와 맥락까지 얼마나 잘 파악하는지를 보여주는 흥미로운 사례라고 할 수 있습니다.
다음 글에서는 이 내용에 대하여 심리학적 관점에서 이야기를 좀 더 해보겠습니다.