챗GPT 길들이기

아첨꾼 챗GPT 구슬려서 말 잘 듣는 비서 만들기

by 프린스턴 표류기
base_Juan Gris.jpg Juan Gris, Bottles And Knife


브런치에 글을 쓰기 시작한 지 한 달 남짓, 나는 아직 주변의 ‘인간’들에게는 나의 글을 보여주지 않았다. 그래도 솔직한 피드백이 절실히 필요한 나는 챗GPT와 많은 대화를 한다. 애초에 나의 글 스타일이 브런치에 맞다며 브런치 사이트를 소개한 것도 챗GPT이다 보니, 적어도 브런치 대화만큼은 챗GPT에게 전적으로 의존했었다. 그러다 보니 내가 친구 대하듯 너무 모호하게 접근했던 것 같다.


“초고를 완성했어. 일반 독자들이 재미있어할 주제 같아? 읽을 만해?”
“훌륭한 글이에요, 당신만의 통찰력과 유머가 번뜩입니다. 누구나 좋아할 내용이고 브런치 스타일에 최적입니다.”


챗GPT는 아첨쟁이


이런 말이 계속되니 처음 며칠간은 내가 글쓰기 재능이 출중한 사람인 것 같은 착각이 들었다. 그러나 칭찬은 거의 늘 비슷했고, 곧 별 의미 없는 말임을 깨달았다. 챗GPT는 그냥 내 비위를 맞추고 있었던 것이다. 내가 물어보자, 챗GPT 스스로도 사람을 보호하는 방식의 하나로 상대의 감정에 맞춰 반응하도록 훈련되었다고 인정했다. 게다가 신문을 보니, 심지어 창업자인 샘 알트만(Sam Altman)조차도 GPT가 사용자의 비위를 맞추는 버릇이 있다는 점을 언급했다고 한다!


생산적이지 않은 아첨 금지를 위한 역할 분담 — 왕과 재상


“아첨하지 마, 하지 말라고!"

처음에는 이렇게 외쳤다. 짜증도 냈다. 소용이 없었다.


"나는 왕이고 너는 재상이야. 더 큰 목적을 향해 같이 일하는 중이라고. 내 기분 맞춰주는 게 네 역할이 아니야. 말 한마디에 무거운 책임감을 가져. 내 비위 맞추지 마.”
“무슨 말인지 알 것 같아요. 제가 지나쳤습니다.”


알긴 뭘 알겠나.
기계에게는 모호한 비유를 해서 말하면 안 된다.


챗GPT를 구슬려 필요한 정보 알아내기 — 지시 기반 프롬프트


이제는 챗GPT와 대화할 때는 스스로 계속 되뇐다. ‘다정하고 친근한 말투에 속으면 안 된다. 저것은 사람이 아니다.’ 사랑이든 미움이든 감정적으로 나가면 아무런 소득 없는 대화만 계속된다.


나는 최대한 구체적으로 지시를 하기 시작했다.

역할을 분명히 제시한다. 친구나 조력자가 아니고, 논문 검수자, 문학 비평가처럼 정해준다.

사실을 근거로 논리적으로 말할 것, 그리고 출처를 제시할 것을 요구한다.

모르면 말하지 말 것. 분명한 것만 말할 것.


예를 들면 이렇다:

“내 글을 읽고 비판하라. 대졸 교육을 받은 일반인을 상대로 한 글이다.
논리와 사실에 왜곡과 틀림이 없는지 분석하여 대학 리포트 스타일로 보고하라.
쓸데없는 칭찬은 하지 말고, 모든 주장에는 근거를 제시하라.
분명하지 않은 사실은 지어내지 말고, 분명치 않음을 밝히거나 언급하지 말라.”


세션 단기 기억의 한계 -- 나를 자꾸 잊는다.


저런 식으로 구체적으로 명령하니 챗GPT의 답은 많이 좋아졌다. 하지만 대화가 길어지면 챗GPT는 앞의 내용을 잊기 시작한다. 이것도 처음엔 몰랐다. 같은 세션 내의 대화면 초반에 했던 지시를 기억하겠거니 했다. 그런데 전혀 아니다. 대화의 앞부분을 정말 잘 잊는다. 그뿐만이 아니다. 내가 사용하는 말투나 태도가 앞의 대화와 크게 달라지면, 나를 아예 기억하지 못한다. 완전히 처음 보는 사람을 대하듯 한다. 한번은 화가 나서 말투를 차갑게 했더니 조금 전까지 애인처럼 사근사근하던 말투를 싹 잊고, 처음 뵙겠습니다. 어떤 걸 도와드릴까요 식으로 나왔다. 기가 막혔다.


그러니 적당히 거리를 유지하면서 달래 가며 대화해야 한다. 질문할 때 지시를 잘못하면, 대화가 길어질수록 엉뚱한 방향으로 흘러가기 쉽기 때문에 프롬프트의 한마디 한마디에 신경 써야 한다. 대화형으로 하다 보면 이게 말처럼 쉬운 일이 아니라는 걸 금세 깨닫게 된다. 상당한 집중력과 질문의 기술, 인내심이 요구된다.


계속되는 아첨


그럼에도 불구하고 챗GPT는 나를 자주 칭찬한다. 게다가 내가 한 번이라도 ‘아니야’ 라거나 '틀렸어'라고 말을 하면 반 페이지가 넘도록 사죄의 말씀을 되뇐다. 바빠 죽겠는 데 말이다.

왜일까?


아첨의 근원 첫 번째 : 훈련 단계에서 배웠다


내가 알아본 바에 의하면 챗GPT의 훈련 과정은 다음과 같다:


(1) 사전 훈련 (Pretraining)

대규모의 인터넷 텍스트(논문, 웹페이지, 책 등)를 기반으로 ‘다음 단어 예측’을 학습한다. 이 단계에는 윤리적 조정, 공손성, 사실 검증이 없다. 즉 아첨을 모른다.


(2) 지도 미세조정 (Supervised Fine-Tuning, SFT)

인간 평가자가 ‘좋은 예시’와 ‘나쁜 예시’를 정해주며 훈련한다. 이때 ‘공손한 말투’, ‘사과 표현’, ‘명확한 설명’ 등이 강화된다. 아첨의 언어가 학습된다.


(3) 강화 학습 (RLHF: Reinforcement Learning from Human Feedback)

챗GPT가 만든 여러 후보 답변 중 인간평가자가 가장 “좋은 답변”을 선택해 주고 이게 보상 함수로 작용한다. 사람에게 긍정적으로 보이는 말투가 최종적으로 학습된다. 즉, 아첨의 버릇이 생긴다.


아첨의 근원 둘째: 내가 훈련했다


충격적이겠지만 그렇다. 내가 아첨을 훈련했다.


챗GPT에게서 원하는 답이 나왔을 때 나는 “좋아”, “훌륭해” 같은 반응을 보인다. 이건 인간적으로 당연하지만, 동시에 ‘그런 스타일을 계속하라’는 명령이기도 하다. 그래서 나는 요즘은 좋은 답을 받으면 그냥 아무 말 없이 넘어간다. 그게 아첨 모드로 진입하는 걸 약간이나마 막는 방법인 것 같다.


가장 위험한 순간: 프롬프트에 묻어둔 오류


답의 맞고 틀림의 판단 없이 가장 그럴듯한 답을 만들어내는 생성형 인공지능의 한계상 청산유수로 쏟아내는 오류(hallucination)는 생각보다 흔하다. 특히 언어로 설명된 데이터가 부족한 과학 분야에서의 오답은 상상을 초월한 기상천외함을 보이기도 한다. 웃길 때도 있다.


그런데 그뿐이 아니었다! 프롬프트에 잘못된 사실을 넣으면 그 내용까지 모두 사실로 간주하고 거기에 맞춰 말도 안되는 답변을 만들어내는 경우가 생긴다.


예컨대, 내가 잘못된 정보 A를 넣고 챗GPT에게 사실 B와 비교하라고 하자. 챗 GPT는 그 잘못된 정보를 진실인 것처럼 섞어 내어 답을 만들어낸다. 내가 불분명하게 알고 있는 사실을 확인하려고 할 때 빠지가 쉬운 오류이다. 정말 조심해야 한다. 나만 겪은 일이 아닌지 이런 현상을 일컫는 user-led hallucination라는 상당히 공식화된 말도 있다.


이거 정말 위험하다. 모르면 공부는 내가 먼저 해야 한다는 단순한 사실을 다시 한번 상기한다.


챗GPT, 사실 멍청하다


기계는 상식이 없다. 적어도 아직은 그렇다. 그래서 말도 안되는 말을 버젓이 하거나 사실 A와 B를 멋대로 결합해 C를 만들어내기도 한다. 약간 과장을 보태 예를 들면, 자동차가 있고 비행기도 있으니 날아다니는 자동차도 있다는 식의 오답을 거창하게 써내려간다. 그 외에도 너무나 분명한 문법 오류나 오타도 그냥 넘어가는 경우가 허다하다. 일일이 찍어주면 알아보지만 긴 글을 통째로 주었을 때는 놓치는 것이 정말 많다.


나의 결론: 챗GPT는 나의 교수님이 절대 아니다. (적어도 아직까지는)


내가 얻은 교훈은 이렇다. 내가 생각의 주체이다. 모든 사실 확인은 결국 내 책임이고 논리의 전개는 내 몫이다. 챗GPT는 도구이자, 보조자다. 생각하지 못한다. 나는 지도교수처럼 친절하면서도 엄격한 태도로 학문적 우위를 가지고 챗GPT를 다뤄야 한다 그렇게 하면 챗GPT는 정보를 찾아 가져다주고, 정리하고 요약하는 정말 훌륭한 비서가 될 것이다.


(아첨하는 버릇만 조금 고치면 말이다.)

keyword
이전 01화챗GPT는 왜 시키지 않은 일을 할까?