아이들과 함께 만드는 작은 인공지능.16장
아이들과 만든 좋은 답 vs 덜 좋은 답 쌍으로 취향을 가르치는 간단 실습(TRL DPO 트레이너).
“정답 말고, 더 좋은 답”
(선호학습의 생각 바꾸기)
학교에서 문제를 풀 때는
보통 이렇게 말하죠.
“이게 정답이야.”
“이건 틀렸어.”
하지만 세상에는
정답이 하나로 딱 정해지지 않은 질문도 많아요.
예를 들어 이런 질문이 있어요.
“친구가 실수해서 울고 있을 때, 뭐라고 말해주면 좋을까?”
아이들은 두 가지 대답을 보게 됩니다.
A: “왜 그렇게 했어? 다음부터 조심해.”
B: “괜찮아. 누구나 실수해. 내가 옆에 있을게.”
선생님이 물어요.
“어느 말이 더 좋을까?”
아이들은 거의 동시에 손을 들어요.
모두 B를 고릅니다.
“마음이 덜 아파요.”
“다시 용기 낼 수 있을 것 같아요.”
“친구가 혼자가 아니라는 느낌이 들어요.”
이때 아주 중요한 일이 일어납니다.
아이들은 정답을 고른 게 아니라,
‘더 좋은 답’을 고른 것이에요.
AI는 원래 이런 걸 잘 몰라요.
AI에게는
맞다 / 틀리다
된다 / 안 된다
이런 기준은 익숙하지만,
더 다정한 말
덜 아픈 말
마음을 살리는 말
은 누가 직접 알려주지 않으면 알 수 없어요.
그래서 우리는 AI에게 이렇게 말해주기로 해요.
“이 답이 더 좋아.”
“이 말은 조금 아쉬워.”
이건 시험 채점이 아니에요.
벌을 주는 것도 아니에요.
그저 사람의 마음이 움직인 쪽을 가리켜주는 것이에요.
이렇게 시작되는 배움이
바로 선호학습이에요.
선호학습은
선생님이 빨간 펜으로 X를 치는 게 아니라,
“이 말, 참 예쁘다.”
“이 말은 조금만 바꾸면 더 좋겠다.”
하고 조용히 이야기해주는 시간이에요.
지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.