brunch

말하는 별, 챗지피티

아이들과 함께 만드는 작은 인공지능.16장

by 토사님

PART 3. 교실에서 만드는 작은 책지피티(실습 로드맵)

ChatGPT Image 2025년 12월 22일 오후 09_55_23.png

16장. 선호학습 맛보기(DPO):

아이들과 만든 좋은 답 vs 덜 좋은 답 쌍으로 취향을 가르치는 간단 실습(TRL DPO 트레이너).


소단원 1.

“정답 말고, 더 좋은 답”

(선호학습의 생각 바꾸기)


학교에서 문제를 풀 때는
보통 이렇게 말하죠.


“이게 정답이야.”
“이건 틀렸어.”


하지만 세상에는
정답이 하나로 딱 정해지지 않은 질문도 많아요.


예를 들어 이런 질문이 있어요.

“친구가 실수해서 울고 있을 때, 뭐라고 말해주면 좋을까?”

아이들은 두 가지 대답을 보게 됩니다.

A: “왜 그렇게 했어? 다음부터 조심해.”

B: “괜찮아. 누구나 실수해. 내가 옆에 있을게.”

선생님이 물어요.

“어느 말이 더 좋을까?”

아이들은 거의 동시에 손을 들어요.
모두 B를 고릅니다.


“마음이 덜 아파요.”
“다시 용기 낼 수 있을 것 같아요.”
“친구가 혼자가 아니라는 느낌이 들어요.”

이때 아주 중요한 일이 일어납니다.

아이들은 정답을 고른 게 아니라,
‘더 좋은 답’을 고른 것이에요.


AI는 이걸 어떻게 배울까?

AI는 원래 이런 걸 잘 몰라요.

AI에게는

맞다 / 틀리다

된다 / 안 된다

이런 기준은 익숙하지만,

더 다정한 말

덜 아픈 말

마음을 살리는 말

은 누가 직접 알려주지 않으면 알 수 없어요.

그래서 우리는 AI에게 이렇게 말해주기로 해요.

“이 답이 더 좋아.”
“이 말은 조금 아쉬워.”


이건 시험 채점이 아니에요.
벌을 주는 것도 아니에요.

그저 사람의 마음이 움직인 쪽을 가리켜주는 것이에요.

이렇게 시작되는 배움이
바로 선호학습이에요.


비유로 말하면

선호학습은
선생님이 빨간 펜으로 X를 치는 게 아니라,

“이 말, 참 예쁘다.”
“이 말은 조금만 바꾸면 더 좋겠다.”

하고 조용히 이야기해주는 시간이에요.


지금 바로 작가의 멤버십 구독자가 되어
멤버십 특별 연재 콘텐츠를 모두 만나 보세요.

brunch membership
토사님작가님의 멤버십을 시작해 보세요!

토사님의 브런치스토리입니다.

164 구독자

오직 멤버십 구독자만 볼 수 있는,
이 작가의 특별 연재 콘텐츠

  • 최근 30일간 113개의 멤버십 콘텐츠 발행
  • 총 670개의 혜택 콘텐츠
최신 발행글 더보기
이전 15화말하는 별, 챗지피티