brunch

You can make anything
by writing

C.S.Lewis

by 좐네강아지 Sep 21. 2018

2-2 No Reward Marker의 필요성

 저는 그것에 대해 생각해보았고, Skinner가 아마도 맞을 거라는 결론에 다 달았습니다. 저는 모든 제 의견이 제 실수에 대한 어떠한 야단법석도 떨지 않고 오직 정확한 반응에 초점을 맞추는 상황에 대해 선호한다는 것을 믿고 있습니다. 그런 경우라면 훈련받은 동물이 같은 느낌을 가질 거라고 추정하는 것이 합당하지 않겠습니까? 그러나 지금까지 그러한 결론을 지지할만한 실제 데이터는 존재하지 않습니다.  


 저는 최근 뉴욕 헌터 칼리지 석사과정인 Naomi Rotenberg의 논문을 얻었습니다. 실험은 이 이슈를 정확하게 언급한 것으로 보고된 것입니다. Rotenberg의 연구는 꽤 직접적이고 간단한 행동에 대해 훈련된 27마리의 개를 데리고 하였습니다. (두 다리를 바닥에 테두리 안에 위치하는 것) 개들 중 반은 오직 Reward Marker를 사용하였고, 전형적인 클리커를 사용하였습니다. 다른 반은 클리커를 사용하였지만 녀석들이 실수하고 잘못된 행동을 선택했을 때 어떤 소리(우리는 피아노의 "중간 도"라고 불렀습니다.)를 듣게 했습니다.


훈련 차례는 실험자가 "Hoop"라고 명령을 하고 개가 정확하게 반응하도록 유도하고 이후에 클릭 소리를 듣고 보상을 받는 것이었습니다. 훈련은 미끼를 점차적으로 없애도록 6가지 다른 레벨로 나뉘었습니다. 제일 높은 레벨의 개는 음성명령 만드로 기대한 행동을 했습니다. 개가 훈련하는 동안 얼마나 많은 성공을 했는지와 얼마나 많이 배웠는지에 대한 하나의 징후였습니다. 더해서, 정확한 응답의 확률은 개의 숙련도의 또 다른 척도로 사용했습니다.


 결과는 명백했습니다. 정확한 반응에 대해 보상받은 개들과 잘못된 반응에 대해 무시당한 개들은 훨씬 좋았습니다. 이런 개들은 녀석들이 틀렸을 때 "여분의 정보"를 받았던 개들에 비해 더 빨리 배웠으며 높은 수준의 숙련도를 보였습니다. 훈련 세션 동안 중간 정도의 성취도를 보인, 틀렸을 때 무시되었던 개들은 레벨 4였고, 반면 잘했을 때뿐만 아니라 잘못했을 때도 신호를 받았던 개들은 레벨 1의 중간성적을 얻었습니다. 확률이 정확하다는 관점에서, 옳게 선택했을 때만 신호를 받았던 개들은 60%  성공률을 달성했고, 반면 옳고 그른 것을 선택했을 때 각각 신호를 받았던 개들은 오직 27%의 성공률을 달성했습니다. 통계분석은 정확할 때만 응답을 받은 개들은 훈련이 끝날 때 두배 가까이 높은 성공률이 나옴을 보여주었습니다. 


Rotenberg는 자신의 결과를 이렇게 요약했습니다.


[틀렸을 때 보상이 오지 않음을 들은 개들] 에게는 전체적인 개의 행동 수행에 심각한 영향을 주었을 뿐 아니라,  훈련 세션에서 많은 개들을 일찍 실패하도록 이끌었습니다. 이런 개들은 처음 오류 이후로 계속해서 오류를 만들었고, 레벨 2로 올라가지 못했습니다. 반대로 실패 개 무시되었던 개들은 회복할 수 있겠고 결국에 적어도 레벨 2까지 올라갔습니다. 결과의 이런 패턴은 행동을 정확하게 수행하기 위해 과거의 실패를 시도한다는 몇몇의 훈련사들의 주장보다는 특정한 개들이 훈련을 그만두는 것이었습니다.


 다시 말해, 정확한 행동을 찾아 간단히 수행하는 개들과 행동에 대해 보상받는 개들은 훈련을 이어나갔으며 결과적으로 성공한 반면, 정확한 반응뿐 아니라 잘못된 반응에서도 신호를 얻는개들은 낙심하였고 모든 훈련을 포기했습니다.


-by Stanley Coren PhD-


관련글 2-1 No Reward Marker의 필요성




여타 다른 카드 뉴스들과의 비교를 거부합니다. 현장의 전문가들에 의한 각종 논문과 책에 있는 내용을 토대로 여러분께 궁금했던 정보를 제공해 드리려고 노력합니다.

매거진의 이전글 4-3 개 훈련의 능숙함과 일반화
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari