앞에서 두 문화간의 차이를 비교하면서, 처벌은 개념적이고 추상적인 반면, 보상은 구체적이고 현실적인 경향이 있음을 찾았다. 우선 보상은 돈, 음식, 칭찬, 승진을 통한 자리 이동 등 감각적으로 물리적으로 경험이 가능한 명시적이고 구체적인 결과로 주어지는 경우가 많고, 처벌은 비난, 고통, 무시, 승진 누락 등 정서적이고 사회적으로 구성된 추상적인 경우가 많다. 칭찬은 개인적이기도 하지만 행사 등에서 조직구성원 앞에서 상을 수여하고 축하행사를 하고, 승진 누락 등 무시되는 경험은 조직구성원 앞에서 명시적으로 이루어지지는 않지만 맥락과 개인의 상황 해석에 의존하게 되는 추상적인 경험이다. 당연히 보상과 처벌의 표현에서의 차이는 사회문화적 분위기와 일치된 의견에 따른 것이며, 명시적인 승진누락을 개인이든 집단이든 환영할리 없다.
신경과학적으로도 중뇌 복측 덮개영역에서 시작해 대뇌피질 하부에 위치한 복측 선조체로 이어지는 도파민 보상 시스템은 즉각적이고 구체적인 보상에 민감하게 반응하고, 보상을 알리는 신호 후 0.5초 이내에 실제 보상이 주어져야 학습이 강력하게 이루어져 다음에도 같은 행동을 반복하게 된다. 쥐 실험을 예로 들면, 벨소리가 들리고 0.5초 내에 설탕물이 나와야 학습에 따라 같은 행동을 할 수 있게 된다.
그리고 처벌은 스트레스에 의한 시상하부-뇌하수체-부신(HPA) 축의 활성이 중요하고 한번 활성 시 수시간 지속될 수 있으며, 편도체, 섬엽, 전대상피질 등 다양한 뇌신경 경로와 이와 연결된 감각 자극 및 맥락에 의해 영향을 받아 복잡하다. 그 중 대표적으로 스트레스 및 공포 관련 뇌부위로 가장 잘 알려진 편도체는 모호한 자극에 대해 위협으로 과잉반응하는 경향이 있다. 또한 스트레스 체계는 스트레스 상황이 해소될 때까지 활성화 될 수 있어 도파민 보상 시스템에 비해 더 장시간 영향을 받는다.
보상 학습은 결국 한 행동으로 보상과 같은 긍정적 결과를 얻게 되고 그 행동이 증가하는 결과로 나타나며, 구체적인 특정 행동에 국한한다. 특히 반복적이고 예측-결과가 강화되면서 더욱 강하게 학습할 수 있으며, 보상이 사라져도 한번 학습된 행동은 잔존하는 효과가 있고, 물질적 보상 외에 지속적인 동기를 함께 일으킨 경우 지속적으로 행동하고 시도하게 된다. 그리고 보상 이전의 시도 또한 보상을 기대하며 도파민 증가를 가져오므로 실수도 학습 기회로 작동하게 된다.
처벌 학습은 반대로 한 행동으로 처벌과 같은 부정적 결과를 얻게 되고 그 행동이 감소하는 결과로 나타나며, 도파민 보상 체계 부위의 도파민은 감소하게 되나 위험 신호를 감지하고 각성하는 부위의 도파민은 증가할 수 있다. 강한 처벌 자극은 즉각적으로 학습이 가능하고, 공포 반응은 구체적인 상황 뿐만 아니라 광범위하고 모호한 자극까지 일반화하여 개체가 위험을 회피하도록 학습하게 된다. 보상학습과는 달리 회피 전략을 개발할 경우 학습이 쉽게 소멸될 수 있으며, 실수에 대해서는 회피를 학습하여 해당 행동을 반복하지 않게 된다.
구체적인 보상은 보상이 되는 물질에서 시작해 학습과 의욕을 개인에게 부여하고 집단으로 퍼져나가 상향식(bottom-up) 양상으로 나타나고, 추상적인 처벌은 권위가 개개인에게 적용되면서 하향식(top-down) 양상으로 나타나는 것으로 보인다.
받아들여질 수 없는 행동을 줄이기 위한 처벌이 집단에 우세할 경우 회피에 대한 학습이 늘고, 가장 안전한 방법을 취하게 된다. 바로 아무 것도 시도하지 않는 것이다. 그리고 실수를 해도 시도를 통해 보상이 주어지는 문화가 집단에 우세할 경우 보상에 대한 학습이 늘고 당연히 실패해도 또 시도하고 도전하고 결국 성공에 이르는 문화가 집단에 늘어나게 된다. 우리가 앞으로 향해야 할 방향이 명백하고 구체적이라는 생각이 든다.