Visibility를 확보하고 성장으로 연결하는 평가를 설계하는 법
"Performance is inherently subjective, and that's not a flaw of the system. It's the nature of human judgment."
(성과 평가는 본질적으로 주관적이다. 이는 평가 시스템의 한계가 아니라, 인간의 판단이 작동하는 방식 그 자체이다.)
— Marcus Buckingham & Ashley Goodall, "The Feedback Fallacy", HBR, 2019
성과가 본질적으로 주관적이라면, 조직이 할 수 있는 일은 무엇인가?
그 주관성을 제거하려 애쓰는 것인가,
아니면 주관성을 조직의 판단으로 다루는 방식을 만드는 것인가?
평가의 본질은 Visibility, 즉 조직이 리소스를 제대로 보는 명확한 시각을 확보하는 데 있다.
조직이 구성원을 제대로 보고, 구성원이 조직의 눈높이에서 자신을 보는 명확한 시각을 확보하는 것. 한 사람의 주관이 아니라 여러 리더의 관점이 교차하고,
조직의 맥락 안에서 재해석되며, 그 과정에서 비로소 '조직의 판단'이 만들어진다.
우리는 사람이 아닌 역할을 평가해야 하며, 계획된 기여와 창발적 기여를 구분해야 한다는 것도 확인했다.
그렇다면 이제 남은 질문은 평가를 어떻게 운영할 것인가에 달려있다.
실제로 어떻게 평가를 운영해야 이 모든 것이 가능한가?
Visibility는 어떻게 확보하는가?
그 결과를 어떻게 구성원의 성장으로 연결하는가?
평가가 아무리 정교하게 설계되어도, 구성원들이 그 과정과 결과를 신뢰하지 않으면 평가는 조직에 독이 된다.
"어차피 정해진 거 아니야?"
"누가 평가하는지도 모르겠어"
이런 말들이 현장에서 들린다면, 평가는 이미 실패한 것이다.
신뢰는 아무리 정교한 수식과 복잡한 평가 설계로도 100% 보장할 수 없다. 오히려 몇 가지 근본적인 원칙을 일관되게, 투명하게 지키는 것이 신뢰를 만드는 가장 확실한 방법이 될 수 있다.
그런 신뢰를 가져가기 위한 평가 과정에는 반드시 지켜야 할 세 가지가 있다.
다만, 이 세 가지를 어떤 방식으로 구현할 것인지는 조직의 전략과 맥락에 따라 달라져야 한다.
① 절차적 투명성: 블랙박스를 여는 것
평가 일정, 평가 방식, 평가자가 누구인지 사전에 명확히 공유되어야 한다.
예를 들어, "11월 1주 1차 평가 실시 → 3주 캘리브레이션 → 12월 1주 개인 면담"처럼 전체 흐름을 투명하게 알려주는 것이다.
절차적 투명성은 결과의 공정성만큼이나 중요하다. 사람들은 절차 자체가 공정하다고 느낄 때 결과를 더 쉽게 수용한다. 반대로 과정이 불투명하면 아무리 공정한 결과라도 "뒷거래 아니냐"는 의심을 받는다.
② 측정 가능한 기준: 목표수립 시 '목표수준 합의'가 결굴 평가 신뢰를 만든다
평가가 신뢰받으려는 조건은 이미 연초 목표수립 시점에 만들어지기도 한다.
즉, 목표수립시 "무엇으로 판단할 것인가"가 명확히 합의되어 있어야 한다.
많은 조직이 피터 드러커의 "측정할 수 없으면 관리할 수 없다"를 "숫자로 표현할 수 없으면 중요하지 않다"로 오해한다. 하지만 드러커가 말한 "측정 가능성(Measurable)"의 본래 의도는 "목표 달성 여부를 객관적으로 판단할 수 있는 합의된 기준"으로 해석하는 것이 좋다.
이 기준은 반드시 숫자일 필요는 없기도 하고, 모든 목표가 숫자로 정리될 수도 없다.
측정 가능한 기준에는 대표적으로 다음의 세 가지 형태가 있다.
1) 정량적 지표(매출 5억, 이탈률 3% 이하), 2) 관찰 가능한 행동(회의에서 먼저 아이디어 제안), 3) 특정 상태의 달성(동료 피드백 '만족' 이상)와 같이 숫자가 아니어도 기준은 명확할 수 있다.
예를 들어서, "리더십 역량"이라는 추상적 목표로 고민하면서, 평가 시즌마다 "리더십이 부족하다"는 피드백을 받은 리더들은 "그래서 뭘 어떻게 하라는 것이지?" 라며 구체적 행동을 고민하기 어렵게 된다.
그러나, 질문을 바꿔서 "팀원에게 명확한 역할을 위임했는가?" "갈등 상황에서 적극적으로 중재했는가?"와 같이 추상적 역량을 구체적 행동 질문으로 전환한다면, 숫자는 없지만 관찰과 판단이 가능해진다.
이렇게 하면 평가자와 피평가자는 무엇을 기대하는지 명확히 이해할 수 있게 되고, 그러한 평가 결과에 대한 수용도는 이전보다 높아지게 된다. 핵심은 평가자와 피평가자가 "무엇을 달성해야 하는지" 목표수립부터 성과관리 내내 같은 기준을 트래킹하며 함께 보는가에 있다.
즉,, 목표수립 시 이런 합의된 기준을 만들고, 연중 성과관리 과정에서 지속적으로 확인했다면, 평가는 예측 가능해지고 피평가자도 평가에 대해 신뢰를 갖게 된다.
③ 피드백과 성장 대화: 설명할 수 있어야 공정하다고 느낀다
평가가 단지 평가등급을 통보하는 자리로만 인식되면, 그 자리는 평가자와 피평가자에게 불편하고 고통스러운 자리만 될 뿐이다. 가령, "당신은 B등급입니다"로 끝나면 구성원은 "왜?"라는 질문만 남을 뿐 수용이 되지 않을 수 있다.
피드백은 반드시 구체적 근거와 함께 개선 방향을 제시해야 한다.
예를 들어, "소통 능력이 부족하다" "태도가 안좋다"는 모호한 피드백이 아니라,
"일을 공유해서 주간 회의에서 먼저 의견을 제시했다면 더 좋은 논의가 가능했을 것"처럼 구체적 상황과 개선 방향을 함께 이야기해야 한다.
평가를 왜 그렇게 주었느냐에 대해서는 평가자가 설명에 대한 책임을 지는 것도 공정성 인식의 핵심이 될 수 있다. 결과를 책임감 있게 설명할 수 있을 때, 구성원은 비로소 평가를 공정하다고 받아들인다.
앞에서 살펴본 세 가지—절차적 투명성, 측정 가능한 기준, 설명 가능한 피드백—은 평가에 대한 신뢰를 만들기 위한 최소 조건이다. 그러나 이것만 갖추었다고 해서 평가가 언제나 의도한 대로 작동하는 것은 아니다.
이 조건들을 갖춘 상태에서 평가를 실제 조직 안에서 운영하다 보면, 곧 객관적으로 완벽한 평가 제도는 존재하지 않는다는 사실을 마주하게 된다.
조직은 고정되어 있지 않다.
경영 환경이 바뀌고, 전략이 달라지며, 그에 따라 일하는 방식도 변한다.
조직이 구성원에게 기대하는 역할과 성과의 기준 역시 그 변화 속에서 함께 움직인다. 이런 변화 속에서 평가 제도는 때로는 처음의 의도와 다르게 작동하고, 설계 당시에는 예상하지 못한 결과를 만들어내기도 한다.
그래서 많은 조직은 일정 시간이 지나면 평가 제도를 다시 들여다보게 된다. 제도가 잘못되었기 때문이 아니라, 조직의 맥락이 달라졌기 때문이다.
결론적으로 기획만으로 완벽해 보이는 평가제도라도 실제 운영은 다르다. 평가는 설계로 완성되는 것이 아니라, 운영하면서 실제 조직에 맞게 조정하고 재설계 되어 간다는 말이 더 적합하다.
GE는 잭웰치가 CEO로 있던 시절, 하위 10%를 매년 정리하는 강력한 상대평가제도로 유명했다.
그 상징이 된 GE의 활력곡선(Vitality Curve)은, 1980년대를 대표하는 가장 강력한 경영도구이자 혁신적인 평가방식으로 받아들여졌다.
GE는 한동안을 그 평가제도를 활용하여 관료주의를 타파하고 성과 중심 문화를 만드는 데 크게 기여했다. 그러나 협업과 팀워크가 중요해진 환경에서는, 동료를 경쟁자로 만드는 이 방식이 오히려 조직의 방향과 충돌하기 시작했다. 결국 GE는 2013년 이 제도를 폐기했다.
최근의 사례로 SK텔레콤의 비등급 평가는 또 다른면에서 평가제도의 변화와 선택을 보여준다.
2019년, 구성원 간 경쟁을 줄이고 협업을 강화하기 위해 절대평가와 비등급 체계를 도입했다. 이후 운영 과정에서 변별력이 부족하다는 신호가 나타났고, 조직은 이를 외면하지 않았다. 실제 운영 결과와 구성원 피드백을 바탕으로 일부를 보완하며 제도를 조정해 나갔다. 이는 실패가 아니라, 평가를 운영하며 얻은 학습의 결과였다.
두 사례는 서로 다른 선택처럼 보이지만, 공통적인 본질은 "제도는 완벽해서 유지되는 것이 아니라, 조직에 맞게 조정되며 살아남는다"는 점이다.
평가 제도는 고정된 규정이 아니다. 조직의 변화와 분리된 채 독립적으로 존재할 수도 없다. 조직이 변화하면 평가 역시 그 변화에 반응해야 한다. 조직이 지향하는 핵심 원칙은 유지하되, 운영 방식은 조직과 함께 변화할 수 있어야 한다.
평가가 신뢰를 잃는 순간은 제도가 불완전해서가 아니라, 조직은 변했는데 평가제도는 아직 과거에 맞추어 있을 때이다. 현재의 조직상황과 맥락적으로 맞지 않을 때, 평가제도는 형식적인 것으로만 남아 있게 된다.
평가는 단순히 성과를 측정하고 등급을 나누는 절차가 아니다.
구성원들은 평가를 통해 이 조직이 말로 무엇을 강조하는지가 아니라, 실제로 무엇을 중요하게 여기는지를 읽어낸다. 회사가 아무리 “도전을 장려한다”고 말해도, 도전했다가 실패한 사람이 낮은 평가를 받는다면 구성원들은 말이 아니라 결과를 믿는다.
바로 조직의 선언이 아니라, 평가 결과로써 조직의 진짜 가치관이 드러나는 순간이다.
성과관리가 연중 축적된 정보와 판단의 과정이라면, 평가는 그 판단을 조직의 관점에서 종합해 공식화하는 순간이다.
이 ‘공식화’의 순간이 중요한 이유는 단순하다.
평가 결과는 개인에게는 n번의 경험이지만, 조직 전체로 보면 반복적으로 축적되기 때문이다.
누가 어떤 이유로 인정받는지,어떤 선택이 평가에서 긍정적으로 해석되는지,어떤 실패는 용인되고 어떤 실패는 처벌되는지.이 모든 신호가 누적되면서 구성원들은 조직의 암묵적인 규칙을 학습한다.
평가는 그렇게, 의도하지 않아도 조직문화를 만들어가는 것이다.
평가를 둘러싼 갈등의 상당수는, 조직과 개인이 평가를 전혀 다른 관점으로 읽기 때문에 발생한다. 조직이 평가를 통해 얻고자 하는 관점은 비교적 명확하다.
“이 사람은 맡은 역할을 얼마나 잘 수행했는가?”
“다음 단계의 역할을 맡길 준비가 되어 있는가?”
반면 구성원이 평가결과를 통해서 읽어내는 관점은 조직과 다르다.
“이 조직에서 나는 안전한가?”
“여기서 계속 성장해도 되는가?”
조직은 역할 적합성과 성과를 판단하려 하지만, 구성원은 평가를 통해 이 조직의 문화와 자신의 미래를 동시에 확인한다. 그래서 평가는 언제나 민감하고, 감정적으로 받아들여진다.
이 지점을 이해하지 못하면, 조직은 “합리적인 평가”를 했다고 생각하고, 구성원은 “불공정한 평가”를 받았다고 느끼는 간극이 반복된다.
평가가 조직문화에 영향을 줄 때 가장 강하게 작용하는 지점은 ‘실패를 어떻게 다루는가’를 구성원이 확인할 때이다.
'두려움없는 조직'의 저자 에이미 에드먼슨은 심리적 안전감에 대해 “처벌이나 모욕에 대한 두려움 없이 의견을 말하고 실수를 인정할 수 있는 집단적 신념”이다라고 말했다.
그리고 저서에서 에드먼슨은 심리적 안전감이 ‘친절함’이나 ‘갈등이 없는 상태’를 의미하지 않는다고 분명히 선을 긋는다.
그것은 성과 기준을 낮추거나 책임을 유예하는 문화가 아니라, 높은 기대치와 솔직한 의견 교환이 공존할 수 있는 조건이다.
중요한 점은 이 심리적 안전감이 선언이나 슬로건으로 만들어지지 않는다는 것이다.
"실패를 두려워하지 말라"고 말하는 것만으로는 아무 일도 일어나지 않는다.
구성원들은 말이 아니라, 실제로 실패했을 때 조직이 어떻게 반응했는지를 기억한다. 그리고 그 반응이 가장 명확하게 드러나는 순간이 바로 평가이다.
평가가 모든 실패를 동일하게 '무능'으로 처리한다면 어떤 일이 벌어질까?
구성원들은 위험을 회피하고 새로운 아이디어 제안을 주저하게 될 것이다.
문제가 생겼을 때 드러내고 해결책을 찾기보다 숨기려 할 수도 있다.
그리고 동료의 어려움을 돕기보다 자기 방어에 급급해 하거나, 자신이 알고 있는 지식과 노하우를 조직에 공유하기를 꺼려할 수도 있다.
결국 조직은 "도전하라"는 구호를 외치면서도, 정작 평가 시스템은 "실패하면 끝"이라는 정반대의 신호를 보내게 된다.
그렇다고 도전적 시도의 실패를 성공과 똑같이 평가할 수는 없다. 이 딜레마를 해결하는 열쇠는 '실패의 종류'를 구분하는 데 있다.
합리적인 가설을 바탕으로 한 '학습적 실패(Intelligent Failure)'와 명백한 태만에서 비롯된 '책임 회피적 실패(Preventable Failure)'는 평가에서 명확히 다른 무게로 다루어져야 한다.
학습적 실패는 새로운 마케팅 채널 실험처럼, 합리적인 가설을 세우고 새로운 시도를 했지만 기대한 결과에 도달하지 못한 경우에 해당한다.
목표 자체는 달성하지 못했더라도 문제를 어떻게 정의했는지, 실험을 어떻게 설계했는지,
그리고 실패 이후 얼마나 빠르게 학습하고 방향을 조정했는지는 평가의 중요한 근거가 될 수 있다. 반면 책임 회피적 실패는 반복적인 마감일 미준수, 기본적인 확인 부족, 명백한 태만처럼 사전에 충분히 예방 가능했던 실패에 해당한다.
이 경우에는 학습의 이름으로 포장되기보다, 분명한 개선 요구와 책임이 뒤따라야 한다.
만약 이 두 가지가 평가에 일관되게 반영하게 된다면, 구성원들은 조직의 진짜 메시지를 읽게 될 것이다.
"이 조직은 무모한 시도는 경계하지만, 합리적인 도전의 실패는 학습으로 본다." 와 같은, 메시지를 읽는 순간부터 실패는 숨길 대상이 아니라 공유할 학습이 되고, 구성원들은 좀더 도전적인 업무와 다음 시도를 준비하는데 용기를 내기 시작한다.
평가는 심리적 안전감을 새로 만들지 않는다. 이미 있던 안전감을 지키거나, 한 번에 무너뜨릴 뿐이다. 그만큼 평가의 힘은 강력하다.
평가는 구성원의 행동을 유도한다.
"무엇이 평가받는가"는 곧 우리 조직에서 "무엇이 중요한가"를 말하기 때문이다.
그리고 그 행동이 반복되고 누적되면서 조직문화가 형성된다.
그렇다면 평가는 구성원의 어떤 동기를 자극하는가?
다니엘 핑크는 그의 저서 『드라이브』에서 "창의적이고 복잡한 업무에서는 외재적 보상보다 내재적 동기가 핵심"이라고 강조했다. 그는 자기결정성이론(Self-Determination Theory, SDT)을 바탕으로, 인간은 자율성(Autonomy), 숙련(Mastery), 목적(Purpose)이 충족될 때 몰입과 성과가 극대화된다고 설명한다.
평가 설계는 바로 이 내재적 동기 요인들과 직접 연결된다.
평가가 '상대적 비교'에 초점을 맞출 때와 '개인의 성장'에 초점을 맞출 때, 구성원들의 행동과 동기는 극명하게 달라진다.
평가가 상대 비교와 서열 매기기에 집중되면 어떤 행동이 만들어지는가?
구성원은 점점 안전한 선택만 하게 될 것이다. 남보다 앞서는 것이 목표가 되면, 자율성은 줄어들고 단기 성과에 집착하게 된다.
일의 의미는 희미해지고, "어떻게든 좋은 등급만 받으면 된다"는 생각이 퍼진다. 자율성은 무력감으로 바뀌고, 숙련을 위한 장기적 투자는 단기 경쟁으로 대체되며, 일의 목적은 등급에 매달리는 정치적 행동으로 희석된다.
이런 행동이 반복되고 조직 전체에 누적되면, 조직안에서는 도전적인 목표보다는 안전한 목표 중심으로 일이 진행되고, 눈치와 경쟁의 문화가 형성된다.
반대로 평가가 개인의 성장과 기여의 맥락을 확인하는 데 초점을 두면 어떠한가?
구성원은 과거의 자신과 비교하며 발전하려 한다. 숙련에 투자하고, 자신의 일이 조직의 목적과 어떻게 연결되는지를 이해하려 한다. 실패를 두려워하기보다 학습의 기회로 받아들인다.
자율성은 성장에 집중하는 주도적 행동으로, 숙련은 "과거의 나보다 발전했는가"라는 지속적 학습 동기로, 목적은 자신의 성과가 팀과 조직의 더 큰 목표와 연결되는 의미 확인으로 작동한다.
이런 행동이 반복되고 누적되면, 도전과 성장의 문화가 형성된다.
물론, 내재적 동기도 중요하지만 좋은 평가를 받고 싶은 것은 당연한 마음이다. 이 둘이 충돌하지 않게 하려면, 조직은 '평가 등급'이라는 단 하나의 인정 방식에서 벗어나야 한다.
1회차에서 다룬 계획된 기여와 창발적 기여를 떠올려보자. 계획된 기여는 안정적이고 예측 가능하므로 연봉 인상으로, 예상하지 못한 창발적 기여는 즉시적 인정이 필요하므로 특별 인센티브나 포상으로 다뤄질 수 있다. 기여의 성격에 맞는 다양한 인정 통로가 있을 때, 평가는 단순한 경쟁을 넘어 성장의 신호가 되고, 그렇게 만들어진 행동들이 조직문화로 뿌리내린다.
앞서 평가운영의 본질은 결국 '조직내 Visibility의 확보'에 있다고 했다.
이는 조직이 조직적 관점에서 구성원을 보는 명확한 시각을 갖게 되는 것을 말한다.
그렇다면, 실제로 평가를 운영하면서 조직내 Visibility를 가장 효과적으로 하는 방법이 무엇일까?
그것은 바로 평가자간 캘리브레이션을 운영하는 것이다
그래서, 캘리브레이션이 바로 평가과정에서의 꽃이 된다고도 말할 수 있겠다.
평가를 캘리브레이션 하는 현장이나, 평가를 마친 뒤 현장에서 종종 이런 말들을 들어본 적 있을 것이다.
"캘리브레이션에서 다른팀 보니까 내가 평가를 너무 야박하게 주었네" 라든가,
평가가 완료된 이후 "왜 저팀은 다 평가가 좋은거 같지?" "내 평가는 정말 공정한가?" 등등의 말들이 오가게 된다.
정확히 말하면 이는 사람의 성향차이가 분명히 있고, 그에 따라서 평가등급 혹은 점수간 쏠림현상이나 분산 등이 다르다. 그리고 이것은 과거부터 현재에 이르기까지 늘 평가시 나타나는 현상이다.
어떤 리더는 관대하다. 팀원들을 애정하는 마음에, 혹은 갈등을 피하고 싶어서, 대부분에게 높은 점수를 준다.
어떤 리더는 엄격하다. 완벽주의 성향 때문에, 혹은 더 성장시키고 싶은 마음에, 점수를 후하게 주지 않는다. 개인의 성향이 반영되는 자연스러운 인간의 특성이다.
문제는 이 차이가 평가 결과에 그대로 반영될 때 발생한다.
유사하거나 동일한 임팩트를 갖는 성과를 내고도 관대한 리더 밑에 있으면 높은 점수를 받고, 엄격한 리더 밑에 있으면 낮은 점수를 받는다.
과거에는 이를 평가자간 평가등급과 점수를 수치적으로 조정하기 위해, 평가분산과 표준편차를 맞추는 작업을 한 적도 있었다.
그러나 이러한 의도적인 조정은 평가자의 의도나 메세지를 희석하고 단순한 조정과 매칭으로 마무리 되기 때문에 평가 왜곡이 드러나지 않았었다.
캘리브레이션은 바로 이 점에서 현재 가장 적합하고 유용한 평가조정의 도구가 된다.
더군다나 절대평가를 도입한 조직이라면, 캘리브레이션은 선택이 아니라 필수가 된다.
바로 캘리브레이션 특성상 조정하는 과정 내내 유사한 성과나 역량 그룹간 상대적인 비교를 하면서 조정하기 때문이다.
① 조직은 인재 지도를 얻는다
캘리브레이션은 보통 유사 그룹핑 된 조직간 모여서 1차 캘리브레이션을 진행하고, 이후 전사 리더들이 한자리에 모여 구성원의 성과를 논의한다. 이 과정을 거치면 조직은 '우리가 어떤 인재를 보유하고 있는지'를 보다 명확히 파악하게 된다.
"개발2팀에 그런 인재가 있었어?" "마케팅팀의 저 사람, 다른 부서와의 협업에서 굉장한 역할을 했네." 어떤 팀에 숨겨진 에이스가 있는지, 누가 다음 리더로 준비되어 있는지가 상대적으로 가치를 보여주며 드러난다.
이렇게 완성된 조직의 인재 지도는 차기 리더 선발, 핵심인재 유지, 전략적 배치 등 미래 인력 운영을 위한 가장 중요한 데이터가 된다.
② 리더는 조직 전체를 볼 수 있는 관점이 강화된다
캘리브레이션을 준비하는 과정은 리더에게 특별한 경험을 준다.
우선, 구성원을 더 면밀히 관찰하게 된다.
다른 조직의 리더 앞에서 구성원의 성과를 논리적으로 설명하고 설득할 수 있어야 한다. 그리고 자신의 팀원을 다른 팀 인재와 비교하게 되므로 명확하게 기준을 가지고 성과를 정리할 수 있어야 한다.
이 과정을 통해 리더의 시각은 '우리 팀'에서 '우리 조직' 전체로 확장된다.
실제로 많은 조직에서 캘리브레이션을 도입한 후, 중간 관리자들의 피플 매니지먼트 역량이 눈에 띄게 향상되는 것을 경험했었다.
조직에서 평가 캘리브레이션을 운영하는 원리를 이해한 구성원 입장에서는 "나의 평가가 한 사람의 주관이 아니라, 여러 리더의 교차 검증을 거쳤다"는 사실 자체로 평가 결과에 대해 신뢰를 갖는다.
하버드 비즈니스 리뷰의 연구에 따르면, 평가 결과의 공정성만큼이나 과정의 공정성이 수용도에 결정적 영향을 미친다고 한다. 캘리브레이션은 바로 이 과정의 공정성을 확보하는 가장 강력한 무기가 될 수 있다.
그렇다면 캘리브레이션은 실제로 어떻게 운영하는가?
캘리브레이션은 연말에 리더들이 모여 "이 사람 어땠지?" 하며 기억을 더듬는 회의가 아니다.
이미 1년 내내 기록된 성과 데이터와 관찰된 기록을 바탕으로 피평가자를 설명하고 상대적으로 비교하는 자리이다. 즉, 분기별 목표 달성도, 프로젝트별 기여, 리더와 나눈 피드백 기록이 모두 쌓여 있는 데이터를 바탕으로, 리더마다 다른 '평가 눈높이'를 일관되게 맞추는 과정이다.
따라서 취지대로 운영되기 위해서는 연중 상시 성과관리가 제대로 작동해야 한다는 것이 전제되어야 한다. 이것 없이는 캘리브레이션이 성과를 상대화하며 비교하는 자리가 아니라, 단순하 평가등급 비율만 조정하는 자리가 될 수도 있다.
Step 1: 사전 준비 - 리더의 준비사항
캘리브레이션에 참여하는 각 리더는 맡은 조직의 '평가 포트폴리오'를 준비해야 한다.
즉, 조직의 성과를 먼저 정의하고, 이후 조직 구성원들의 개별 성과 요약(목표 달성도, 계획 외 기여, 구체적 사례), 역량 관찰 의견(강점, 보완점, 성장 제언), 잠정 등급(1차 평가 및 근거)이 포함된다.
사실 이 준비 과정 자체가 리더로 하여금 구성원을 더 깊이 이해하게 만드는 중요한 시작이 된다.
"이 사람이 올해 실제로 뭘 했지?" "어떤 기여가 가장 중요했지?" 이런 질문을 하면서, 리더는 비로소 구성원을 자세히 관찰하며 보기 시작한다.
Step 2: 상위조직 성과 리뷰하기 - 가장 중요한 첫 단추
캘리브레이션 세션에서 가장 중요한 것은 무엇일까?
캘리브레이션에서 성공하는 가장 핵심 요인은 바로 상위 조직 성과를 먼저 리뷰하는 것이다.
그러나 의외로 많은 조직들이 실제 이 과정을 누락하거나 생략하고 지나가는 것을 볼 수 있다.
개인 평가에 들어가기 전에 반드시 상위 조직 전체의 성과를 먼저 공유하고 논의해야, 캘리브레이션이 원활하게 의도한 목적을 달성할 수 있게 된다.
예를 들어보자.
"우리 실은 올해 전사 목표 대비 120%를 달성했습니다. 특히 신사업 진출이 핵심 기여였습니다. 반면 기존 사업은 시장 전체가 위축되면서 목표에는 미치지 못했습니다. 따라서 이번 평가에서는 '도전적 실행'과 '신사업 기여도'에 더 높은 가중치를 두고자 합니다."
이렇게 맥락을 먼저 설정하면 무슨 일이 일어나는가?
먼저, 평가의 큰 기준점과 눈높이가 먼저 합의된다. "올해 우리 조직에서 가장 중요했던 것은 무엇인가"가 명확해진다.
그 다음 개인 평가로 들어가면, 논의가 훨씬 수월해진다.
만약 이 단계를 건너뛰고 바로 개인 평가로 들어가게 된다면, 각 리더는 자기 팀의 맥락만 가지고 설명한다. 그리고는 서로 다른 기준으로 이야기하니 합의가 어렵고, 논쟁이 길어진다. 이것이 많은 조직들이 캘리브레이션을 진행하면서 언성을 높이거나 싸움으로 변하는 이유이다.
♣ Tip. 이때 인사팀에서 준비해야 할 사항
이때, 인사팀에서는 전사성과와 그 하위 조직들로 이어지는 성과를 사전에 받아서 정리한다.
그리고 전 구성원에 대해 리더가 제출한 평가결과 및 평가 포트폴리오를 모두 캘리브레이션 세션용으로 양식을 통합해야 한다.
마지막으로, 캘리브레이션 세션시 중요한 그라운드 룰, 주요 질문 등을 시나리오 준비를 해 두는 것이 좋다.
Step3. 세션진행 - 눈높이를 맞추고 평가조정 합의
사전 준비를 마친 리더들이 세션에 참석한다.
그리고 참석 전 상위 조직 성과 맥락도 공유되었다. 이제 본격적으로 평가를 조정하는 시간이다.
세션은 명확한 구조를 가지며, 통상적으로 아래의 순서로 진행이 된다.
1. 먼저 그라운드 룰을 확인한다.
기밀유지는 기본이다. 이 자리에서 논의된 내용은 절대 외부로 나가지 않는다.
성과 중심으로 논의하고, 개인의 성격이나 스타일이 아니라 관찰 가능한 성과와 행동에 집중한다.
건설적 반론은 환영하고, 다른 의견이 있다면 주저 없이 말해야 한다. 그래야 더 정확한 판단에 이를 수 있다.
2. 다음으로 참석한 조직의 성과 분포를 리뷰한다.
팀의 등급 분포를 펼쳐놓고 확인한다. "A팀은 최고 등급이 30%인데, B팀은 10%네요. 두 팀의 역할과 난이도가 비슷한데, 이 차이는 어디서 오는 걸까요?" 이런 질문에서 눈높이 차이가 드러난다.
3. 이제 평가대상자를 중심에 두는 토론으로 들어간다.
최고 등급을 받은 구성원부터 논의한다. "정말 최고 수준인가?" "다른 팀 최고 등급자와 비교하면?" 경계선에 있는 구성원들도 집중 논의한다. "A와 B 사이에서 고민되는데, 결정적 차이가 뭘까?"
구체적 성과 사례를 놓고 이야기하다 보면, 리더들의 눈높이가 점점 맞춰진다.
4. 마지막으로 등급을 조정하고 최종 합의에 이른다.
"그렇다면 김00은 A로, 이00은 B+로 조정하겠습니다." 모두가 납득하는 기준으로 정렬되면서 최종적으로 해당 캘리브레이션에서의 평가조정은 완료된다.
이러한 캘리브레이션은 통상 2단계 구조로 운영된다.
1차 캘리브레이션에서는 유사한 역할이나 성과를 낸 구성원들 간의 눈높이를 맞춘다.
본부 또는 실 단위 산하의 팀들이 모여 평가를 조정하는 것이다. 그리고 이렇게 조정된 결과가 토너먼트 방식으로 상위 조직으로 올라간다.
2차 캘리브레이션에서는 대표이사와 경영진과 본부/실 리더들이 모여 전사 성과와의 연결을 최종 확정한다. "올해 전사 차원에서 가장 중요한 기여는 무엇이었나?" "그 관점에서 보면 누구의 기여가 가장 컸나?" 이렇게 전사 맥락에서 최종 조정이 이루어진다.
이를 예시적으로 정리하면 대략 다음과 같은 형태이다.
[1차 캘리브레이션 - 본부/실 단위]
플랫폼팀 + 앱팀 + 인프라팀 → 개발본부 조정 완료
마케팅1팀 + 마케팅2팀 → 마케팅본부 조정 완료
영업1팀 + 영업2팀 + 영업3팀 → 영업본부 조정 완료
↓ (토너먼트 방식으로 상향)
[2차 캘리브레이션 - 전사 단위]
개발본부 + 마케팅본부 + 영업본부 → ★ 전사 최종 조정
Step 4: 사후 관리 - 조직의 시각 정리하기
캘리브레이션이 끝나면 결과를 정리한다.
최종 합의된 등급, 조정 사유, 핵심 논의 내용이 문서화된다. 각 구성원에 대한 "조직의 시각"이 명확한 문장으로 정리된다.
"신사업 기여가 전사 관점에서 특히 높게 평가됨"
"부서 간 협업에서 더 적극적 커뮤니케이션 필요 - 여러 리더 공통 의견"
캘리브레이션을 마친 후 평가 결과에 대한 메세지는 단순히 평가등급 통보가 아니다. 리더 한 사람의 주관이 아닌, 여러 리더의 교차 검증을 거친 조직의 판단이다.
정리된 결과는 각 리더에게 전달된다.
이제 리더는 "나의 생각"이 아니라 "조직의 시각"을 근거로 구성원과 대화할 준비가 된 것이다.
캘리브레이션에서 리더들이 던지는 질문의 질은 Visibility의 깊이를 결정한다.
표면적 평가를 넘어 진짜 기여와 잠재력을 발견하는 질문으로는 다음과 같이 해보길 바란다.
(이 질문은 캘리브레이션 뿐만 아니라, 일반 평가에서도 질문을 해가면서 평가하는데 도움이 된다)
1. 진짜 기여 발견하기 :
"이 사람이 없었다면 어떤 결과가 달라졌을까?"
"이 사람과 다시 일한다면, 어떤 역할을 맡기고 싶은가?"
"이 사람의 존재가 다른 사람들에게 어떤 영향을 미쳤나?"
2. 잠재력과 성장 :
"이 사람은 2단계 위 역할을 맡을 준비가 되어 있나?"
"이 사람의 강점을 최대한 활용하려면 어떤 역할이 적합한가?"
3. 상대적 관점 :
"같은 역할의 다른 사람과 비교했을 때 차별점은?"
"가장 중요한 프로젝트를 이 사람에게 맡길 수 있는가?"
이 질문들은 "A등급인가 B등급인가"를 넘어, "이 사람의 고유한 가치는 무엇이며, 조직은 이를 어떻게 활용할 것인가"라는 전략적 논의로 이끌며, 조직적 관점에서 Real한 성과와 그 외 역량이나 성과 외 부수적인 사람과 조직에 대한 정보를 발견할 수 있게 해준다.
(참고: Doris Sims, The Talent Review Meeting Facilitator's Guide; Buckingham & Goodall, "The Feedback Fallacy", HBR 2019; Tim Baker, The End of the Performance Review)
캘리브레이션은 강력한 도구지만, 잘못 운영하면 오히려 문제를 만든다.
이를 제대로 작동하게 하는 다음의 세 가지를 유의하면서 운영해야 한다.
첫째, 편향을 경계하라
"김00님은 정말 열심히 하더라고요. 제가 보기엔 A급인 것 같은데요."
이 말에서 문제를 발견할 수 있는가?
'제가 보기엔' 이라는 표현이다.
무엇을 근거로 '열심히' 라고 판단했는가? 얼마나 자주 그 모습을 봤는가?
이는 하버드 비즈니스 리뷰(2024)에 발표한 연구결과에서도 알 수 있다. 캘리브레이션이 편향을 줄이기는커녕, 오히려 집단적으로 편향을 증폭시킬 수 있다는 것이다.
특히 다음의 세 가지 편향을 가장 주의해야 한다.
1. 근접성 편향(Proximity Bias)
자주 만나고 대화를 나누는 구성원을 더 높게 평가하는 경향이다. 재택근무를 하거나 다른 층에서 일하는 구성원은 같은 성과를 내도 상대적으로 저평가될 수 있다.
2. 유사성 편향(Similarity Bias)
나와 비슷한 배경, 업무 스타일, 성격을 가진 사람을 선호하는 경향이다. "저 친구는 내가 신입 때 모습이 보여" 라는 말 뒤에 숨은 위험이다.
3. 발언권 편향(Voice Dominance)
목소리가 크고 확신에 찬 리더나 권력과 포지션에서 발언권이 강한 리더의 의견이 회의를 지배하는 현상이다. "저는 그렇게 생각 안 하는데..." 라고 말하기 어려운 분위기가 만들어지면, 캘리브레이션은 한 사람의 주관을 집단이 승인하는 자리로 전락한다.
이를 막으려면 의도적인 장치와 그라운드 룰이 반드시 필요하다.
각자 평가 근거를 먼저 서면으로 제출하게 하거나, 모든 리더가 순서대로 의견을 말하게 하거나, 퍼실리테이터가 "다른 의견은 없으신가요?"를 적극적으로 묻는 것이다.
둘째, 데이터를 기반으로 논의하라
"그 사람 일 잘하잖아요."
"음... 뭘 잘했더라? 아무튼 같이 일할 때 느낌이 좋았어요."
"일을 열심히 하고 성실해요."
이런 대화로는 합의에 이를 수 없다.
캘리브레이션에서는 다음과 같이 구체적인 성과와 성과에 대한 근거를 가지고 대화를 해야 한다.
"이번 분기 A 프로젝트에서 출시 일정을 2주 앞당겼고, 고객 불만이 전 분기 대비 30% 감소했습니다. 그 과정에서 3개 팀과 주 2회 정기 회의를 주도했고, 협업팀 리더들이 '소통이 매우 명확했다'는 피드백을 줬습니다."
구체적인 성과 데이터와 관찰 가능한 행동 사례.
이것이 캘리브레이션을 주관의 충돌이 아닌 사실의 검증으로 만든다.
그래서 캘리브레이션은 연중 상시 성과관리가 전제되어야 한다는 것이다. 1년 내내 기록하지 않았다면, 연말에 기억나는 몇 가지 일화에 의존할 수밖에 없다.
셋째, 상위 조직 성과 맥락부터 명확히 하라
캘리브레이션에서 가장 흔한 실패는 이것이다.
"우리 팀 김00님 A등급 맞죠?"
"저희 팀 이00님도 A등급인데요."
"아니, 우리 쪽이 더 중요한 일 했는데요."
각 팀이 자기 팀 구성원만 보고 들어오면, 세션은 '누가 더 중요한가' 논쟁으로 흘러간다.
그래서 캘리브레이션 운영 실무에서 강조했던 [Step 2: 상위 조직 성과 리뷰를 먼저 하는 것]이 반드시 논의시 함께 언급되어야 한다.
"올해 우리 본부는 신사업 진출이 가장 큰 성과였습니다. 따라서 신사업 기여도가 높은 구성원에게 더 높은 가중치를 두겠습니다."
이 문장 하나가 전체 논의의 기준점이 된다.
상위 조직의 전략적 우선순위가 명확하지 않으면, 각 팀은 저마다의 논리로 자기 팀원을 옹호하게 되고, 결국 합의가 아니라 힘겨루기로 끝난다.
캘리브레이션은 준비가 80%이고, 나머지 20%는 세션 운영이다.
각 리더가 데이터를 갖고 오고, 상위 조직 성과 맥락이 명확하게 정의 되는 것이 반드시 준비되어야 한다. 그리고 퍼실리테이터가 한 사람의 목소리가 지배하지 않도록 조율하고, 모든 리더가 자유롭게 의견을 말할 수 있는 분위기를 만들고, 사실 기반의 건설적 논의가 이루어지도록 이끄는 것이 가능질 때, 비로소 캘리브레이션이 목적한대로 작동한다.
캘리브레이션을 통해 Visibility를 확보했다면, 이제 이 정보를 전략적으로 활용할 차례이다.
여기서 최근 유용하게 활용되고 있는 도구가 바로 성과(Performance)와 잠재력(Potential)을 두 축으로 하는 매트릭스로 구성된 "9 Block Box"이다.
그렇다면 왜 이 방법을 캘리브레이션 이후에 활용하는가?
첫째, 잠재력은 다른 조직과 교차하여 토론하기 어렵다.
성과는 캘리브레이션 과정에서 여러 리더가 함께 볼 수 있지만, 잠재력은 직속 리더가 오랜 기간 관찰해야 판단할 수 있는 영역이다.
둘째, 9 Block Box 결과는 보상과 처우에 직접 연계된다.
'승진, 배치, 육성 계획' 등 개인의 이후 인사처우에 중요한 의사결정시 직접적으로 반영이 되므로, 리더 입장에서도 캘리브레이션을 통해 정교하게 쌓인 정보를 기반으로 판단하는 것이 필요하다.
즉, 9 Block Box는 지속적으로 구성원을 관찰한 리더가 성장과 미래 관점에서 잠재력을 판단하는, 육성관점의 리더십이 가장 중요하게 발휘되는 순간이기도 하다.
물론 조직의 성숙도에 따라 운영 방식은 달라질 수 있다.
캘리브레이션과 9 Block Box 방식을 오래 운영한 조직이라면, 평가와 함께 잠재력 판단을 사전에 준비하여 캘리브레이션 세션에서 함께 논의하는 것도 가능하다.
"이 사람, 성과는 높은데 다음 리더로는 글쎄..."
"성과는 아직인데, 뭔가 가능성이 보이는 사람..."
이런 막연한 느낌을 성과x잠재력이라는 3x3 Matrix의 명확한 전략판에서 판단할 수 있게 해준다.
이들을 해석하는 것은 통상적인 방법에서 각 조직별 상황에 맞게 변주를 줄 수도 있다.
가령, 통상적으로 해석한 것을 보면 다음과 같다.
1. 고성과·고잠재력 구성원은 조직의 미래를 이끌 리더 후보로 본다.
도전적인 역할을 맡기고, 리더십 개발 프로그램에 우선 투자한다. 이들을 잃는 것은 조직에 가장 큰 손실이므로, 적극적인 유지 전략이 필요하다.
2. 고성과·저잠재력 구성원은 현재 해당 역할의 실무 전문가이다.
승진보다는 전문성 심화가 적합하며, 그들의 노하우를 조직 자산으로 축적하는 것이 중요하다. 듀얼 래더(전문가 트랙)가 이들을 위한 성장 경로가 된다.
3. 저성과·고잠재력 구성원은 역할 미스매치일 가능성이 크다.
잠재력은 있지만 현재 역할에서 성과가 나지 않는다면, 단기적으로는 성과가 나지 않는 원인을 찾아 적합한 지원을 해주어야 한다. 그러나 지속적일 때는 역할이 맞지 않을 수 있다고 보고, 적합한 역할을 찾아주는 것이 해법이다. 성급한 판단보다는 다른 기회를 제공해보는 것이 먼저인 것이다.
4. 저성과·저잠재력 구성원은 개선 계획이 필요하다.
명확한 기대 수준과 지원을 제공하되, 일정 기간 내 개선이 없다면 다른 조직으로의 배치 등 역할 재조정을 고려해야 한다.
그리고 그 사이에 수많은 조합이 있다. 중간 성과에 중간 잠재력을 가진 구성원들. 이들은 조직의 안정적 기반이며, 적절한 지원을 통해 어느 방향으로든 움직일 수 있는 가능성을 가진 사람들이다.
하지만 핵심은 이것이다.
9 Block Box를 사용할 때 가장 흔한 실수가 있는데, 바로 단순히 판단한 결과로 낙인해버리고 끝내버리는 것이다.
"이 사람은 고성과-고잠재력이니까 승진 대상."
"저 사람은 저성과-저잠재력이니까 퇴출 검토."
구성원을 해당 박스에 넣고 라벨을 붙이는 순간, 그 사람은 고정된다.
"ooo는 저성과-저잠재력 박스에 있잖아." → 이 순간, 그 사람은 더 이상 가능성이 아니라 '문제'가 된다.
"△△△는 고성과-고잠재력이니까 당연히 승진이지." → 이 순간, 구체적인 육성 전략은 사라지고 당연히 승진하는 것만 남는다.
하지만 9 Block Box의 진짜 쓰임은 라벨을 붙이는 도구가 아니라, 질문을 시작하는 도구인 것이다.
"이 사람을 다음 리더로 키우려면 어떤 경험이 필요한가?"
"지금 맡고 있는 역할이 이 사람의 성장에 도움이 되고 있나?"
"3년 후 이 사람이 어디에 있어야 조직에 가장 큰 기여를 할 수 있을까?"
9 Block Box는 판단의 종착점이 아니라 이런 대화가 오가는 시작점이어야 한다.
박스 안에 이름을 넣는 것이 목적이 아니라, 그 이름 앞에서 조직이 무엇을 결정할지 논의하는 것이 목적이다. 그것이 9 Block Box를 잘 활용했을 때 나오는 진짜 가치라고 볼 수 있다.
(※ 구체적인 인재 배치와 육성 전략은 6장 인재관리에서 다룬다.)
캘리브레이션을 거쳐 조직적 관점에서의 평가결과가 확정이 되었고, 이때 발견한 가시성들을 9 Block Box를 통해 전략적 활용 방향으로 정리가 되었다. 이제 남은 것은 그 판단을 구성원에게 전달하고, 구성원의 성장으로 연결하는 것이다.
평가의 진짜 완성아 되는것은 리더와 구성원간의 평가 이후 피드백 대화에 있다.
"다 같이 열심히 했는데 누군가를 낮게 평가해야 한다는 게 부담스러워요."
많은 리더들이 평가 시즌마다 느끼는 공통적인 고민이다. 더군다나 계속해서 함께 일을 해야 하니 어지간히 불편한 것이 아니다. 그래서 어떤 리더들은 결과부터 빠르게 통보하고 끝내려 한다.
그러나 이렇게 결과부터 통보하고 끝내면, 구성원의 마음은 방어적이 되거나 닫히게 된다.
"왜 B인가요?"
"저보다 못한 사람도 A 받았는데요." 라는 식으로 변하며, 대화는 논쟁이 될 수도 있거나, 아예 침묵으로 서로를 대하게 될 수도 있다.
평가는 지속적인 성과관리에서 일정 시점의 정리이자 다음 단계로의 전환점이다.
이 전환을 의미 있게 만드는 것이 바로 피드백 대화이다. 구체적이고 준비된 대화 없이는 구성원은 성장의 실마리와 계속해서 일을 해야 하는 동기를 잃어버리고, 평가는 그냥 '판결'로 끝나게 된다.
평가는 숫자나 등급으로 끝나는 것이 아니라, 대화로 완성된다.
그렇다면 성장을 이끄는 대화는 어떻게 설계하는 것이 효과적인가?
① 긍정적 기여로 문을 연다
"올해 신사업팀과의 협업에서 당신의 역할이 정말 중요했습니다. 특히 7월 위기 상황에서 당신이 중재하지 않았다면 프로젝트는 중단되었을 겁니다. 캘리브레이션에서도 여러 리더가 이 점을 높게 평가했습니다."
이렇게 잘한 점과 조직 기여를 구체적으로 먼저 인정하면서 시작하면, 다음에 오는 개선점도 구성원은 수용할 수 있게 된다. 사람들은 자신이 인정받고 있다고 느낄 때 비로소 개선점에 대해 열린 마음으로 들을 수 있다.
② 평가결과에 대한 구체적 사례와 근거에서 출발한다
"평소 좀 더 주도적일 필요가 있어요." 이런 피드백은 모호하고, 구성원의 방어를 만들어낸다.
"저는 주도적인데요?"
"지난 A 프로젝트 기획 회의 기억하시죠? 당신은 전체 회의 동안 침묵했습니다. 하지만 회의 후 복도에서 나눈 대화에서는 정말 좋은 아이디어가 많았어요. 그 아이디어를 회의 중에 먼저 제시했다면, 우리 팀의 최종 결정이 달라졌을 겁니다."
그러나 이렇게 구체적으로 말하면 구성원은 당시 상황을 떠올리게 되고, 무엇을 어떻게 바꿔야 할지 명확해진다. 추상적 표현이 아니라 구체적 상황과 행동을 이야기하는 것이 피드백의 출발점이다.
③ 경청과 공감
리더가 일방적으로 전달하는 것이 피드백이 아니다. 말 그대로 상호 대화가 오가야 하며, 구성원의 생각, 느낌, 어려움을 주의 깊게 들어야 한다.
"이번 평가 결과와 제가 드린 피드백에 대해 어떻게 생각하시나요?"
이 질문으로 열어본다.
그러면 리더가 미처 보지 못한 맥락을 이해할 수 있고, 문제의 본질을 함께 진단할 수 있다. 경험상 피드백에서 가장 중요한 것은 '자신의 의견이 존중받고 있다는 느낌'이다.
④ 미래 지향적 대화
만약 평가 결과가 기대와 다르더라도, 이 자리는 과거의 실수를 질책하는 것이 목적이 아니다. 이 경험을 통해 무엇을 배웠는지, 앞으로 어떻게 더 나은 성과를 낼 것인지로 전환해야 하다.
특히, 평가결과가 좋지 않은 경우 구성원은 자칫 이직해야 하는지, 이 조직에서 내가 안전한지, 인정을 받을 가능성이 있는지 등에 대해 우려하는 마음이 생길 수 있다.
따라서 바로 다음에 지속적으로 우리가 함께 잘 해내기 위해서 무엇이 필요한지 미래 관점의 대화로 전환해야 한다.
"다음 분기에는 이 역량을 키우기 위해 어떤 지원이 필요할까요?"
이 질문으로 대화는 자연스럽게 과거에서 미래로 전환된다.
⑤ 구체적 행동 계획
"그래서, 다음은 무엇을 할 것인가?"
피드백 대화는 명확한 합의로 끝나야 한다.
"다음 분기에 데이터 분석 스터디에 참여하겠습니다. 하반기에는 작은 모듈의 리딩을 맡아보고 싶습니다." 등과 같이 미래를 위해 함께 대화한 것들을 기록으로 남긴다.
그리고 리더가 적극적으로 지원을 해줄 수 있는 능동적 질문이 중요하다.
"000프로젝트를 성공적으로 해내려면 어떤 도움이 필요할까요?" 등과 같이 구성원이 먼저 요청하기 어려운 경우가 많다. 리더가 먼저 물어봐야 한다.
평가 대화는 구성원만 성장하는 시간이 아니다. 리더도 이 과정에서 자신의 리더십 스타일을 발견하고, 구성원의 반응에서 조직 문화의 신호를 읽으며, 코칭 역량을 키운다. 평가 대화는 리더와 조직이 스스로를 비춰보는 거울로 작용한다.
2015년, 딜로이트가 연간 약 200만 시간을 들여 운영하던 평가 제도를 폐기한 사건은 전세계의 많은 기업에 충격을 주었다. (Buckingham & Goodall, HBR, 2015)
여기서 놀란 것은 연간 약 200만 시간이라는 점이다. 딜로이트 전체 직원(약 65,000명)이 평가 관련 업무에 쏟은 시간을 모두 합치면 이 정도라는 데서 많은 기업이 "역시 평가는 무용하다"고 해석했다.
하지만 딜로이트가 버린 것은 정작 평가 제도 자체가 아니었다.
그들이 버린 것은 '완벽한 절차로 인간의 성과를 정확히 측정하고 예측할 수 있다'는 믿음이었다.
매년 더 정교한 양식을 만들고, 더 많은 단계를 거치고, 더 복잡한 알고리즘을 적용하면 객관성을 확보하고 좀 더 진실에 가까워질 것이라는 환상을 버린 것이다.
역설적이게도 평가를 정교하게 만들수록, 구성원의 행동은 더 예측 가능하고 수동적으로 변하게 되며, 평가를 잘 받기 위해 사람들은 진짜 성과를 내는 대신 '평가 기준에 맞는 행동'을 학습하게 된다. "이렇게 하면 A를 받을 수 있어"
"저렇게 하면 감점이야" 라는 분석으로 평가는 마치 게임이 되어 버린다.
연간 200만 시간의 진짜 비용은 바로 이 조직적 무력감이었다.
2016년 한국에 출간되고, 그 해 매일경제에 기사로도 소개된 팀 베이커의 『평가제도를 버려라』는 제목부터가 평가제도를 버리라고 한다. 아무리 공정하고 객관적인 시스템이라도 인간의 복잡하고 맥락적인 성장 과정을 완전히 포착할 수는 없다고 역설한다.
그렇다면 우리의 선택은 무엇인가?
측정과 통제로는 완벽해질 수 없고, 오히려 조직에 원치 않는 부작용과 평가에 대한 무용론만 커질 수 있다. 그래서 우리는 정교한 측정과 통제도구가 아니라, 운영을 정교하게 하고 그 과정에서 대화와 지원이 오갈 수 있도록 설계해야 한다. 즉, 완벽하지는 않지만 진짜 필요한 서로간의 정보로써, 성장이 일어나는 지속적인 관계를 만드는 것이다.
지금 우리가 설계하는 평가는 구성원을 더 정확히 측정하기 위한 것인가, 아니면 그들의 성장을 더 효과적으로 지원하기 위한 것인가? 이 질문에 대한 답이 우리 평가의 방향을 결정한다.
지금까지 우리는 평가의 실행에 대해 살펴봤다.
신뢰받는 운영의 원칙, Visibility 확보의 핵심 메커니즘인 캘리브레이션, 9 Block Box를 통한 전략적 활용, 그리고 성장을 이끄는 대화까지.
이 모든 내용은 평가의 본질을 다시 한 번 확인하게 한다.
평가는 사람을 고르는 절차가 아니다.
평가는 조직 리소스에 대한 Visibility를 확보하는 가장 강력한 도구이다.
평가는 조직이 조직의 기준으로, 조직의 맥락 안에서, 여러 리더의 관점을 교차하고 상대적으로 비교하며 구성원을 제대로 보는 과정이다.
그리고 이렇게 발견한 Visibility가 있어야 5장에서 다룰 공정한 보상이 가능하고, 6장에서 다룰 합리적 배치와 전략적 인재 운영이 모두 근거 있게 이루어질 수 있다.
이제 실제로 평가 설계를 점검할 때는 다음을 확인해보자.
성과에 대한 상시 기록이 이루어지고 있는가?
분기별, 프로젝트별로 누적된 기록이 연말 평가의 근거로 활용되고 있는가?
명확한 기준이 준비되어 있는가? 등급 정의와 증거 예시가 일관성 있게 마련되어 있는가?
캘리브레이션이 정례화되어 있는가? 팀 간 편차를 줄이는 정기 논의가 이루어지고 있는가?
피드백 절차가 설계되어 있는가? 다음 사이클 설계를 함께 논의하는 대화가 이루어지는가?
평가는 단지 과거를 재단하는 절차가 아니다.
평가는 과거를 회고하고 미래를 설계하는 발견의 과정으로 볼 수 있어야 한다.
조직은 구성원의 진짜 모습을 발견하고, 구성원은 조직의 눈높이에서 자신을 발견한다.
이 상호 발견이 우리가 왜 평가를 해야 하는지를 알려주는 평가의 가장 큰 가치인 것이다.
성과관리·평가의 본질
Drucker, P. F. (1954). The Practice of Management. Harper & Brothers.
Buckingham, M., & Goodall, A. (2019). “The Feedback Fallacy.” Harvard Business Review.
성과의 맥락과 조직 판단
Borman, W. C., & Motowidlo, S. J. (1997). “Task Performance and Contextual Performance.” Human Performance, 10(2), 99–109.
Weick, K. E. (1995). Sensemaking in Organizations. Sage Publications.
심리적 안전감과 학습
Edmondson, A. (1999). “Psychological Safety and Learning Behavior in Work Teams.” Administrative Science Quarterly, 44(2), 350–383.
내재적 동기
Pink, D. H. (2009). Drive: The Surprising Truth About What Motivates Us. Riverhead Books.
평가제도 비판과 전환
Buckingham, M., & Goodall, A. (2015). “Reinventing Performance Management.” Harvard Business Review.
Baker, T. (2013). The End of the Performance Review. Palgrave Macmillan.
캘리브레이션과 편향
Sims, D. (2011). The Talent Review Meeting Facilitator’s Guide. ASTD Press.
Harvard Business Review. (2024). “How Calibration Can Amplify Bias in Performance Reviews.”