brunch

You can make anything
by writing

C.S.Lewis

by Kay Sep 22. 2024

평가의 품질 지표

[요약] Handbook of Workplace Assessment_2장


이 장에서는 조직에서 평가 프로그램을 도입할 때, 그 질이 조직의 성과에 중요한 영향을 미친다는 점을 강조합니다. 특히, 우수한 평가 프로그램은 조직을 뛰어난 성과로 이끌 수 있으나, 이러한 효과는 평가 시스템이 제대로 설계되고 운영될 때만 가능합니다. 이 장에서는 조직 실무자가 평가 프로그램을 도입하거나 현재의 평가 프로그램을 평가할 때 고려해야 할 주요 요소들을 다룹니다. 또한, 최신 측정 방법론을 이해하고 이를 적용할 수 있는 방안에 대해서도 설명합니다. 평가 프로그램 도입 시 첫 번째로 중요한 결정은 구매할지 자체 개발할지(Buy Versus Build)에 대한 선택입니다.



1. Buy Vs. Build (구매 대 구축)


조직에서 평가 도구를 도입할 때 가장 먼저 직면하는 중요한 선택은 상용 평가 도구를 구매할지, 아니면 자체적으로 개발할지를 결정하는 것입니다. 이 결정은 조직의 평가 목적, 타당성 요구 사항, 시간 및 비용, 보안 필요성, 그리고 조직의 자원과 전문성 수준에 따라 달라집니다. 두 가지 선택지 모두 장단점이 있으며, 각각의 요소를 종합적으로 고려해야 합니다.


1.1 상용 평가 도구의 타당성  

    상용 테스트의 타당성: 상용 평가 도구는 일반적으로 다양한 직무에 적용할 수 있도록 설계되어 있습니다. 이는 검증된 타당성을 기반으로 하며, 특히 큰 표본에서 수집된 경험적 데이터로 뒷받침됩니다. 상용 도구가 평가하려는 지식, 기술, 능력(KSAs)이 조직의 요구를 충족하는지 평가하는 것이 중요합니다.  

    경험적 유효성: 상용 테스트는 이미 대규모 표본을 통해 검증된 유효성 데이터를 보유하고 있는 경우가 많습니다. 일반 인지 능력과 같은 구성요소의 예측 타당성은 메타 분석 연구로 확립되어 있습니다. 이는 신뢰성과 타당성이 입증된 상용 도구를 빠르게 도입할 수 있다는 장점이 있습니다.  

    검증된 데이터 활용: 상용 평가 도구는 대규모 샘플에서 수집된 검증된 데이터를 제공합니다. 따라서 조직이 자체적으로 유효성 검증을 수행할 자원이 부족한 경우, 상용 도구는 시간과 자원을 절약할 수 있는 효과적인 선택입니다.  

    아이템 반응 이론(IRT)의 활용: 상용 평가 도구는 아이템 반응 이론(IRT)을 활용해 항목의 난이도, 변별도, 추측 요인을 고려하여 각 피험자의 능력에 맞는 항목을 제공하는 방식으로 설계되었습니다. 이는 평가 결과의 신뢰성을 높이고, 더 정밀한 평가를 가능하게 합니다. 자체 개발에서는 IRT와 같은 통계적 모델링을 적용하는 데 있어 기술적 장벽이 있을 수 있습니다.  


1.2 자체 개발의 이점  

    특정 직무에 맞춘 설계: 자체 개발된 평가 도구는 조직의 특정 직무에 맞추어 설계될 수 있습니다. 이를 통해 특정 직무에 필요한 KSAs를 더 세밀하게 평가할 수 있습니다. 이는 직무 관련성을 높이고, 직무 적합성 평가에 더 적합한 도구를 설계할 수 있는 장점을 제공합니다.  

    안면 타당성(face validity)의 향상: 자체 개발된 도구는 응시자가 자신의 직무와 관련이 있다고 느끼게 하여 평가의 신뢰성을 높일 수 있습니다. 이는 응시자가 평가 결과에 더 큰 신뢰를 가지게 하고, 응시자의 피드백을 기반으로 평가 도구를 지속적으로 개선할 수 있는 기회를 제공합니다.  


1.3 샘플 크기와 타당성 검증 문제  

    샘플 크기의 한계: 자체 개발 평가 도구는 특정 직무군의 인원이 적을 경우 유효성 검증이 어려울 수 있습니다. 상용 테스트는 이미 대규모 표본에 대해 검증된 데이터를 바탕으로 제공되기 때문에, 유효성 검증에 필요한 자원이 부족한 조직에서는 상용 테스트가 더 적합한 선택일 수 있습니다.  

    샘플링 오류 문제: 작은 샘플 크기는 유효성 검증에서 표본 오차를 크게 만들 수 있습니다. 상용 평가 도구는 대규모 샘플을 통해 검증된 데이터를 활용함으로써 이러한 문제를 완화할 수 있습니다. 반면, 자체 개발된 도구는 제한된 샘플 크기에서의 유효성 검증이 어려워질 수 있으며, 이 경우 검증 결과의 신뢰성이 낮아질 수 있습니다.  

    작은 샘플 크기에서의 신뢰성 문제: 샘플 크기가 작을 경우, 평가 도구의 신뢰성을 측정하는 과정에서도 문제를 일으킬 수 있습니다. 샘플이 제한된 환경에서는 결과가 과소평가되거나 과대평가될 가능성이 높아지며, 이는 상용 평가 도구가 이미 검증된 신뢰성을 제공하는 것과 비교했을 때 한계점으로 작용할 수 있습니다.  


1.4 전문성과 자원 요구 사항  

    전문 지식과 자원의 필요성: 자체 평가 도구를 개발하려면 평가 도구 설계, 항목 작성, 통계 분석에 대한 전문 지식이 필요합니다. 또한, 평가할 KSAs를 정의하고, 테스트 설계 블루프린트를 구성한 후, 항목을 작성하고 검증하는 과정이 포함됩니다. 이러한 작업에는 상당한 시간과 자원이 소요되며, 이를 수행할 충분한 인력을 갖추지 못한 조직은 자체 개발이 어려울 수 있습니다.  

    항목 작성 및 설계: 자체 개발 평가 도구는 테스트의 블루프린트를 정의하고, 각 항목이 평가하려는 내용이 명확히 설정된 후 적절한 항목을 개발하는 과정이 필요합니다. 항목 수와 난이도, 그리고 평가에 소요되는 시간과 보안을 고려한 테스트 설계가 필요합니다.  


1.5 시간과 비용 고려 사항  

    상용 테스트의 신속성: 상용 평가 도구는 검증된 평가 도구를 빠르게 도입할 수 있다는 장점이 있습니다. 자체 개발 도구는 항목 작성, 사전 테스트, 유효성 검증 등의 과정을 거쳐야 하므로 시간이 오래 걸릴 수 있습니다. 반면 상용 도구는 즉시 사용할 수 있어 빠른 평가 도입이 필요한 경우에 유리합니다.  

    비용 절감 여부: 자체 개발 도구는 초기 개발 비용이 높을 수 있지만, 장기적으로 사용 시 비용 절감이 가능합니다. 상용 도구는 매회 사용 시 비용이 발생할 수 있어, 특히 대규모 평가 프로그램에서는 비용이 크게 증가할 수 있습니다. 따라서 조직의 예산과 장기적인 평가 프로그램 운영 계획을 고려해 비용 절감을 위한 최적의 선택을 해야 합니다.  


1.6 보안 문제  

    상용 평가 도구의 보안 체계: 상용 평가 도구는 이미 검증된 보안 체계를 갖추고 있어 부정행위를 방지하는 시스템이 포함되어 있습니다. 예를 들어, 여러 버전의 평가 항목을 제공하거나, 컴퓨터 적응형 테스트(CAT)를 통해 각 응시자에게 무작위로 다른 항목을 제공하는 방식으로 부정행위를 방지할 수 있습니다.  

    자체 개발 평가 도구의 보안 유지 어려움: 자체 개발된 도구는 항목의 유출을 방지하고 보안을 유지하는 데 더 많은 노력이 필요할 수 있습니다. 특히 CAT와 같은 적응형 테스트 시스템을 사용하는 것이 부정행위를 방지하고 평가의 공정성을 유지하는 데 도움을 줄 수 있습니다.  



2. Test Construction Considerations (테스트 설계 고려사항)

평가 도구를 설계하는 과정은 최종 평가 결과의 질을 결정하는 중요한 단계입니다. 테스트가 체계적으로 설계되지 않으면 평가 도구는 측정하고자 하는 KSAs(지식, 기술, 능력)를 정확하게 측정하지 못할 수 있습니다. 이 장에서는 평가 도구를 설계할 때 고려해야 할 주요 사항들을 다룹니다.


2.1 평가할 내용 결정  

    평가할 내용 정의: 테스트 설계의 첫 단계는 평가할 내용, 즉 평가 도구가 무엇을 측정할지를 결정하는 것입니다. 이를 위해 조직은 직무 분석(Job Analysis)을 통해 직무에서 요구하는 지식, 기술, 능력(KSAs)을 정의해야 합니다. 직무 분석은 전문가 인터뷰, 설문 조사, 중요한 사건 분석 등의 방법을 사용하여 이루어지며, 이를 통해 테스트가 평가할 내용을 구체화할 수 있습니다.  

    심리적 특성 평가: 지능, 성격, 태도와 같은 심리적 특성을 평가하는 경우, 평가하려는 특성을 명확하게 정의한 후, 관련된 연구와 문헌을 철저히 검토하여 평가 항목을 구성해야 합니다. 모든 특성을 평가할 수 없기 때문에, 조직에 가장 중요한 특성에 초점을 맞춰 평가해야 할 필요가 있습니다.  


2.2 테스트 형식 결정  

    테스트 형식 선택: 평가 도구는 여러 가지 형식으로 구성될 수 있습니다. 전통적인 종이와 연필(Paper-and-Pencil) 방식 외에도 컴퓨터 기반 테스트(Computer-Based Testing, CBT)와 컴퓨터 적응형 테스트(Computerized Adaptive Testing, CAT)가 있습니다. 특히 CAT는 피험자의 능력에 맞춰 항목을 자동으로 조정하여 더 짧고 정확한 테스트를 제공할 수 있는 장점이 있습니다.  

    테스트 환경: 테스트가 감독 하에서 진행되는지, 비감독 하에서 진행되는지에 따라 평가 결과에 큰 차이가 발생할 수 있습니다. 비감독 인터넷 테스트(Unproctored Internet Testing, UIT)는 피험자가 자신이 편리한 시간에 시험을 치를 수 있다는 장점이 있지만, 보안 문제와 부정행위 위험을 수반할 수 있습니다. 따라서 비감독 환경에서 평가를 실시할 경우 후속적으로 감독 하에 검증하는 테스트가 추가될 수 있습니다.  


2.3 테스트 사양 설정  

    테스트 사양(BluePrint) 설정: 평가 도구의 설계는 사전에 명확한 테스트 설계 블루프린트를 정의하는 것으로부터 시작됩니다. 블루프린트는 각 항목이 평가할 KSAs와 얼마나 연관이 있는지를 설명하며, 각 영역별 항목 수와 난이도 수준을 명시해야 합니다. 예를 들어, 인지 능력 평가에서는 언어 능력, 수리 능력, 공간 능력 등 각 항목의 비중을 명확히 설정할 필요가 있습니다.  

    항목 난이도와 변별도 설정: 테스트 항목의 난이도와 변별도는 평가 결과의 신뢰성과 타당성에 영향을 미칩니다. 특히 컴퓨터 적응형 테스트(CAT)와 같은 방식에서는 항목의 난이도를 적절하게 설정하여 피험자의 능력 수준에 맞는 항목을 제공하는 것이 매우 중요합니다. 항목의 난이도와 변별도를 정확히 설정하면 테스트의 효율성과 정확도가 향상됩니다.  


2.4 항목 형식 선택  

    항목 형식의 다양성: 평가 항목의 형식은 평가할 내용에 따라 다르게 구성될 수 있습니다. 예를 들어, 강제 선택형 항목(Forced-Choice Response)은 사회적 바람직성(Social Desirability)으로 인한 응답 왜곡을 줄이는 데 유리합니다. 이 방식에서는 응시자가 답변을 선택하는 데 있어 단순히 정답과 오답의 구분을 넘어 응답의 정도를 강제하는 방식으로 설계됩니다.  

    시뮬레이션 및 비디오 기반 평가: 비디오 또는 시뮬레이션 기반 항목은 실제 직무 상황을 반영하여 피험자의 능력을 평가할 수 있는 방법입니다. 이는 특히 감정 지능(Emotional Intelligence)이나 상황 판단(Situational Judgment)과 같은 특성을 평가하는 데 유용하며, 직무와의 관련성을 높일 수 있습니다.  


2.5 항목 풀 구성  

    항목 풀의 중요성: 평가 도구는 다양한 항목들로 구성된 항목 풀(Item Pool)을 통해 평가의 신뢰성과 타당성을 보장할 수 있습니다. 항목 풀은 각 평가 항목이 평가하려는 내용과 적합하게 연결되도록 구성해야 하며, 각 항목은 명확한 타당성을 가지고 있어야 합니다. 항목 풀이 충분히 크면 항목을 무작위로 제공하여 부정행위를 방지할 수 있습니다.  

    항목 작성의 어려움: 평가 도구의 구성 타당성을 보장하기 위해 항목 작성이 중요한 작업입니다. 각 항목은 평가하려는 특성만을 정확하게 측정해야 하며, 다른 특성과 상관관계가 낮아야 합니다. 이를 위해 항목은 여러 차례 검토되고 수정되며, 필요할 경우 외부 전문가의 검토를 통해 항목의 질을 높일 수 있습니다.  


2.6 항목 사전 테스트  

    항목 사전 테스트의 중요성: 새롭게 개발된 항목은 실제 사용 전에 반드시 사전 테스트(Pretesting)를 통해 항목의 특성을 평가해야 합니다. 이상적인 사전 테스트는 대표적인 대규모 샘플을 대상으로 수행되며, 각 항목의 난이도, 항목-총점 상관관계, 항목의 변별도를 분석하여 문제 있는 항목을 선별해 내는 과정입니다.  

    고전적 검사 이론(CTT)과 아이템 반응 이론(IRT): 사전 테스트 결과는 고전적 검사 이론(Classical Test Theory, CTT)과 아이템 반응 이론(Item Response Theory, IRT)을 통해 항목의 측정 특성을 평가할 수 있습니다. CTT는 각 항목의 난이도와 상관관계를 기반으로 항목을 평가하고, IRT는 항목과 피험자의 능력 간의 관계를 더 정밀하게 분석합니다. 특히 IRT는 각 항목의 정보 곡선(Item Information Curve)을 활용해 특정 능력 수준에서 항목이 얼마나 유용한지를 평가할 수 있습니다.  


평가 도구 설계 과정은 각 단계에서 세심한 고려가 필요합니다. 평가할 내용을 정의하고, 적절한 형식을 선택하며, 항목 풀을 구축하고, 사전 테스트를 통해 항목의 질을 평가하는 일련의 과정이 모두 평가 도구의 신뢰성과 타당성을 결정합니다. 특히, 고전적 검사 이론(CTT)과 아이템 반응 이론(IRT)은 항목의 특성을 분석하고 평가 도구의 성능을 개선하는 데 중요한 도구로 활용될 수 있습니다.



3. Reliability (신뢰성)


신뢰성은 평가 도구가 일관성 있는 결과를 도출하는 능력을 의미합니다. 즉, 동일한 평가 도구를 반복해서 사용했을 때 동일한 결과를 얻을 수 있는지를 측정하는 지표입니다. 신뢰성은 평가 도구가 유효성을 갖기 위한 필수적인 조건입니다. 평가 도구의 신뢰성은 평가가 사용되는 맥락, 평가 대상 집단, 그리고 평가 항목 구성에 따라 다르게 나타날 수 있습니다.


3.1 신뢰성의 기본 개념  

    신뢰성의 정의: 신뢰성은 평가 도구가 동일한 조건에서 동일한 결과를 도출하는지, 그리고 측정 오차를 최소화할 수 있는지를 평가하는 지표입니다. 신뢰성이 높다는 것은 평가 도구가 일관성 있는 결과를 제공하며, 이 결과가 신뢰할 수 있음을 의미합니다.  

    신뢰성과 타당성의 관계: 신뢰성은 타당성의 전제 조건입니다. 즉, 평가 도구가 신뢰성이 없다면, 타당성도 존재할 수 없습니다. 하지만 신뢰성이 높다고 해서 반드시 타당성이 높은 것은 아닙니다. 예를 들어, 평가 도구가 일관되게 잘못된 결과를 도출하는 경우 신뢰성은 높을 수 있지만, 타당성은 낮을 수 있습니다.  


3.2 전통적인 신뢰성 형태

전통적인 신뢰성 평가 방식은 오랫동안 사용되어 왔으며, 여전히 많은 평가 도구에서 사용되고 있습니다. 각기 다른 방법들이 평가 도구의 신뢰성을 측정하기 위해 사용됩니다. 다음은 주요 전통적인 신뢰성 형태입니다.  


    검사-재검사 신뢰성(Test-Retest Reliability): 동일한 평가 도구를 동일한 대상에게 두 번 이상 시행한 후 두 결과 간의 상관관계를 측정하는 방식입니다. 시간이 지나도 변하지 않는 특성(예: 지능, 성격)을 평가할 때 유용하며, 검사-재검사 신뢰성이 높으면 평가 도구가 시간이 지나도 안정적인 결과를 제공함을 의미합니다.  

    내적 합치도 신뢰성(Internal Consistency Reliability): 평가 도구의 항목들이 동일한 개념을 얼마나 일관되게 측정하는지를 나타냅니다. 내적 합치도 신뢰성은 평가 도구의 여러 항목이 동일한 목표를 평가하는지에 대한 지표로 사용됩니다. 주요 측정 방법으로는 다음이 있습니다.  

      스플릿-하프 신뢰성(Split-Half Reliability): 평가 항목을 두 그룹으로 나누고 두 그룹 간의 상관관계를 측정하여 신뢰성을 평가하는 방식입니다. 각 그룹이 동일한 개념을 평가하고 있을 때 스플릿-하프 신뢰성은 높게 나타납니다.    

      크론바흐 알파(Cronbach's Alpha): 모든 항목 간 상관관계의 평균을 계산하여 신뢰성을 측정하는 방식입니다. 크론바흐 알파는 평가 도구가 얼마나 일관되게 특정 개념을 측정하는지를 나타냅니다. 일반적으로 알파 값이 0.70 이상이면 신뢰성이 높다고 평가됩니다.    

      KR-20, KR-21: 이진 항목(정답/오답)으로 구성된 평가 도구에서 신뢰성을 평가하는 방식입니다. 특히, 선택형 평가 항목에서 많이 사용되며, 평가 항목 간의 일관성을 측정하는 데 유용합니다.    

    항목 중복 문제: 항목 간 상관관계를 인위적으로 높이기 위해 지나치게 유사한 항목을 추가하는 경우 내적 합치도는 높게 나타날 수 있지만, 실질적인 정보를 제공하지 못하는 문제가 발생할 수 있습니다. 평가 도구의 항목들이 평가하려는 개념을 넓게 아우를 수 있도록 구성해야 합니다.  

    항목 수와 신뢰성: 전통적인 신뢰성 이론에 따르면, 평가 항목의 수가 증가하면 신뢰성도 함께 증가할 가능성이 큽니다. 예를 들어, 고위험 의사결정(예: 자격증 시험)에서는 수백 개의 항목을 사용하여 신뢰성을 높입니다. 그러나 항목 수가 많다고 해서 반드시 평가의 질이 높아지는 것은 아니며, 적절한 항목 수와 신뢰성 간의 균형이 중요합니다.  

    샘플 특성의 영향: 신뢰성은 평가 대상 집단의 특성에 따라 달라질 수 있습니다. 예를 들어, 점수 범위가 제한된 집단에서 평가를 실시할 경우, 항목 간 상관관계가 낮아져 신뢰성이 떨어질 수 있습니다. 반면, 점수 범위가 지나치게 넓은 경우에는 신뢰성이 과대평가될 수 있습니다. 따라서 평가 도구의 신뢰성을 평가할 때, 해당 샘플이 실제 평가 환경과 유사한지 확인하는 것이 중요합니다.  


3.3 현대적인 신뢰성 형태

현대적인 신뢰성 평가 방식은 아이템 반응 이론(Item Response Theory, IRT)을 바탕으로 하며, 전통적인 신뢰성 지표보다 더 정교한 분석을 가능하게 합니다. IRT는 평가 도구의 항목 수준에서 신뢰성을 평가할 수 있어 보다 세밀한 평가가 가능합니다.  


    아이템 반응 이론(IRT): IRT는 항목의 난이도, 변별도, 추측 요인 등을 고려하여 피험자가 특정 항목을 맞힐 확률을 예측하는 이론입니다. 이는 전통적인 신뢰성 평가 방법과 달리 피험자의 능력 수준에 따른 항목의 정보를 제공할 수 있어, 특정 능력 수준에서 평가 도구의 신뢰성을 정확히 평가할 수 있습니다.  

    항목 정보 곡선(Item Information Curve): IRT의 주요 개념 중 하나인 항목 정보 곡선은 각 항목이 특정 능력 수준에서 제공하는 정보를 나타냅니다. 항목의 난이도가 높을수록 고 능력 피험자에게 더 많은 정보를 제공하며, 항목의 변별력이 높을수록 해당 항목이 더 많은 정보를 제공합니다.  

    테스트 정보 곡선(Test Information Curve, TIC): 모든 항목의 정보 곡선을 합산한 것이 테스트 정보 곡선(TIC)으로, 이는 전체 평가 도구의 신뢰성을 나타냅니다. TIC는 평가 도구가 특정 능력 범위에서 얼마나 정확하게 작동하는지 보여주며, 이를 통해 평가 도구의 신뢰성을 평가할 수 있습니다.  

    컴퓨터 적응형 테스트(CAT)에서의 신뢰성: CAT는 피험자의 능력에 따라 항목을 적응적으로 제공하는 평가 방식으로, 짧은 시간 안에 높은 신뢰성을 유지할 수 있습니다. IRT 기반 CAT는 각 피험자에게 맞는 난이도의 항목을 선택해 제공하므로 평가의 정확도를 높이고, 평가 도구의 신뢰성을 강화할 수 있습니다.  


3.4 신뢰성 평가에서 고려할 사항  

    평가 도구의 사용 맥락: 신뢰성은 평가 도구가 실제로 사용되는 환경에서 측정되어야 합니다. 연구 환경에서 높은 신뢰성을 보였던 평가 도구라도 실제 운영 환경에서 동일한 신뢰성을 보장할 수 없습니다. 따라서, 평가 도구가 사용될 환경을 고려한 신뢰성 평가가 필요합니다.  

    타당성 확보를 위한 신뢰성: 신뢰성이 높은 평가 도구는 일관성 있는 결과를 도출할 수 있지만, 신뢰성이 높다고 해서 타당성이 자동으로 보장되지는 않습니다. 신뢰성뿐만 아니라, 평가 도구가 실제로 측정하고자 하는 특성을 얼마나 잘 측정하는지도 평가해야 타당성을 확보할 수 있습니다.  


신뢰성은 평가 도구의 일관성을 평가하는 중요한 지표로, 다양한 방법을 통해 측정될 수 있습니다. 전통적인 검사-재검사 신뢰성, 내적 합치도 신뢰성뿐만 아니라 현대적인 IRT 기반의 신뢰성 평가 방식은 더 정교한 분석을 가능하게 하며, 특히 CAT와 같은 적응형 평가 환경에서 필수적인 도구로 사용됩니다.



4. Validity (타당성)


타당성(Validity)은 평가 도구가 실제로 측정하고자 하는 것을 얼마나 정확하게 측정하는지를 나타내는 개념입니다. 신뢰성이 평가 도구의 일관성을 측정하는 것이라면, 타당성은 평가 도구가 의도한 대로 결과를 도출하는지에 대한 증거를 제공합니다. 타당성은 평가 도구의 품질을 결정하는 가장 중요한 요소 중 하나이며, 타당성을 확보하려면 다양한 증거가 필요합니다.


4.1 타당성의 기본 개념  

    타당성의 정의: 타당성은 평가 결과로부터 도출된 해석이 얼마나 정확하고, 그 해석을 바탕으로 내린 결론이 얼마나 신뢰할 수 있는지를 나타냅니다. 예를 들어, 직무 적합성 평가에서 평가 도구가 지원자의 직무 성과를 예측할 수 있는지를 판단하는 것이 타당성을 결정하는 핵심 요소입니다.  

    타당성 증거: 타당성은 평가 결과를 어떻게 해석할 수 있는지에 대한 다양한 증거를 통해 입증될 수 있습니다. 이러한 증거에는 평가 내용, 평가 도구의 구조적 분석, 수렴 타당성(Convergent Validity)과 변별 타당성(Discriminant Validity), 평가 도구와 기준 간의 관계, 타당성 일반화 연구 등이 포함됩니다.  


4.2 타당성의 유형

타당성은 평가 도구의 다양한 측면에서 입증될 수 있으며, 이를 평가하기 위한 몇 가지 주요 유형이 있습니다.  


    내용 타당성(Content Validity): 내용 타당성은 평가 도구가 측정하려는 내용을 충분히 반영하고 있는지를 평가하는 것입니다. 이는 직무 분석을 통해 특정 직무에서 필요한 지식, 기술, 능력을 파악한 후, 평가 도구가 이러한 내용을 충분히 포함하고 있는지 확인하는 과정입니다. 내용 타당성은 주로 전문가의 판단을 바탕으로 이루어지며, 평가 도구가 목표로 하는 지식이나 기술을 정확하게 평가하고 있는지에 대한 증거를 제공합니다.  

    구조 타당성(Construct Validity): 구조 타당성은 평가 도구가 이론적으로 측정하려는 특성을 얼마나 정확하게 반영하는지를 평가합니다. 이를 위해 요인 분석(Factor Analysis)과 같은 통계적 기법을 사용하여 평가 도구의 각 항목이 평가하고자 하는 특성을 정확히 반영하고 있는지 확인할 수 있습니다. 예를 들어, 지능을 측정하려는 평가 도구가 실제로 지능과 관련된 다양한 구성 요소를 평가하고 있는지 검토하는 방식입니다.  

    수렴 타당성(Convergent Validity)과 변별 타당성(Discriminant Validity): 수렴 타당성은 동일한 특성을 측정하는 다른 평가 도구와의 상관관계를 평가하는 반면, 변별 타당성은 이론적으로 다른 특성을 측정하는 도구와의 상관관계가 낮아야 한다는 개념입니다. 예를 들어, 감정 지능을 측정하는 도구는 다른 감정 지능 측정 도구와 높은 상관관계를 가져야 하며, 성격을 측정하는 도구와는 낮은 상관관계를 보여야 변별 타당성이 입증됩니다.  

    기준 관련 타당성(Criterion-Related Validity): 기준 관련 타당성은 평가 도구의 점수가 실제 성과나 결과와 얼마나 밀접한 관련이 있는지를 평가하는 타당성입니다. 이는 평가 결과가 직무 성과나 중요한 결과와의 관계를 통해 평가됩니다. 기준 관련 타당성은 예측 타당성(Predictive Validity)과 동시 타당성(Concurrent Validity)으로 나뉩니다.  

      예측 타당성: 예측 타당성은 평가 도구가 미래의 성과나 결과를 예측할 수 있는 능력을 나타냅니다. 예를 들어, 채용 시험에서 높은 점수를 받은 지원자가 실제로 업무 성과에서도 뛰어난지 여부를 평가하는 방식입니다.    

      동시 타당성: 동시 타당성은 평가 도구의 점수와 현재의 성과가 얼마나 관련이 있는지를 평가합니다. 예를 들어, 현재 직무에 있는 직원들의 성과와 평가 점수 간의 상관관계를 분석하는 방식입니다.    


4.3 타당성 일반화(Validity Generalization)  

    타당성 일반화의 개념: 과거에는 평가 도구의 타당성이 특정 직무나 특정 조직에 한정된다고 여겨졌습니다. 그러나 타당성 일반화 연구는 하나의 평가 도구가 다양한 직무와 환경에서도 일관된 타당성을 가질 수 있음을 입증합니다. 메타 분석(Meta-Analysis)을 통해 여러 연구 결과를 종합하여, 평가 도구가 다양한 맥락에서도 동일한 결과를 예측할 수 있는지를 평가할 수 있습니다.  

    타당성 일반화 연구의 중요성: 타당성 일반화 연구는 특정 평가 도구가 다양한 직무와 환경에서도 동일한 성과를 예측할 수 있는지를 확인하는 데 중요합니다. 메타 분석을 통해 여러 연구 결과를 종합적으로 분석함으로써, 평가 도구가 특정 직무에 국한되지 않고 다양한 상황에서 유효한지 여부를 검증할 수 있습니다. 이는 평가 도구가 직무나 상황에 따라 유연하게 적용될 수 있음을 보여주는 중요한 연구입니다.  


4.4 타당성 평가에서 발생할 수 있는 문제점  

    신뢰성과의 관계: 타당성을 평가할 때 중요한 문제는 신뢰성과의 관계입니다. 신뢰성이 낮은 평가 도구는 타당성을 입증하기 어렵습니다. 예를 들어, 평가 도구가 일관된 결과를 제공하지 못하면 평가 결과에 기반한 결론도 신뢰할 수 없습니다. 따라서 타당성을 확보하기 위해서는 평가 도구의 신뢰성이 먼저 보장되어야 합니다.  

    범위 제한 문제(Range Restriction): 타당성 연구에서 자주 발생하는 문제 중 하나는 샘플의 범위 제한입니다. 예를 들어, 채용 평가에서 높은 점수를 받은 지원자들만 분석하는 경우, 전체 지원자 중 성과가 낮은 사람들의 데이터가 포함되지 않으므로 타당성 결과가 왜곡될 수 있습니다. 이를 해결하기 위해서는 평가 점수의 전체 범위를 분석하거나 범위 제한 보정 공식을 사용해 결과를 분석해야 합니다.  

    작은 샘플 크기의 영향: 타당성 연구에서 작은 샘플 크기는 결과에 큰 영향을 미칠 수 있습니다. 작은 샘플에서는 평가 도구와 성과 간의 관계가 과소 평가되거나 과대 평가될 가능성이 높습니다. 이를 해결하기 위해서는 충분한 샘플 크기를 확보해야 하며, 가능한 경우 메타 분석을 통해 여러 연구 결과를 종합하여 분석하는 것이 중요합니다.  


4.5 타당성 평가에서 고려할 사항  

    직무 관련성: 평가 도구가 직무와 얼마나 밀접하게 관련되어 있는지 확인해야 합니다. 평가 도구가 평가하려는 지식, 기술, 능력(KSAs)이 해당 직무에서 실제로 중요한 요소인지, 그리고 평가 도구가 이를 정확하게 반영하고 있는지 검토하는 과정이 필요합니다.  

    평가 도구의 설계와 운영 환경: 평가 도구는 연구 환경에서뿐만 아니라 실제 운영 환경에서도 타당성을 유지해야 합니다. 연구 목적으로 개발된 도구가 실제 사용 환경에서도 동일한 수준의 타당성을 유지하는지 확인하는 것이 중요합니다.  

    사회적 바람직성(Social Desirability) 문제: 성격 평가나 감정 지능 평가에서 피험자가 자신의 이미지를 긍정적으로 보이기 위해 응답을 왜곡할 가능성이 존재합니다. 이러한 문제를 해결하기 위해서는 강제 선택형 항목(Forced-Choice Response)이나 비디오 기반 시뮬레이션 항목을 사용하여 평가의 타당성을 보장할 수 있습니다.  


타당성은 평가 도구가 측정하려는 특성을 얼마나 정확하게 반영하고 있는지를 평가하는 중요한 개념입니다. 평가 도구는 단일한 지표에 의존하는 것이 아니라 다양한 타당성 증거를 통해 검증되어야 하며, 신뢰성, 내용 타당성, 구조 타당성, 기준 관련 타당성 등 다양한 측면에서 타당성을 평가하는 것이 필요합니다.



5. Operational Models for Assessment (평가를 위한 운영 모델)


평가 도구의 운영은 조직의 목표와 평가 환경에 맞게 설계되어야 합니다. 평가를 효과적으로 운영하기 위해서는 적절한 평가 모델을 선택하고, 이를 관리 및 운영하는 데 필요한 다양한 고려 사항이 있습니다. 특히, 컴퓨터 기반 평가(Computer-Based Testing, CBT)와 인터넷 기반 평가(Internet-Based Testing, IBT)는 전통적인 평가 방식과는 다른 운영 모델을 요구합니다. 이러한 시스템이 제대로 설계되고 운영되지 않으면 평가의 신뢰성과 타당성에 문제가 발생할 수 있습니다.


5.1 Computer-Administered Tests (컴퓨터로 실시되는 테스트)

컴퓨터로 시행되는 테스트는 전통적인 종이와 연필(Paper-and-Pencil) 방식에 비해 여러 가지 이점이 있습니다. 컴퓨터 기반 테스트(Computer-Based Testing, CBT)는 평가 프로세스를 자동화하여 효율성을 높이고, 피험자의 응답을 빠르게 채점할 수 있는 기능을 제공합니다.

  

    효율성: CBT는 평가 결과를 즉시 제공할 수 있어 평가 시간을 단축하고, 결과를 빠르게 응시자에게 제공할 수 있습니다. 평가 항목이 자동으로 채점되므로 오류의 가능성이 줄어들고, 관리 비용도 절감됩니다.  

    자동화된 적응형 테스트: 컴퓨터 적응형 테스트(Computerized Adaptive Testing, CAT)는 피험자의 능력 수준에 맞춰 다음 평가 항목이 자동으로 선택됩니다. 이로 인해 평가 길이를 단축하면서도 평가의 정확도를 유지할 수 있습니다. CAT는 피험자가 이미 잘 알고 있는 내용에 대한 반복적인 질문을 줄여 피로도를 낮추고, 능력에 맞는 난이도의 항목을 제공함으로써 평가 효율성을 높입니다.  

    데이터 수집 및 분석의 용이성: CBT는 피험자의 응답 데이터를 실시간으로 수집하고, 이를 분석하는 데 필요한 데이터를 쉽게 축적할 수 있습니다. 이러한 데이터는 피험자의 응답 패턴을 분석하거나 평가 도구의 품질을 평가하는 데 사용될 수 있습니다.  

    보안 문제: CBT에서는 평가 항목의 무작위화, 항목 풀 관리, 시험 환경 제어 등 다양한 보안 전략을 사용해 부정행위를 방지할 수 있습니다. 항목을 무작위로 제공하는 방식은 피험자 간 정보 공유를 어렵게 만들고, 시험 중 부정행위를 감지할 수 있는 시스템을 구축할 수 있습니다.  


5.2 Internet Testing: Unproctored and Proctored Testing (비감독 및 감독하에 시행되는 테스트)

인터넷을 통한 평가 도입은 많은 조직에서 채택되고 있으며, 장소와 시간에 구애받지 않고 평가를 실시할 수 있는 유연성을 제공합니다. 그러나 인터넷 기반 평가에서는 감독 여부에 따라 비감독(Unproctored Internet Testing, UIT)과 감독하에 시행되는 평가(Internet-Based Proctored Testing, IBPT)로 나눌 수 있으며, 각각의 방식에 따른 장단점이 존재합니다.  


    비감독 인터넷 테스트(UIT): 비감독 하에서 인터넷을 통해 시행되는 UIT는 피험자가 자신이 편리한 시간과 장소에서 평가를 볼 수 있다는 장점이 있습니다. 이는 대규모 인원을 대상으로 빠르게 평가를 시행할 때 매우 유용합니다. 그러나 비감독 환경에서는 피험자가 부정행위를 할 가능성이 있으며, 이는 평가 결과의 신뢰성과 타당성을 저해할 수 있습니다.  

      부정행위의 위험: 비감독 환경에서는 외부 도움, 인터넷 검색, 참고 자료 활용 등을 통해 부정행위를 저지를 가능성이 있습니다. 따라서 UIT 결과는 중요한 의사결정에 바로 사용되기보다는, 후속적으로 감독하에 재검증되는 과정이 필요할 수 있습니다.    

      장점과 단점: UIT는 비용 효율성과 편리성을 제공하지만, 부정행위에 대한 통제 부족으로 인해 신뢰성 있는 평가 도구로 사용되기에는 한계가 있습니다. 그러나 UIT는 사전 평가(pre-screening) 방식으로 유용하게 사용될 수 있으며, 적격 응시자들에 한해 감독하에 추가 평가를 실시하는 방식으로 운영 모델을 개선할 수 있습니다.    

    감독하의 인터넷 테스트(IBPT): 감독하에 시행되는 인터넷 평가 방식은 감독자가 피험자의 행동을 실시간으로 모니터링하는 시스템을 포함합니다. 이러한 방식은 비감독 환경에서 발생할 수 있는 부정행위를 방지하고, 평가 결과의 신뢰성과 타당성을 보장합니다.  

      부정행위 방지: 감독하에서 이루어지는 평가는 외부 도움을 받거나 부정행위를 시도할 가능성을 줄여줍니다. 이를 통해 중요한 의사결정에 활용할 수 있는 신뢰성 있는 평가 결과를 도출할 수 있습니다.    

      운영의 유연성: IBPT는 인터넷을 통한 접근성과 감독 환경의 신뢰성을 결합한 방식으로, 시간과 비용 절감을 동시에 이루면서 평가의 신뢰성을 유지할 수 있는 유연한 모델입니다. 원격으로 감독이 가능하기 때문에, 응시자는 물리적인 장소에 구애받지 않고 시험을 볼 수 있으며, 이는 특히 글로벌 환경에서 유용합니다.    


5.3 Test Security and Types of Cheating (테스트 보안과 부정행위의 유형)

테스트 보안은 평가의 신뢰성과 타당성을 유지하는 중요한 요소입니다. 특히 컴퓨터 기반 테스트(CBT)와 인터넷 기반 테스트(IBT)에서는 부정행위를 방지하고 평가 결과를 보호하기 위한 체계적인 보안 전략이 필요합니다. 부정행위의 유형을 파악하고, 이를 방지하기 위한 대응책을 마련해야 합니다.  


    부정행위의 유형:  
- 응시자 간 정보 공유: 시험 시작 전이나 시험 중에 피험자들이 시험 항목에 대한 정보를 교환할 수 있습니다.
- 외부 도움: 비감독 환경에서는 피험자가 외부의 도움을 받을 수 있습니다. 인터넷 검색, 참고 자료 활용, 또는 다른 사람의 도움을 받는 방식이 있습니다.
- 테스트 항목 유출: 피험자들이 시험 항목을 외부로 유출하거나, 종료 후 다른 응시자들과 공유하는 경우가 있습니다.



    보안 유지 전략:  
- 항목 무작위화 및 항목 풀 관리: 항목을 무작위로 제공하여 피험자 간 정보 공유를 방지할 수 있습니다. 항목 풀을 구축해 응시자들이 같은 항목을 보지 않도록 관리할 수 있습니다.
- 실시간 모니터링: 감독하의 인터넷 평가에서는 응시자의 행동을 실시간으로 감시하여 부정행위를 방지할 수 있습니다. 웹캠이나 화면 기록, 브라우저 제어 소프트웨어 등을 통해 피험자의 행위를 감시하는 방식이 사용됩니다.
- 기술적 보호 장치: 브라우저 잠금 기능과 화면 캡처 및 기록 기능을 통해 피험자가 평가 도중 부정행위를 저지를 가능성을 줄일 수 있습니다. 피험자가 시험 중 다른 웹사이트로 이동하는 것을 방지하고, 화면 활동을 감시할 수 있습니다.


5.4 Test Score Reporting (테스트 점수 보고)

테스트 점수를 보고하는 방식은 평가 결과의 신뢰성을 높이는 중요한 역할을 합니다. 점수 보고는 응시자에게 피드백을 제공하고, 채용 담당자나 관리자가 성과를 평가하는 데 활용할 수 있는 중요한 자료가 됩니다.  


    점수 보고의 목적:  
- 응시자 피드백: 응시자에게 자신의 평가 결과를 제공함으로써, 자신의 강점과 약점을 파악할 수 있고, 이를 바탕으로 학습 및 능력 향상을 도모할 수 있습니다.
- 채용 및 인사 관리: 점수 보고는 채용 및 인사 관리에서 중요한 근거 자료로 사용됩니다. 채용 담당자는 평가 점수를 바탕으로 적합한 지원자를 선발할 수 있습니다.
- 성과 평가: 평가 결과는 조직 내 성과 평가의 근거로 활용되며, 평가 대상자의 능력을 측정하고 조직 내에서의 성과와 연결될 수 있습니다.

    보고 방식:  
- 절대 점수 보고: 절대 기준에 맞춘 점수를 보고하는 방식으로, 평가 결과가 특정 기준을 충족했는지 여부를 판단합니다.
- 상대 점수 보고: 응시자의 성과를 전체 응시자 집단과 비교하여 상대적인 위치를 제공하는 방식입니다. 예를 들어, 상위 10%에 해당하는 응시자를 선발하는 방식입니다.
- 능력 점수 보고: CAT와 같은 적응형 테스트에서는 피험자의 능력 수준을 평가하여 해당 능력 범위를 기반으로 점수를 보고할 수 있습니다.


5.5 Quality Control (품질 관리)

평가 도구의 품질 관리는 평가 도구가 지속적으로 신뢰성 있고 일관된 결과를 제공할 수 있도록 보장하는 과정입니다. 특히 대규모 평가에서는 평가 도구가 시간이 지나면서도 동일한 수준의 신뢰성과 타당성을 유지하도록 관리가 필요합니다.  


    항목 품질 관리: 항목은 시간이 지나도 신뢰성과 타당성을 유지해야 하므로 주기적인 항목 분석이 필요합니다. 문제 있는 항목은 수정하거나 교체하는 것이 중요합니다.  

    평가 도구의 업데이트: 새로운 기술이나 지식이 도입됨에 따라 기존 항목을 주기적으로 검토하고 갱신하여 평가 도구의 최신성을 유지해야 합니다.  

    응시자 데이터 분석: 응시자의 데이터를 주기적으로 분석하여, 평가 도구가 의도한 대로 작동하는지 평가해야 합니다. 예를 들어, 특정 항목에서 지속적으로 문제가 발생하면 해당 항목이 적절한지 검토해야 합니다.  

    운영 과정 관리: 인터넷 기반 평가에서는 서버 안정성, 응시자의 접속 문제 등을 사전에 관리하여 원활한 평가가 이루어지도록 해야 합니다.  


평가 도구의 운영 모델은 다양한 기술적 요소와 평가 환경을 고려하여 설계되어야 합니다. 컴퓨터 기반 평가와 인터넷 기반 평가는 전통적인 평가 방식과는 다른 운영 전략을 요구하며, 평가 도구의 신뢰성과 타당성을 보장하기 위한 보안 및 품질 관리가 필수적입니다.



6. Conclusion (결론)


이 장에서는 평가 프로그램의 성공적인 운영을 위한 핵심 요소들을 설명했습니다. 특히, 평가 도구의 설계와 운영에서 중요한 것은 타당성과 신뢰성을 유지하는 것입니다. 타당성은 평가 도구가 실제로 측정하려는 특성을 제대로 평가하는지 확인하는 것이며, 신뢰성은 평가 도구가 일관된 결과를 제공하는지 나타냅니다.

또한, 평가 프로그램을 도입할 때 고려해야 할 여러 요소들을 설명했습니다. 이에는 상용 평가 도구를 구매할지, 아니면 자체적으로 개발할지에 대한 의사결정이 포함되며, 각각의 선택에 따라 발생하는 시간, 비용, 보안 문제 등을 다뤘습니다. 품질 관리도 중요한 부분으로 다뤄졌으며, 지속적으로 평가 도구의 성능을 점검하고 개선해야 함을 강조했습니다.


결국, 평가 도구가 조직의 성공에 중요한 역할을 할 수 있다는 점이 강조되었으며, 이를 위해 평가 도구의 품질이 매우 중요하다는 점을 재차 강조했습니다. 이는 조직이 평가 도구의 타당성, 신뢰성, 그리고 운영 방식을 지속적으로 관리하고 검토해야 한다는 것을 의미합니다.





이 장의 내용 중에도 채용 인적성 검사의 타당성 확보에 대한 내용을 다루고 있다. 해결 방법이 있을까 싶은 주제이긴 하지만 데이터를 활용해 입사 이후 성과를 예측하는 것이 현실적으로 가능할까?
 
물론 성과에 영향을 미치는 다양한 요인들을 통제한다고 가정하더라도 인적성 기준을 통과했거나 입사를 선택한 사람들의 정보만을 활용한다는 점에서 이미 한계가 분명한 상황에서 채용 평가 데이터를 활용해 입사 후 성과를 예측할 때의 타당성을 확보 방안을 고민해 봐야겠다.
작가의 이전글 성과와 효율성에 영향을 미치는 개인 차이
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari