You can make anything
by writing

C.S.Lewis

리커트 척도는 만병통치약이 아니에요

사용성 평가에서 가장 적합한 평가 방법은 무엇일까?

by MODAY Jan 16. 2025

실험은 참 다양한 방식으로 이루어집니다. 그리고 평가 방법도 그만큼 많고, 좋은 실험에는 항상 적절한 평가 방법이 항상 따라옵니다. 그 중에서도 가장 널리 사용되고 대표적인 평가 방법 중 하나가 바로 리커트 척도입니다. 이 방법은 간단하고 효율적이어서, 다양한 분야에서 넓게 사용되고 있습니다. 또한, 리커트 척도의 활용도를 높이기 위한 수많은 연구가 진행되어 온 만큼, 신뢰성과 적용성이 높다는 이유로 많은 실험에서 사용되고 있습니다. 


하지만 리커트 척도가 만능 도구는 아닙니다. 실제로 사용성 평가 실험에서 리커트 척도를 활용하며 느꼈던 한계와 문제점들이 있었고, 이를 해결하기 위해 평가 방식을 개선해 나갔던 경험이 있습니다. 오늘은 이 경험을 바탕으로 리커트 척도를 사용하면서 발견한 문제점과, 더 나은 평가 방법을 탐구해 나갔던 여정을 공유하려고 합니다.


리커트 척도는 서로 상반된 항목(좋다/싫다 등)을 양 끝에 두고 중간에 여러 선택지를 제공하여 측정하는 방식입니다. 일반적으로 5개 혹은 7~9개의 선택지를 사용하고, 몇개의 선택지를 제공하는지에 따라 ‘#점 척도’ 라고 부릅니다. 수집된 데이터를 모아보면 선택지 간 상대적 크기에 따른 비교를 쉽게 할 수 있습니다.


[5점 척도의 예시]
매우 좋다, 좋다, 보통, 싫다, 매우 싫다.


처음 리커트 척도를 배웠을 때 UX 실험에서 만병통치약 처럼 느껴졌습니다. 만족도, 사용성 등 많은 항목을 비교적 간단히 정량화할 수 있어 데이터 수집 환경이 잘 구축되어있지 않은 상황에 바로 사용하기 좋은 평가법이었습니다. 초기 리커트 척도를 사용하여 평가를 하는 방식은 크게 두가지로 나누어 진행되었습니다.

  

1. 시나리오 테스크 수행 

실험 참가자가 특정 작업이나 목표를 달성하는 과정을 평가자가 관찰하고 리커트 척도에 평가하는 방법 

[초기 평가 기준] 
‘Confirm 버튼을 클릭하시오’ 
10명의 실험 참가자가 Task 1을 수행
 
5점 (매우 잘 수행): 8명 
4점 (적당히 수행): 1명 (참가자 1 : 다른 버튼과 잠시 혼동했지만 올바르게 누름) 
1점 (수행하지 못함): 1명 (참가자 5 : 어떤 버튼을 눌러야 하는 지 진행자에게 물어봄, 진행자의 도움을 받고도 버튼을 누르지 못함)


2. 사용자 의견 수집 

실험 참가자가 서비스를 사용하고 느낀 주관적 경험을 리커트 척도에 기록하는 방법

[초기 평가 기준]
‘인공지능의 결과는 만족스러우신가요?’

5점 : 매우 만족 | 4점 : 만족 | 3점 : 보통 | 2점 : 불만족 | 1점 : 매우 불만족


시나리오 테스크 수행 실험을 여러 번 진행하면서, 리커트 척도를 활용한 평가 과정에서 애매함이 존재한다는 것을 발견했습니다. 그러나 이러한 애매함은 리커트 척도라는 평가 방식 자체의 특성이라 생각하며 그대로 유지해왔습니다.


문제는 외부 형성평가를 계획하여 드러났습니다. 리커트 척도는 평가자의 주관적인 느낌을 기록하는 방법입니다. DAU와 같은 객관적 데이터가 아닙니다. 그래서 평가 시 평가자의 주관이 작용할 수 밖에 없습니다. 평가 기준이되는 상반된 개념 (찬반, 흑백)과 그 안에 세분화된 지점들(‘~~한 경우에는 2점 을 기록한다’)에 대한 명확한 기준이 존재하지 않는다면 같은 상황을 보고도 실험 평가자들은 다른 평가를 내리게 됩니다.


‘Confirm 버튼을 클릭하시오’라는 테스크를 실험 참가자가 수행하는 상황을 예를 들어보겠습니다.

테스크 : Confirm 버튼을 클릭하시오
실험 참가자 행동 : 실험 참가자가 화면 안에서 3~4초 가량 해매다가 버튼을 발견하여 클릭하였다.

이 경우 ‘매우 잘 수행함, 잘 수행함, 보통, 잘 못 수행함, 매우 잘 못 수행함’ 으로 평가 기준을 세웠두었다면 어떤 점수로 평가해야할까요? 평가자 A의 눈에는 해매는 것보다는 서비스를 관찰하기 위해 둘러본 것으로 보여 ‘매우 잘 수행함’으로 평가하게 될 수도 있고, 평가자 B의 눈에는 너무 시간이 지체되고 다른 버튼을 클릭하려 시도한것으로 보여 ‘매우 잘 못 수행함’으로 평가 할 수 있습니다. 이렇게 되면 같은 상황에서 극과 극의 평가가 나오게 되며, 의도와 다른 이상한 점수가 집계 될 수 있습니다.


이런 상황을 보완하기 위해 두가지 방법을 사용해 보았습니다. 


1. 리커트 척도 사용 후 크로스 체크     

실험 종료 후 평가자들이 모여, 각자의 평가 내용을 처음부터 다시 검토하고 논의하는 방식입니다. 

장점 : 극단적인 평가의 엇갈림을 막을 수 있고, 자칫 평가 상황에서 잘못 생각하고 평가하지 못한 부분에 대한 보완이 가능하였습니다. 

문제점 : 평가자 간 논의 과정에서 특정 평가자의 의견이 과도하게 반영되는 위험이 있습니다. 한 사람의 주관이 강하게 작용해 평가가 공정하지 않게 됩니다.


2. 리커트 척도 평가 기준 세분화 

예 : 매우 잘 수행함 → 테스크를 수행하는데 2초 이상 소요되지 않으며, 동작에 망설임이 없고, 테스크를 수행하는데 필요하지 않은 기능에 접근하지 않는다. 

장점 : 평가 기준이 명확해져, 단순히 “잘한다/못한다”에서 벗어나 객관적으로 점수를 부여할 수 있습니다.

문제점 : 모든 테스크에 동일한 적용 가능한 기준을 만들지 못하였습니다. 또한, 기준이 지나치게 세분화되면서 평가자들이 어떤 점수를 선택해야 할지 혼란스러워 하는 경우가 발생하였습니다. 혼란은 응답 지연으로 이어지고, 결과적으로 평가 속도를 저하시켜 실험 전반에 영향을 미쳤습니다. 그리고 평가 기준이 너무 높을 경우 불필요하게 낮은 점수를 부여해 과소평가되는 사례가 발생하기도 하였습니다.  


위의 방식처럼 보완하고 몇차례 추가 실험을 진행해보니 보완한 방법의 허점을 또 발견할 수 있었습니다. 좀 더 믿을 수 있는 데이터가 필요하였습니다. 사용성 평가 데이터는 B2B 프로덕트를 만들고 있는 저에게 너무나 중요한 데이터입니다. 협업하는 기관들은 사용성과 관련된 개선을 가장 많이 요구합니다. 기관 입장에서는 사용하기 편해야 본인들의 생산성이 향상되고 부가가치로 이어질 수 있기 때문입니다. 잘못된 데이터로 불필요한 개선을 진행하면, 리소스 낭비와 결국 계약 실패와 같은 비즈니스 문제까지 일어날 수 있습니다.


실험 총괄이었던 저는 ‘사용성 평가의 테스크 평가는 리커트 척도 방식이 적절치 않다’ 라는 결론을 내리고 평가의 개선을 진행하였습니다.


1. 주관적 데이터와 객관적 데이터를 분리

만족도와 같은 사용자의 인상을 묻는 주관이 크게 관여되어야 하는 평가 항목에 대해서는 리커트 척도를 유지       

테스크 평가는 성공/실패로 단순화된 두 가지 평가 항목만을 사용


2. 테스크 평가에 정성적 관찰 기록 추가

2개의 평가 항목만을 사용하며 누락될 정성적 관찰점들을 상황 기록이라는 공간에 따로 서술하는 방식으로 대체 실험 종료 후 상황 기록 자료에서 핵심 키워드를 추출해 데이터를 보완  

[개선된 평가 기준]

‘Confirm 버튼을 클릭하시오’
10명의 실험 참가자가 Task 1을 수행  

성공 : 9명
실패 : 1명

상황 기록
- 참가자 1 : 다른 버튼과 잠시 혼동했지만 올바르게 누름
- 참가자 5 : 어떤 버튼을 눌러야 하는 지 진행자에게 물어봄, 진행자의 도움을 받고도 버튼을 누르지 못함


리커트 척도를 사용하던 평가 방식을 성공/실패 방식으로 바꾸면서, 평가자가 5점 중 어떤 항목으로 기록해야 할지 고민하는 시간이 줄어들었습니다. 이로 인해 평가자들은 기록을 위해 시간을 쏟는 대신 실험 참가자의 행동을 관찰하는 데 더 많은 시간을 할애할 수 있게 되었습니다.


성공/실패라는 단순하고 명확한 기준이 생긴 덕분에 평가자들 간의 일관성이 크게 높아졌고, 각자의 주관에 따라 다른 평가가 나오는 상황도 크게 줄었습니다. 평가 속도가 빨라진 결과, 여유 시간 동안 참가자의 행동을 더 세밀히 관찰할 수 있게 되었고, 이는 리커트 척도를 사용하려던 원래의 의도인 ‘참가자의 행동을 더 잘 이해하기 위한 노력’을 실현할 수 있게 도왔습니다.


이후 평가 방법에 대한 고민은 의료기기의 사용성 테스트인 총괄평가를 준비하며 한번 더 발전합니다. 먼저 테스크에 대해 수행 완료 여부(성공/실패)를 평가합니다. 그 후 상황기록으로 모아서 기록했던 정성 관찰 데이터를 근접오류와 사용 어려움, 작업 실패, 사용 오류로 구분하여 기록합니다. 


1. 테스크 수행 완료 여부 평가

성공/실패로 단순하게 기록.


2. 정성 관찰 데이터 세분화

상황 기록 데이터를 기반으로 근접 오류, 사용 어려움, 작업 실패, 사용 오류로 구분하여 기록.  

근접오류 : 실험 참가자가 주어진 테스크에 대해 잘못된 행동을 할 뻔하였으나, 문제를 인지하고 즉시 수정하여 결국 올바르게 마친 경우입니다.

사용 어려움 : 실험 참가자가 테스크에 대해 혼란스러워하거나 여러 번 시도하며 망설이는 등 분명한 어려움을 겪으면서 작업을 마친 경우입니다.

작업 실패 : 실험 참가자가 테스크를 수행하지 못하여 진행자의 도움을 받아서 마친 경우입니다. 작업 실패한 경우 사용 오류가 발생한 것으로 간주합니다. 작업 실패가 아닌 모든 테스크 수행은 작업 성공으로 평가합니다.

사용 오류 : 실험 참가자가 테스크를 수행하지 못하거나, 의도와 다르게 진행되어 원하는 결과와 다르게 되는 경우, 또는 필요한 단계를 누락하는 경우입니다.


추가된 정성 평가 기준을 통해 단순히 성공, 실패만 기록하여 부족했던 실험 참가자의 세부 행동들을 규격에 맞게 기록할 수 있게 되었습니다. 총괄평가 이전에는 상황 기록이라는 큰 카테고리 안에 실험 참가자의 모든 행동을 기록하였습니다. 그러나 이 방식은 불필요한 부분까지 관찰하고 기록하는 비효율이 존재하였습니다.

총괄평가 방식을 도입하면서, 평가자가 실험 참가자의 행동을 인지하고 이를 근접 오류, 사용 어려움, 작업 실패, 사용 오류와 같은 카테고리로 1차적으로 구분했습니다. 이후, 테스크 단위로 참가자의 행동을 집계하고 이를 서술했습니다.


이러한 변화로 리커트 척도를 사용했을 때보다 더 풍부한 정량적 데이터를 수집하면서, 정성적 정보도 놓치지 않게 되었습니다.

[총괄평가 평가 기준]

‘Confirm 버튼을 클릭하시오’
10명의 실험 참가자가 Task 1을 수행

작업 성공 : 10명
- 정상 : 9
- 근접 오류 : 1 (참가자 1 : 다른 버튼과 잠시 혼동했지만 올바르게 누름)

작업 실패 : 1명
- 작업 실패 : 1 (참가자 5 : 어떤 버튼을 눌러야 하는 지 진행자에게 물어봄)
- 사용 오류 : 1 (참가자 5 : 진행자의 도움을 받고도 버튼을 누르지 못함)


이러한 평가 방식을 통해 총 30회의 총괄평가를 성공적으로 마칠 수 있었습니다. 이전 실험에 비해 더 발전되고 세밀한 데이터를 수집할 수 있었으며, 그 데이터는 이전에 비해 훨씬 더 많은 신뢰성을 갖추게 되었습니다. 평가 방법과 수집 방식이 명확해야 데이터의 가치를 보장할 수 있습니다. 이를 위해 사용적합성 평가에서는 리커트 척도를 과감히 버리고, 더 명확한 정보를 수집하는 방법을 선택했습니다. 리커트 척도가 만병통치약이 아니라는 것을 깨닳은 것이죠.


그럼에도 리커트 척도가 의미 없는 도구는 아닙니다. 오히려 기준이 명확하게 세워진 평가 기준은 잘 통제되어 있는 실험 환경에서 강력한 힘을 발휘합니다. 특히 정성평가(만족도, 신뢰도 등)에서는 여전히 유효합니다.

이를 활용할 때는 응답 항목에 대해 부연 설명을 추가하여, 응답자가 각 점수의 의미를 명확히 이해하도록 해야 합니다. 예를 들어, “1점은 매우 나쁨”이라고 단순히 기술하는 대신, 구체적인 상황을 예로 들어 설명함으로써 응답자마다 점수 기준이 달라지는 문제를 방지합니다.


여기까지 여러번의 실전 사용성 테스트를 총괄하며 겪었던 인사이트를 공유하였습니다. 초기에는 많은 자료를 보고 실험을 설계했음에도, 매 실험을 거칠 때마다 문제가 발견되어 실험 방법을 수정해야하였습니다.


잘못된 실험은 신뢰할 수 없는 데이터를 낳고, 이는 곧 리소스 낭비로 이어집니다. 특히 제가 다루는 의료 서비스 제품은 특정 사용자군(의사)을 타겟으로 하기에, 한 번의 실험 실패가 큰 비즈니스 손실로 이어질 수 있습니다. 그래서 실제 의사들을 만나기 전 실험의 완성도를 높이기 위한 실험 견고하게 만들기 용 사전 테스트를 여러 차례 반복하였습니다. 실험 참가자인 의사분들의 제품 신뢰도에 직접적인 영향을 미칠 수 있는 문제이기 때문에 실험 설계와 평가 방식에 대해 깊이 고민하며 개선해 나갈 수밖에 없었습니다.


이제는 여러번 실험을 이끌며 많은 노하우들로 인해 비교적 안정적으로 실험을 이끌어 나갈 수 있게 되었습니다. 그러나 사용성 평가라는 UX의 한 분야에 깊게 관여해 탐구하다보니, 기왕이면 좀 더 잘하고 싶다는 욕심을 가지게 되었습니다. 앞으로도 사용성에 대한 얻게 된 새로운 지식들을 공유해보겠습니다. 끝까지 읽어주셔서 감사합니다.

작가의 이전글 AI Service, Progress Indicator

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari