총괄적 사용성 테스트

전체적인 프로덕트 성능 측정하기

Feb 7. 2025

사용성 테스트는 프로덕트 개발 단계에 따라 형성적 사용성 테스트, 총괄적 사용성 테스트로 분류합니다. 형성적 사용성 테스트는 프로덕트 완성 전(프로토타입, 개발 단계) 반복적으로 점검하는 방법입니다. 총괄적 사용성 테스트는 이미 완성된 제품(출시)을 테스트하는 방법입니다. 사용자를 읽는 법 UX리서치 플레이북(백원희 님) 책에서 본 '총괄적 사용성 테스트'를 정리했습니다.

왜 중요한가?

- 종합적인 프로덕트 성능 테스트

- 개발이 진행됐거나, 론칭한 프로덕트에 적합

- 유관 분야의 다른 프로덕트와 자사 제품을 비교 평가

- 기존 프로덕트의 문제점을 쉽게 파악할 수 있음

총괄적 사용성 테스트(Summative Usability Testing)

1. 개요

- 리서치 유형: 행동적, 양적, 평가적

- 샘플링: 20명 이상

- 소요시간: 4~6주

2. 장점

- 평가 결과에 통계적 유의성이 있음

- 해당 벤치마크에 따라 프로덕트 사용성 평가

- 평가 결과 수치화: 시간에 따른 사용성 변화 추이 파악 가능

- 경쟁사 프로덕트와 비교할 때 유용함

3. 한계

- 필요한 참가자 수가 많아서 시간과 비용이 많이 듦

- 데이터 분석을 위한 사전 준비가 요구됨

- 모더레이팅이 없기 때문에 추가 질문이 불가능, 심도 있는 피드백 받기 어려움

주의할 점

- 객관적 해석을 위해 비교 대상이 있어야 함

- e.g: 태스크 성공률 54% 일 때, 비교 대상이 없으면 좋은 것인지 나쁜 것인지 판단하기 어려움

팁

- 동일한 프로덕트를 여러 번 테스트한 후 결과 추이를 기록

- 동종 업계 다른 프로덕트를 비교 대상으로 테스트

- 잘 알려진 연구를 벤치마크로 활용할 수 있음

- 메저링유의 제프 사우로가 정리한 사용성 평가 벤치마크: 테스트 레벨 평가 SUS(System Usability Scale) 평균 점수 68점

진행 순서

1. 준비하기(2~3주)

- 리서치 계획서 쓰기(리서치 질문, 테스트 형식)

- 시나리오와 태스크 만들기

- 디스커션 가이드 작성하기

- 사용성 평가지표 결정하기

- 참가자 조건 확정하고 모집하기

- 파일럿(사전) 테스트

2. 테스트하기(1~5일)

- 사전 준비(비밀유지계약서 작성, 레코딩 기기 설치)

- 테스트 목적과 주의사항 안내하기

- 시나리오와 태스크 전달하고 진행하기(세션: 15~90분)

- 설문조사하기(선택사항)

3. 분석하기(2~3주)

- 사용성 평가지표 분석하기

- 레코딩 리뷰, 사용성 문제 찾기

- 리포트 준비하기, 발표하기

사용성 평가지표 결정하기

3가지 사용성 평가지표와 지표별 측정 항목

1. 유효성(Effectiveness)

- 사용자가 프로덕트에서 원하는 바를 정확하게 달성할 수 있는가?

- 에러를 만들지 않고 태스크를 끝낼 수 있는가?

- 측정 항목: 태스크 성공률, 에러 수

태스크 성공률

- 가장 기본적인 평가 항목

- 참가자의 태스크 성공 여부(0=실패, 1=성공) 기록

에러 수

- 태스크를 수행하면서 발생한 에러를 카운트

- 의도치 않은 행동∙클릭, 건너뛰는 내용 등을 기록

2. 효율성(Efficiency)

- 사용자가 얼마나 신속하게 태스크를 끝내는가?

- 태스크를 끝내기 위해 정신적 에너지가 필요한가?

- 측정 항목: 태스크에 걸린 시간

태스크에 걸린 시간

- 참가자가 태스크를 수행하는 데 시간이 얼마나 걸렸는지 측정

- 소요시간, 평균 시간, 성공한 태스크에 걸린 평균 시간 등

- 세부 측정 항목은 테스트 성격에 맞게 결정

3. 만족도(Satisfaction)

- 사용자가 프로덕트 경험에 만족하는가?

- 참가자의 주관적인 의견 바탕

- 각 태스크나 전체 테스트가 끝난 뒤 설문조사 형식으로 만족도 측정

- 개별 태스크 마친 후 이루어지는 태스크 레벨 평가: 참가자의 기억이 선명할 때 진행된다는 장점이 있음

- 측정 항목: 사후 시나리오 설문, 단일 용이성 설문

사후 시나리오 설문(After-Senario Questionnaire, ASQ)

- 3개 문항

- 태스크 난이도, 소요시간, 태스크 수행 시 필요한 정보 지원 여부를 질문

단일 용이성 설문(Single Ease Question, SEQ)

- 1개 문항

- 태스크가 얼마나 어려웠는지(혹은 쉬웠는지) 7개 등급으로 용이성 정도 표기

테스트 레벨 평가

- 전체 테스트 마친 후 실시

- 종합 피드백, 문항 수가 많은 편

- SUPR-Q, CSUQ, UMUX, SUS(가장 많이 사용되는 방식) 등

SUS

- System Usability Scale: 10개 문항(5개 응답 옵션으로 구성된 설문지)

- 사용성 평가 벤치마크로 활용

- e.g: 테스트 레벨 평가 SUS(System Usability Scale) 평균 점수 68점

SUS 문항

- 자주 사용하고 싶다.
- 불필요하게 복잡하다.
- 사용하기 쉽다.
- 사용하려면 전문가의 지원이 필요하다.
- 다양한 기능이 잘 통합되어 있다.
- 일관성이 없다.
- 대부분 사람들은 사용법을 빠르게 배울 것이다.
- 사용하기 번거롭다.
- 사용하는 데 매우 자신 있다.
- 사용하기 전에 많은 것을 배워야 했다.