Maze로 UT 진행하기 [경험편]

Maze로 사용성 테스트를 진행해보자!

by MODAY Sep 03. 2023

사용성이란 어떤 도구나 인간이 만든 물건, 서비스를 어떤 특정 목적을 달성하기 위해 사용할 때 어느 정도 사용하기 쉬운가를 뜻합니다. 그리고 사용하기 쉬운 정도를 테스트하는 실험을 사용성 테스트(Usability Test, UT)라 부릅니다. UT는 제품의 와이어 프레임 단계뿐만 아니라 Hi-fi 프로토타입 또는 개발 완료 후 등 제작 프로세스 여러 구간에서 여러 형태로 시행할 수 있고 실제 현업에서 많이 사용하고 있는 실험입니다.

Maze를 활용하면 쉽게 UT를 만들고 실시할 수 있습니다. 하지만 UT를 제작하는 것이 쉬워지는 것이지 실험을 진행하는 것은 또 다른 문제입니다. 특히, 온라인 비대면 실험인 경우 참가자 주변 환경을 통제할 수 없으므로 인해 발생하는 답변의 성실도와 진실성 저하는 아무리 좋은 플랫폼을 사용하더라도 쉽게 극복할 수 없는 문제입니다. 이러한 문제가 생길 수 있음을 인지하고, 어떻게 하면 더 좋은 실험을 설계하고 시행할 수 있는지 UT에서 배운 경험 중 몇가지를 소개하겠습니다.

1. UT는 적당히 자주, 리허설 없는 UT는 실패의 지름길

UT에 대한 숙련도에 따라 다르겠지만, 처음 UT를 실시하면 실험 설계자가 예상하지 못했던 수많은 이슈에 직면하게 됩니다. 예상했던 사용 시나리오대로 따라오지 않거나, Task의 문장을 이해하지 못하는 경우 등 여러 문제가 발생할 수 있습니다. 이를 대비하기 위한 가장 좋은 방법은 한 번에 완성하지 않고, 여러 번 UT를 진행하며 실험을 발전시키는 것입니다. 실험 설계 단계에서 UT에 대해 잘 알고 있는 동료에게 리허설 실험을 진행하여 문제를 발견, 이를 통해 실험의 가장 기본적이고 치명적인 문제들을 발견하고 빠르게 조치할 수 있습니다.

소규모로 1차 실험을 진행한 후 발생한 여러 문제를 기록하고 개선하여 이른 시일 내에 2차 UT를 진행하는 방식도 있습니다. 1차 실험이 부족하리라는 것을 처음부터 인정하고 빠르게 문제를 찾아 개선한다면 회차를 거듭할수록 훨씬 안정적인 실험이 가능하게 됩니다. 실수도 줄어들겠죠. 만약 1차와 2차 실험 사이 프로덕트의 일부 변경이 있는 경우에는 그 변화에 따라 실험 결과가 바뀌는지, 일부 변경된 요소가 어떤 영향을 끼치는지 빠르게 파악할 수도 있습니다. 이러한 장점들 때문에 한 번의 완벽한 UT보다는 짧고 빠른 UT를 반복하는 게 효과적일 수 있습니다.

또한, 이 방법은 온라인 UT에서 참가자의 집중력 저하가 발생할 우려가 있는 경우에도 효과가 있습니다. 리허설이나 1차 실험을 통해 어느 구간에서 성실함이 낮은지, 전체 과정에서 사용자가 어떻게 답변하고 얼마나 걸리는지 등을 파악하여 성실한 실험 참가를 위한 장치를 구상하는 근거 자료가 됩니다.

실험 자체를 하나의 프로덕트나 프로세스로 생각하고 성장시키는 개념으로 접근한다면 바람직한 UX 환경을 구축할 수 있습니다. 저의 경우 리허설 단계에서 하나의 Task 당 시행할 지문이 너무 길어 실험참가자가 지문을 다 기억하지 못하는 문제를 발견했던 경험이 있습니다. 이를 해결하기 위해 처음 계획보다 지문을 쪼개 Task를 만들어 Maze를 2개로 분할하여 해결하였던 경험이 있습니다. 그리고 이 과정을 보고서로 잘 기록해 두어 다음 실험에서는 반복되지 않도록 주의 하였습니다. 이런 과정을 반복하며 실험 프로세스가 숙련된다면 다음, 다다음 실험은 보다 완벽해 질 것입니다.

2. 5명도 좋아요, 15명은 충분해요

2000년 발표한 Jacob Nielson의 실험 참가 인원에 대한 연구 ‘Why You Only Need to Test with 5 Users’에 따르면 1회의 실험에 5~15명의 참가자만으로도 충분하다 이야기합니다. 물론 이 연구에 대한 해석은 다양할 수 있습니다. 그렇지만, 참가 인원이 크게 늘어나도 발견할 수 있는 문제의 수가 다이나믹하게 증가하지 않는다는 이야기는 많은 실험 참가 인원에만 매달리던 UX 연구자들에게 새로운 관점을 제공합니다. 5명을 대상으로 실험하면 문제의 80%를 찾을 수 있고, 15명은 발견할 수 있는 대부분의 문제를 발견할 수 있다고 주장합니다. 그리고 그 이상이 되어도 참가인원의 증가에 비해 발견할 수 있는 문제의 퍼센트가 급감한다 이야기 합니다. 이 연구 내용을 받아들인다면 우리는 굳이 100명~200명 씩 많은 인원을 모을 필요가 없어지는 것이죠.

https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/

무엇보다 확실한 데이터가 중요한 의료기기 제작 프로세스 중 사용성 항목에 해당하는 사용적합성 실험에서도 실험 참가인원을 소규모로 규정하고 있습니다. 사전 실험에 해당하는 형성평가에서 그룹당 5~8명의 인원을, 최종 검증을 받는 총괄평가에서는 최소 15명을 섭외하여 실험을 진행하는 것을 권장합니다.

위 두 사례를 보면 한 번의 UT에는 5~15명 사이의 인원을 대상으로 빠르게 실험하는 게 바람직해 보입니다. ‘1. UT는 적당히 자주, 리허설 없는 UT는 실패의 지름길’과 주장은 같으나 근거가 다르죠. 우리가 진행하고자 하는 Maze를 통한 실험은 제품의 최종 성능 검증이 아닌 비교적 간단한 실험을 통해 빠르게 문제를 발견하는 것이기 때문에 5명~8명 정도의 소규모 그룹으로 실험을 진행하는 것이 훨씬 민첩하게 원하는 결과를 얻는 방법입니다. 위 Jacob Nielson의 연구 결과 5명을 대상으로 실험을 진행하여도 발견할 수 있는 문제의 80%를 찾을 수 있다고 하니, 무리해서 많은 인원을 섭외하는 것보다 실험의 목적에 맞는 실험 참가자 인원을 섭외하는 게 더 현명한 실험 설계 방법입니다. 그리고 적은 인원으로 많이 실험해보는 것이 좋구요.

3. 정량 말고 정성도 중요해요

UT는 사용성(Usability)을 평가하는 실험입니다. 사용성은 연구자마다 조금씩 정의가 다르지만 가장 대표적으로 Jacob Nielson이 정의한 학습의 용이성, 기억의 용이성, 능률성, 만족도, 그리고 (적은)에러 5가지가 있습니다. 이 5가지 지표는 정량, 정성 두 종류의 데이터 속에 숨어 있습니다. 숙련도가 높은 UX 연구자는 정성, 정량 Task를 적절히 섞어 실험을 설계하겠지만, 많은 실험 설계자가 숫자의 함정에 빠져 정량적 결과에만 매몰되는 경우도 발생합니다.

실험 참가인원이 적다면 정량보다 정성 데이터들이 더 의미 있는 경우가 많습니다. 10명의 인원 중 4명이 A 버튼을 클릭했다는 데이터 보다, A 버튼의 색상과 위치가 애매하여 거기 있는지 몰랐다는 몇 명의 의견이 우리에게 더 필요할 수 있습니다. 특히 MVP를 만들어 가고 있을 때는 정성 데이터가 더 중요합니다. 정량, 정성 데이터의 중요성을 모두 이해하고 원하는 용도에 따라 적절하게 활용하면 한 가지 데이터에만 집중한 실험보다 훨씬 풍요롭고 성공적인 실험이 될 수 있습니다. Maze에는 정성 데이터를 수집하기 위한 질문 Task나 5초 테스트 등 정성 데이터를 수집할 수 있는 좋은 장치들이 존재합니다.

4. 목적에 맞는 실험 참가자 군을 대상으로

검증하고 싶은 데이터의 종류에 따라 실험 참가자 군을 모집해야 합니다. 위에 언급했던 Jacob Nielson의 사용성 요소 중 학습 용이성을 파악하고자 한다면 제품에 대해 모르는 사람을 섭외하여 실험을 진행하는 것이 좋고, 기억 가능성을 중점적으로 파악하고자 한다면 이미 한번 제품을 사용해 봤던 사람들을 다시 참가자로 섭외하는 것이 바람직합니다.

규모가 큰 회사나 UT에 많은 예산을 지원받을 수 있는 환경이라면 실험 참가자 군을 다양하게 확보하는 게 가능하겠지만, 보통의 스타트업이나 개인은 사내에서 실험을 진행하거나 지인 또는 소규모의 인력풀을 통해 실험을 진행하는 경우가 많아 검증하고 싶은 데이터의 종류에 맞는 실험 참가자 군을 섭외하기 힘든 경우가 발생합니다.

Maze는 실험 진행단계인 Share 단계에서 ‘Hire from our Panel’이란 실험 참가자 모집을 돕는 기능을 가지고 있습니다. Maze가 보유한 실험 참가자 풀에서 원하는 인원, 나이, 언어, 나라, 디바이스, 학력, 산업군을 선택하면 섭외할 수 있는 인원과 요금을 알려주어 빠른 실험 참가자 섭외를 지원합니다. 이 기능을 통해 참가자 섭외에 드는 노력을 덜 들이고 빠른 실험을 진행할 수 있습니다.

5. 온라인 실험의 한계 인지하기

보편적인 사용성 테스트는 진행자와 참가자가 마주하고 실험의 과정을 관찰하며 기록하는 형태로 진행하는 경우가 많지만, 상황에 따라 온라인, 비대면 등 다른 방식으로 진행하기도 합니다. 코로나를 겪으며 온라인, 비대면 실험의 비중이 높아졌고 실험 참가자들은 편하게 참여할 수 있는 장점으로 인해 온라인, 비대면 실험이 많이 시행되었으나, 분명한 문제점이 존재합니다.

온라인 비대면 환경에서의 UT는 참가자가 편한 환경에서 원하는 시간에 시행할 수 있다는 장점이 있지만 그만큼 주의력 분산이나 성실하지 못한 응답 등의 문제가 있을 수 있습니다. 온라인 실험임에도 이를 방지하기 위해 정해진 시간에 실험참가자가 보이도록 캠을 켜고 참가해달라고 요청할 수 있지만, 참가자가 부담을 느낄 수 있게 됩니다.

오프라인에서 Maze UT를 진행한다면 이 단점들을 많이 극복할 수 있겠지만 온라인 진행에서는 그 한계를 인지하고 실험의 설계와 진행에 신경을 써야 합니다. 참가자는 실험을 진행하는 도중 잠시 자리를 비울 수 있고, 무분별한 클릭을 할 수도 있습니다. 이와 같은 현상이 의심되는 데이터가 보인다면 이때 어떤 일이 있었는지 실험 참가자에게 묻고 기록해 두어 상황과 결과 데이터를 함께 분석하는 게 좋습니다.

6. 불성실한 응답을 가려내자

실험 참가자들은 설계자의 바람만큼 성실히 실험에 참여자 않습니다. 실험 설계자는 참가자들이 기본적으로 귀찮아하고 의무적으로 실험을 수행한다는 가정을 하고 실험을 설계해야 합니다. 그리고 어느 정도 흥미롭고, 지루하지 않게 실험을 준비하여야 합니다. 그래야 실험에 참여하는 긴 시간 동안 참가자들이 집중력을 잃지 않을 수 있고, 그로 인해 수집되는 데이터의 질이 좋아집니다. 흥미로운 실험을 위해 재미있는 이미지로 실험을 안내하거나, 각 Task의 길이를 짧게 하기, 여러 형태의 Task(설문, Prototype test, 5초 테스트 등)를 혼합해 실험을 구성하는 방법을 사용해 볼 수 있습니다.

실험 종료 후 불성실한 응답을 가려내는 것도 중요합니다. 예를 들면 의견을 묻는 Task에 아무 글씨를 쓰거나 5점 척도 질문에 같은 점수를 반복해 여러 번 연속으로 기재한 경우가 있습니다. 불성실한 응답이 발견된다면 그 참가자의 전체 Task를 살펴보고 신뢰할 수 있는 데이터인지 검토합니다. 특히 온라인, 비대면 실험 시 이런 응답이 발생할 확률이 높습니다. 만약, 특정 참가자의 3개 이상의 불성실한 응답이 관찰된다면 해당 참가자의 응답을 배제하는 선택을 할 수 있습니다. 그리고 그 참가자가 왜 그렇게 응답하였는지, 어떤 문제가 있었는지를 물어 다음 실험 개선을 위한 데이터로 삼는 게 좋습니다.

7. 보고서를 잘 작성하자

UT는 1차로 끝나는 것이 아니라 계속 발전해 나가야 합니다. 실험 설계에 참여했던 사람이 퇴사하고, 새로운 사람이 UX 업무를 맡아도 과거의 기록을 보고 계속해 나갈 수 있게 하여야 합니다. 많은 회사, 동아리에서 UT를 진행하고 결과를 확인한 후 과거의 실험 과정에 대한 인계가 제대로 이루어지지 않아 이전에 했던 실수를 반복하는 경우가 발생합니다. 이를 방지하려는 방법의 하나는 최종 실험 보고서를 열심히 작성하는 것입니다.

- 실험 과정 보고서 : 실험을 어떻게 진행했고 어떤 준비를 했는지 상세히 기록하는 보고서

- 회고 보고서 : 실험에 참여한 인원들이 실험을 진행하며 경험한 내용을 회고 형식으로 풀어낸 보고서. 회고는 자유로운 소감, KPT 등 원하는 형태로 실시.

- 실험 결과 보고서 : 실험을 진행하고 어떤 결과를 얻었는지 기록하는 보고서. 정량, 정성 데이터 및 가능하면 수집한 모든 형태의 데이터를 기록한다. 또한, 문제점과 제안할 점, 데이터를 어떻게 해석이 가능한지를 기록하기도 한다.

이 외에도 여러 형태의 보고서를 작성할 수 있습니다. 참가했던 사람들의 경험과 인사이트들을 잘 모아둔 문서이기만 하면 됩니다. 잘 작성된 보고서는 잘 진행된 UT만큼이나 중요합니다. 보고서 작성과 공유까지를 전체 과정으로 생각하고 진행하는 것이 바람직합니다.

UT는 참 유용한 제품 검증 프로세스입니다. 우리는 UT만으로도 정말 많은 것을 알 수 있게 되고, 활용 방법에 따라 수많은 방식으로 시행할 수 있습니다. 그러나 가끔은 너무 쉽고 빠르게 진행할 수 있기 때문에 그 소중함과 유용함을 저평가하게 되는 경우가 종종 발생합니다. 저 또한 그런 경험이 있고요.

이 글을 통해 지금까지 시행했던 UT 경험을 돌아보고 더 좋게 활용할 수 있는 방법을 얻어가셨으면 좋겠습니다. 제 글이 조금이라도 도움이 된다면 그것이 글을 쓴 보람일 테니까요.

지금까지 긴 글 읽어주셔서 감사합니다. :) 정말로요~

keyword