사용성 평가에 정량 데이터 활용하기

신입 UX/서비스 디자이너의 사용성 비교 평가 도전기 2편

Apr 30. 2018

1. 들어가면서

이번 글에서 데이터 분석에 유용한 통계 개념과, 정량 UX 리서치를 할 때 생기는 의문점을 정리했습니다. 하단의 참고자료들을 토대로 작성했습니다.

정량 데이터가 UX 디자인에 유용할까?

UX에서 정량 데이터가 그렇게 중요하지 않다는 의견도 있습니다. Jacob Nielson은 ‘꼭 몇 명의 사용자가 문제를 겪는지 몰라도, 소수의 사용자와 정성 리서치로 빠르게 디자인을 개선해도 충분하다.’라 이야기합니다.

반대로, UX에서 정량 데이터가 유용한 측면을 3가지로 정리해 보았습니다.

반응하지 않는 영역(Unresponsive gesture occurence)에 대한 히트맵 분석

(1) 현상을 파악하는 데 유용합니다. 사용자 행동을 관찰하는 로그나 히트맵, 또는 사용자가 만족도를 평가하는 자기보고 데이터 등을 수집할 수 있습니다. 개선해야 할 문제의 우선순위를 매길 수 있습니다. Digital Mckinsey에서는 디자인 정량 데이터 분석을 통해, 경영 성과에 비용 대비 가장 효율적인 영역을 집중적으로 개선합니다.

(2) 정량 데이터는 디자이너가 아닌 사람에게 디자인을 설득할 때 의사결정을 뒷받침하는 근거가 될 수 있습니다. 디자인을 현실화하기 위해 마케팅, 개발 분야, 경영 의사결정권자와 협의가 필요합니다. '사람들이 이 기능을 자주 사용하여 상단에 배치하였다'와 '80%의 사용자가 이 기능을 자주 사용하여 상단에 배치했고, 탐색 시간을 5% 줄여줄 것으로 예상한다'는 같은 주장이지만, 구체적인 수치를 제시함으로써 의사결정을 도울 수 있습니다.

(3) 정량 데이터는 디자인의 투자 대비 수익(returns on investment)을 계산하는 토대가 됩니다. UX Matters에 따르면, 기업 내부에서 일하는 UX 팀은 종종 경영진으로부터 UX의 투자 대비 수익, 혹은 가치를 수치로 제공해달라는 요청을 받는다고 합니다. 회사의 핵심 성과 지표에 UX 측정 지표를 연결하고, 디자인 전후 데이터 측정으로 성과를 보여줄 수 있습니다.

2. 알아두면 좋은 통계 개념

정량 데이터를 다룰 때, 기본 통계 개념을 이해하면 유용합니다. 데이터 분석하는 과정에서, 데이터가 전체 사용자를 대표할 수 있는지, 분석한 결과가 타당한지 검토해야 합니다. 통계학은 이런 과정을 객관적으로 검토하도록 도와줍니다.

(1) 모집단 (Population), 표본 (Sample)

모집단과 표본

모집단은 우리가 알고자 하는 대상 전체를 의미합니다. 표본은 모집단에서 추출한 모집단의 일부입니다. 우리는 표본을 조사해 모집단의 특성을 추정하고, 이를 표본 조사라 부릅니다. 예를 들어 사용자들이 결제 완료에 걸리는 시간을 알고 싶습니다. 모집단은 모든 사용자가 결제 완료에 걸리는 시간의 총집합입니다. 모집단을 조사하는 것은 시간, 비용 면에서 어렵습니다. 이때, 사용자 일부를 뽑아 결제 완료에 걸리는 시간을 측정합니다. 일부 사용자의 결제 완료 시간 데이터가 표본입니다.

다만 우리가 알고 싶은 것은 뽑은 일부 사용자가 아니라 전체 사용자의 특성입니다. 표본은 전체 모집단을 얼마나 대변할까요?

(2) 점추정 (Point Estimation), 구간 추정 (Interval Estimation)

표본을 통해 모집단 특성을 '추정'합니다. 방법에 두 가지가 있습니다. 첫째로 점 추정(Point Estimation)은 한 수치로 모집단 특성을 예측하는 것입니다. 아까의 예를 들어, 사용자 10명을 뽑아 결제 완료에 걸리는 시간을 테스트했습니다. 평균이 5분입니다. 점 추정은 전체 사용자 평균 결제 시간을 ‘정확히 5분'이라 추정하는 것입니다. 표본은 오차를 포함하기에 정확하게 일치할 확률은 낮습니다.

두 번째로, 구간 추정(Interval Estimation)은 점이 아닌 구간을 사용합니다. 특정 구간에 모집단이 포함될 가능성으로 추정합니다. 구간 추정을 할 때는 오차범위를 앞뒤로 더해 5±1분이라는 일정 구간을 만듭니다. 이 구간 안에 모집단 평균이 포함될 확률은 평균이 5분과 정확히 일치할 확률보다 높습니다.

구간 추정을 할 때 구간은 얼마나 길게 잡아야 할까요? 그 구간 안에 실제 사용자 평균이 있을 확률은 얼마나 될까요?

(3) 신뢰 수준 (Confidence Level), 신뢰구간 (Confidence Interval)

신뢰 구간은 구간 추정에 사용되는 구간입니다. 점추정으로 구한 값에 앞뒤로 허용오차를 더하고 빼서 구합니다. 신뢰 수준은 표본을 같은 방식으로 여러 번 뽑았을 때 표본의 신뢰 구간에 모평균이 포함될 확률입니다. 신뢰 수준이 높을수록 신뢰 구간은 넓어지고, 표본 크기가 커질수록 신뢰 구간은 좁아집니다. 사용자 10명을 뽑아서 평균을 구하고, 5±1분이라는 신뢰 구간을 도출합니다. 이 방식을 100번 반복하면 표본, 신뢰구간이 100개씩 생깁니다.

신뢰 구간 안에 모집단 평균이 포함되는 경우

95% 신뢰 수준이라는 뜻은 100개 신뢰 구간 중 전체 사용자 평균을 포함하는 경우가 95번이라는 뜻입니다. 신뢰 수준 값은 일반적으로 90%, 95%, 99%를 사용합니다. 신뢰 수준과 표본 크기를 알면, 오차 범위와 신뢰 구간을 계산할 수 있습니다.

3. 엑셀 활용하기

엑셀에서 신뢰 구간을 구하고 표시하는 법을 이야기하려 합니다. 신뢰 구간을 표시하면 보는 사람으로 하여금 중요한 데이터가 무엇인지, 주목할 차이점이 무엇인지 짐작하도록 도와줍니다. 특히 태스크 간 비교에 유용합니다.

(1) 신뢰 구간 계산

A회사가 10명을 대상으로 사용성 평가를 실행했다고 가정합니다. 임의로 생성한 숫자이며, 실제 프로젝트와 무관합니다. 사용자는 가로축의 P, 질문은 세로축의 Q에 해당합니다. 질문은 각 기능의 만족도에 관한 질문이라 가정합니다.

엑셀에서 평균, 90% 신뢰 구간 구하기

질문 별 평균값을 Average 함수를 사용해 값을 구합니다. 해당 칸에 '=Average(해당 구간)'합니다. 평균값이 전체 사용자의 만족도라고 추정한다면, 점 추정이 되겠지요.

신뢰 구간을 구할 때 confidence.t 함수를 사용합니다. 괄호 안에 (1-신뢰 수준, 모집단 표준편차, 표본 숫자)를 사용합니다. 모집단 표준편차를 모르는 경우, 표본 표준편차를 사용하고 t-분포를 따릅니다. 1-신뢰수준은, 95% 신뢰 수준이라고 하면 1-0.95 = 0.05 가 되어 0.05를 맨 앞에 넣어주면 되고, 90% 신뢰 수준을 사용하면 1-0.9 = 0.1을 맨 앞에 넣어주면 됩니다. stdev함수를 사용하여 표본 표준편차를 구할 수 있습니다. 우리는 90% 신뢰구간을 구해보려 합니다. 빈칸에 =confidence.t(0.1, stdev(B4:K4),10)를 입력하면 해당 값을 구할 수 있습니다. 밑으로 드래그하여 각 범위에 적용된 신뢰구간을 구합니다.

(2) 차트에 신뢰 구간 표시

신뢰 구간이 없는 평균 차트

평균값으로 차트를 생성하면 질문 별 평균 점수를 비교할 수 있습니다. 이 점수로 어떤 것을 알 수 있을까요? 3번 질문에서 만족도가 가장 높고, 5번 질문에서 가장 낮습니다. 이게 '유의미한' 차이인지 어떻게 판단할까요? 신뢰구간 표시는 이 판단을 도와줍니다.

차트에서 신뢰 구간 표시하기

엑셀 차트 메뉴 좌측에 Error Bars 항목에서 더 많은 옵션을 보기를 클릭합니다. 우측에 뜨는 옵션에서 가장 아래에 Custom 옵션을 선택합니다. 상위, 하위의 오류 구간을 아까 구한 신뢰 구간을 드래그해서 잡습니다.

신뢰 구간이 표시된 평균 차트

3번, 5번 만족도의 신뢰 구간이 겹치지 않습니다. 즉 90%의 신뢰도로 3번 질문과 5번 질문의 만족도에 유의미한 차이가 있다고 말할 수 있습니다.

이렇게 오차 막대를 해석하는 방법에 대표적으로 3가지 방법이 있습니다.

(알기 쉬운 UX 디자인 평가, p.181 참고)

두 평균 사이에 오차 막대가 겹치지 않는다면, 아무 문제없이 평균들이 정해진 신뢰 수준 하에서 통계적으로 유의미하게 다르다고 가정할 수 있다.

두 평균 사이에 오차 막대가 넓게 겹친다면, 아무 문제없이 그 평균들이 유의하게 다른 것이 아니라고 가정할 수 있다.

두 평균 사이에 오차 막대가 살짝 겹친다면, 그것이 유의미하게 다른 지 확인하기 위해 추가적 검정을 할 필요가 있다. (T검정)

(3) 엑셀에서 선택적 서식 기능으로 데이터 시각화

선택적 서식 적용해 특이 데이터 표시

유용하게 쓸 수 있는 기능 중 하나가 선택적 서식입니다. 해당 데이터를 드래그하고, 상단 메뉴바에서 선택적 서식(Conditional Formatting)을 선택합니다. 특정 값을 초과하거나 미달하는 항목에 표시할 수 있습니다.

데이터 흐름을 시각적으로 확인할 수 있어, 이상 값이나 좋은 평가를 받은 항목을 한 눈에 확인할 수 있습니다.

4. 정량 평가할 때 의문점 정리

(1) 얼마나 많은 참가자가 필요한가?

(사용자 경험 측정, p.151~154 참고)

정량 평가에서 참가자가 많이 필요하다는 부담을 느낄 수 있습니다. 사용자 경험 측정의 저자는 '8~10명의 참가자 숫자도 충분한 의미를 지닌다'라고 이야기합니다. 무엇보다 표본 숫자는 사용자 집단의 다양성, 제품이 얼마나 복잡한지, 리서치 목적, 시간과 비용을 고려해 결정합니다. 디자인 초기 단계에 테스트를 빠르게 반복해 디자인을 개선하는 목적으로 사용성 평가를 진행하는 경우, 6~8명으로 테스트하기를 권합니다. '상당히 다른' 패턴을 보이는 사용자 그룹이 있다면, 그룹 당 4명 정도를 권장합니다. 디자인 초기에는 소수의 사용자에게 주요한 문제를 확인하고, 완성 단계로 갈수록 더 많은 참여자에게 나머지 문제를 확인하는 게 일반적이라 합니다. 제품을 평가하는 경우 50~100명의 대표 사용자를 권합니다. 자사, 경쟁사 제품을 넓게 평가하고, 결과가 모집단을 대표하는 것이 중요한 목적이기 때문입니다.

(2) 어떻게 표본을 선택할 것인가?

(사용자 경험 측정, p.23 참고)

참여자는 연구 결과에 큰 영향을 줍니다. 따라서 최대한 실제 사용자에 가까운 참여자를 선정하도록 신중하게 계획을 세우는 것이 중요합니다. 이를 위해 두 가지 단계를 거칩니다. 첫 단계는 참여자가 연구에 참여할 자격이 있는지 모집 기준을 결정하는 것입니다. 제품을 많이 사용한 사람과 처음 접하는 사람을 구분해 모집할 수 있습니다. 두 번째는 참여자를 어떻게 나눌 것인가입니다. 뚜렷한 기준으로 참여자를 나눌 것이라면 그룹을 어떻게 구성할지, 각 그룹에 몇 명을 포함할지 고려해야 합니다. 사용성 테스트에서 일반적으로 그룹은 다음과 같이 나눕니다.

해당 분야 지식: 초보, 중급, 전문가

사용 빈도: 매월 방문 횟수 등

경험 기간: 주, 월, 년

인구 통계: 나이, 성별, 거주지

활동: 특정 기능 사용 여부

(3) 중요한 문제와 아닌 것을 어떻게 구분할 것인가?

(사용자 경험 측정, p.130 참고)

사용성 문제와 단순한 탈선을 구분하는 것은 어려운 부분입니다. 메뉴 명칭이 오해를 불러 잘못된 경로로 많은 시간을 쓴다면, 명백한 사용성 문제입니다. 불명확한 경우도 있습니다. 10명 중 1명만 특정 용어에 혼동을 느끼거나, 기능을 못 찾아서 헤매는 경우입니다. 우리는 같은 문제가 대규모 표본에서도 일어날 가능성이 있는지 파악해야 합니다. 참여자가 태스크를 진행하면서 기능을 인식하고 결정하는 과정이 논리적으로 타당한지, 행동이나 생각에 일관성이 있는지 확인해야 합니다. 논리적으로 타당하다면 소수가 겪더라도 사용성 문제라 할 수 있습니다. 행동에 일관성이 없어 참여자가 왜 그런 행동을 했는지 설명할 수 없다면 우연히 발생한 문제로 처리할 것입니다.

5. 정리하며

UX에서 데이터 활용에 관한 글을 썼습니다. 데이터를 맹신하기보다 정성 자료와 종합하여 의사결정을 돕는 자료로 사용할 수 있습니다. 필요할 때 설득에 근거로 활용할 수도 있겠습니다. 데이터 분석을 위한 데이터보다, 사용자 경험 향상을 위한 데이터 활용을 돕기를 바라며 글을 마무리합니다.