사용성평가 프레임워크

관점모으기, 기준정하기, 평가체계 수립하기

Feb 12. 2026

이 주제는 나 스스로가 풀어내야 하는 숙제이다. 미리 밝혀두지만, 본 글은 개인적인 통찰과 만족을 위한 탐구로 타인에게는 그다지 의미가 없을 수도 있다.

실무에 몰입해 있던 시기, 사용성 평가를 진행할 때마다 뭔가 풀리지 않았다. 평가 항목 기준을 세울 때마다 머리를 싸매곤 했는데 결과적으로 큰 차이가 없었는데도 매번 혼란스러움이 따랐다. 마음속에 걸리는 지점이 있었지만, 이를 명확히 정의하지 못했고 바쁜 일정에 쫓긴다는 이유로 회피했다. 또 굳이 변명을 하자면… 주변 동료들과 논의하면 “정리되면 좋긴 하겠지만, 굳이?”라는 반응이 일반적이어서, 적극적으로 풀어보려 하지 않았다.

그렇게 시간만 지나서 더 모호하고, 정리하기 어려운 ‘숙제’로 남게 되었다. 늦었지만, 지금이라도 천천히 풀어내보고자 한다.

평가 기준은 항상? 제이콥닐슨!?

학문적으로 개념을 정의하고 체계화 한다는 것은 위대하고 의미있는 일이다. 이렇게 후대에 지속적으로 그 영향력을 행사할 수 있으니 말이다. UXUI 사용성 평가하면 제일 먼저 제이콥 닐슨이 떠오른다. 그가 세운 10가지 휴리스틱 원칙은 업계 전반에서 절대적으로 지켜져야 하는 ‘10계명’처럼 받아들여져 왔다.

UX관련 업무를 시작한게 2009년이었다. 당시 아이폰이 출시와 함께 UX에 대한 관심이 급속도로 증가했고, 애플의 혁신은 ‘모바일’을 단순한 디바이스로 바라보는 것을 넘어 새로운 미래를 여는 핵심 플랫폼으로 자리매김하게 만들었다. 이런 흐름 속에 많은 기업들이 앞다투어 앱 서비스를 출시했고, 나 또한 그 흐름에 합류하여 다양한 실무 프로젝트를 경험할 수 있었다.

그 시기 나는 연구실과 실무를 오가며 사용자 리서치를 중심으로 한 프로젝트를 수행했고, 그 과정에서 자연스럽게 사용성 평가를 자주 접하게 되었다.

나는 매번 서비스 성격을 고려하여 평가 기준을 수립했는데 어김없이 제이콥 닐슨의 휴리스틱을 참조했다. 그러나 평가 항목을 재정의하고 구분하려고 할 때마다 항목 간 레벨이 상이하고, 적용의 모호함 등으로 어려움을 느꼈다. 그래서 다른 이론들과 비교해가며 적절히 조합하여 적용했다. 이는 자연스러운 결과였다.

제이콥닐슨의 휴리스틱은 1994년, PC기반의 GUI환경을 전제로 구성된 평가기준이다. 이론이 발표된 시점이 오래되었다는 사실보다, PC가 아닌 모바일 환경으로 전환되었다는 것이 본질적인 문제이다. 모바일 확산으로 콘텐츠의 표현이나 상호작용의 방식 자체가 급격히 변화하였고, 이로인해 기존 이론과의 괴리는 필연적으로 발생할 수 밖에 없는 것이다.

최근 2년 전 일이다. 회사에서 특정 모바일 서비스에 대한 사용성 평가 업무가 주어졌고, 나는 그렇게 다시 이 고민과 마주하게 되었다. ‘미리 좀 정리를 해놓을껄’하는 후회를 하며, 평가 항목을 조합하고, 기준에 대한 근거를 상세히 주석처리하였다. 그런데 돌아온 피드백이

“그냥 단순하게 제이콥 닐슨꺼로 하세요. ” 였다.

한숨을 절로났다. 그렇게 또 마음 속에 켜켜이 쌓인 답답함을 해소하지 못하고 무력감이 얹혀졌다.

새로운 것이 아니라,
있는 것들을 조합한다.

‘서비스에 따라서 적당히 골라 쓸 수 있도록 큰 틀을 하나 만들어야 한다.’

완전히 새로운 기준을 제시하는 것이 아니라, 기존 이론과 기준을 효과적으로 조합하는 것이 필요하다는 결론에 도달했다. 서비스 유형에 따라 적절히 선택하여 적용할 수 있는 평가 프레임워크가 필요하다.

이미 유사한 체계를 정리한 사람은 많을 것이다. 특히, UX리서치 중심의 에이전시에는 저마다 자체적인 평가 기준을 보유하고 있을 것이다. 그들의 결과물과 별반 다르지 않을지 모르지만, 내 관점에서 이론을 정리하고, 정의하는 작업을 해보려 한다.

기존의 관점을 확장-축소하여 평가 항목의 범주를 재정의하면 새로운 시각으로 정립할 수 있다. 고맙게도 우리에겐 다양한 이론적 기반을 제공해 준 선구자들이 있다. 이를 토대로 서비스 특성(비즈니스 관점), 디바이스(매개체 관점)와 사용자 경험 중심(User centered)으로 융합한 통합적 평가 프레임워크를 제시하고자 한다. 무조건 적으로 지켜야하는 것이 아닌, 상황에 맞춰 선택적으로 적용할 수 있는 툴킷의 형태로 정리하고자 한다.

총체적 경험관점

시대의 변화에 따라 UX의 개념과 범주도 진화했다. 초기에는 PC 기반의 사용자 인터페이스와 상호작용에 중점을 두었으며, 이후 모바일 기기의 확산으로 제한된 화면에서 많은 정보를 효율적으로 표현하고, 터치 기반의 인터랙션 설계가 핵심이 되었다. 그 다음 단계에서는 다양한 형태의 디바이스가 일상 전반에 확산되면서 사용자 컨텍스트를 고려한 디바이스 간 상호작용, 나아가 사용자가 서비스를 경험하는 외부 환경까지 아우르는 총체적인 경험의 흐름이 중요한 고려요소로 부상하였다. 이러한 변화 속에서 ‘사용자 중심 디자인(User-Centered Design)’의 중요성은 더욱 강조 되고 있다.

관련 이론 정리

통합관점의 사용성평가 항목 정리를 위해 학계 및 산업계(실무)에서 자주 인용하는 7가지 대표이론을 선정했다. 다만, 애플이나 마이크로소프트 OS와 같이 특정 소프트웨어에 특화된 가이드라인은 해당 제품의 품질을 유지 및 개선을 위한 목적에 한정되므로 제외하였다.

기능 중심의 상호작용&인터랙션 평가이론 7가지

기능 중심의 상호작용 및 인터랙션 평가에 기반한 7가지 이론을 선정하였다. 각 이론의 핵심 요소는 상단 표에 요약되어 있으며, 보다 구체적인 세부 평가 항목은 별도로 정리해두었다. 해당 내용은 하단 링크를 통해 확인할 수 있다.

7가지 사용성 평가 이론 및 상세평가항목

‘8가지 황금룰’, ‘제이콥닐슨’, ‘인지공학원칙’, ‘인터랙션 디자인 원칙’, ‘대화의 원칙’은 주로 PC기반의 GUI 환경에 초점을 맞춘 평가항목들로 구성되어 있다. 여기에 모바일 사용성과 서비스 특성을 고려한 종합적 결과 도출을 위해 ‘연세대학교 모바일 UI 사용성 체크리스트’ 및 ‘PACMAD+3모델’을 추가로 반영하였다.

연세대 모바일 UI 사용성평가 체크리스트는 기존의 PC, GUI 기반의 항목에서 발전하여 모바일의 제약조건을 반영하였다. 예를들면 화면의 크기, 터치 인터페이스, 이동 중의 사용 경험 등을 고려하여 항목을 구성하였다. 또 2006년 선제적으로 모바일 관점의 평가 항목을 정의했다는 것에 의의가 있다.

PACMAD+3모델 또한 모바일 환경을 반영한 평가체계로 인지부하, 조작성, 기억용이성 등의 요소를 직접적으로 측정할 수 있다. 나아가 서비스 경험 측면에서 사용 중 피로도나 전반적인 만족도까지 포함하여 고객여정 전반의 흐름을 점검할 수도 있는 모델로 평가받는다.

76개의 평가원칙 → 22개로 압축

선정된 7가지 이론의 세부 평가항목은 총 76개이다. 개별 항목들을 피그마를 활용하여 카드소팅 기법으로 시각화하였으며, 유사하거나 중복되는 것들은 통합하고, 유사하더라도 평가 초점이 다르거나 고유한 의미를 갖는 항목은 독립적으로 분류했다. 이 과정에서 분석의 정확도를 높이기 위해 GPT를 분석도구로 병행/활용하였으며, 최종적으로 총 22개의 평가항목으로 정제되었다.

1. 의미통합

표현이 다르지만 본직이 같은 항목은 하나로 통합

ex. 오류예방, 오류처리 오류허용성 → 오류 예방과 복구

2. 중첩개념 제거

비슷한 평가 목표를 가진 항목이 여러 이론에 중복되어 나오는 경우, 하나의 평가 기준으로 정리

3. 고유성 유지

항목간 서로 종속되지 않고 단독으로 평가 가능한가로 구분

의미통합, 중첩개념 제거를 통해 항목을 축소시키는 작업을 하였으나, 실무관점에서 보면 완벽히 고유하다고 볼 수는 없다. 이제부터는 실무 관점에서 구분하고 체계화시키는 추가 작업이 필요하다.

여정 중심으로 주요 항목 정의

UX 평가 항목은 사용자 경험에 기반하여 인지(정보를 이해할 수 있는가), 조작(원하는 기능을 사용할 수 있는가), 피드백/오류(결과가 제대로 나오는가)라는 큰 틀에서 1차적으로 구분하였고, 이러한 맥락의 흐름에서 함께 고려되어야 하는 요소로 정보설계, 반응, 수용(접근성)으로 나누어 총 6가지로 정의하였다.

이러한 구조로 구분한 것은 단편적인 인터페이스 평가에 중심에서 벗어나 사용자의 여정의 흐름을 기본으로 하여 평가척도를 구성하기 위함이다.

사용성 평가 항목을 구분하는 과정에서 각 항목은 고유성을 가지고 있지만 내포하고 있는 개별 평가 항목들의 경계는 명확하지않으며 중복적이다. 특정 항목이 다각적인 시각에서 해석될 수 있어 동일한 항목이 여러 영역에서 중첩되는 현상이 발생한다. 이러한 중첩은 평가 기준이 애매모호하거나 잘못 설정된 것이 아니라, 사용자 경험의 흐름이 복합적이라는 것에 기반하여 반영된 것이다.

이를테면 ‘효과성’이라는 항목은 사용자 목표 달성의 정확성과 효율성을 평가하는 핵심 개념으로, 조작과 피드백에서 각각 다르게 해석될 수 있다.

조작_효과성

사용자가 목표를 달성하는 과정에서 인터페이스가 얼마나 직관적이고 효율적인지, 즉 사용자의 행동이 정확히 이루어지고 오류가 최소화되는지에 초점이 맞춰진다. 예를 들어, 금융 앱에서 송금하기 기능을 사용한다고 가정해보자. 사용자가 송금 버튼을 눌러 계좌를 선택하고 금액을 입력한 후, 확인 버튼을 클릭하는 일련의 과정에서 불필요한 단계가 없고, 오류가 발생하지 않도록 유도된다면 이는 조작에서의 효과성이 확보된 것이다.

피드백_효과성

사용자가 목표 달성 후, 시스템이 제공하는 피드백이 명확하고 즉각적인지를 평가하는 데 초점을 둔다. 금융 앱의 송금 기능을 예로 들면, 송금 완료 후 “송금이 성공적으로 완료되었습니다. 송금 100,000원, 잔액 50,000원”과 같은 구체적인 메시지가 표시되고, 오류 발생 시 “잔고 부족으로 송금이 완료되지 않았습니다. 금액을 조정하거나 잔고를 확인하세요”라는 안내가 즉각적으로 제공된다면, 이는 피드백에서의 효과성이 잘 반영된 예라 할 수 있다.

이처럼 효과성이라는 동일한 항목도 조작과 피드백에서 각기 다른 관점에서 해석될 수 있음을 알 수 있다. 따라서 평가 항목이 중첩되는 현상은 자연스러운 것이다. 오히려 이를 억지로 분리하거나 배제하기보다는, 각 평가항목을 어떤 초점으로 둘 것인지를 명확히 정의하는 것이 더 중요하다.

‘만족도’ 경험의 감성(감정)적인 부분에 대한 평가

사용자 경험 관점에서 평가 체계를 구축하기 위해서 ‘만족도’를 추가할 필요가 있다.

사용자가 서비스를 이용하면서 느끼는 만족도를 통해 서비스에 대한 정서적 반응과 심리적인 경험을 포착할 수 있다. 또 서비스의 어떤 여정에서 문제가 되는지 빠르게 파악이 가능하다.

예를 들어, 송금이 성공적으로 완료된 후 “송금이 완료되었습니다.”라는 피드백 메시지를 받았을 때, 사용자는 심리적 안정감을 느낄 수 있다. 반대로 예기치못한 상황에서 오류 메시지가 지나치게 경고적이거나, 구체적 해결 방안 없이 “오류가 발생했습니다”라는 모호한 메시지로 끝난다면, 사용자는 불안감이나 좌절감을 느낄 수 있다.

만족도에 대한 평가는 단순한 기능적 오류를 발견하는 것에 그치지 않고 사용자의 감정적 반응을 수치화하거나 서술형 피드백으로 수집함으로써, 정량적 평가가 놓치는 정성적 인사이트를 보완할 수 있다.

정리

사용성 평가 항목의 기준을 마련하고자 기존의 이론을 취합하고 정리한 과정에서 나온 결과는 다음과 같다.

① 인지 ②반응 ③정보설계 ④수용 ⑤조작 ⑥오류회복
항목별 만족도, 접근성 관련 영역은 포괄적 항목에 해당하여 문항으로 포함

나는 좀 더 세분화된 평가 항목을 수립하기 위해 6가지로 기준을 마련하였으나, 서비스에 따라 크게 3가지(인지-조작-오류)으로 그 기준을 변형하여 사용해도 무방하다. 평가자가 어떤 관점에서 서비스를 바라보고 분석할지에 따라 설정 항목은 유연하게 변경할 수 있어야 한다.

1. 인지

1.1. 인식성(기억보다 인식강조)

사용자에게 필요한 정보를 기억하게 하기보다는 화면상에 명확히 드러내어 인식하도록 하는 설계 방식

1.2.예측가능성

사용자가 시스템을 조작했을 때, 어떤 결과가 나타날지 미리 예측 가능하도록 설계되었는가를 평가

1.3.학습성(도움말 및 학습지원)

사용자가 시스템을 빠르게 익히고 사용할 수 있도록, 적절한 안내와 학습 흐름을 제공하는 설계

1.4.인지부하최소화

사용자가 과도한 기억, 판단, 집중을 요구받지 않도록 정보량, 복잡성, 결정 부담을 줄이는 설계가 되어 있는가?

1.5.이해가능성

이해 가능성은 “가르치지 않아도 이해되도록 설계되었는가”라는 질문이다.

기능 구조 + 표현 방식 + 흐름의 직관성이 모두 포함

2. 반응성

2.1.효과성

시스템이 사용자 목적에 부합하는 결과를 정확하게 제공하는 정도

2.2.반응속도 최적화

시스템이 빠르고 일관되게 반응하여 흐름을 끊지 않는 정도

2.3.시스템 상태피드백

시스템 상태 피드백은 “속도”가 아니라 사용자가 불확실하지 않도록 ‘신호’를 주는 것이 핵심

3.정보설계

3.1.심플함

정보, 기능, 시각 요소가 불필요하게 과하지 않고, 본질에 집중되었는가

3.2.일관성

단순 반복이 아니라, 사용자가 배운 것을 기대하고 사용할 수 있는 환경을 유지하는 설계

3.3.정보명확성

사용자에게 정확한 의미와 목적을 분명히 전달하는지 평가

3.4.정보조직화

화면 안의 정보가 명확한 시각적 구조를 가지며, 사용자의 시선 흐름과 인지 순서에 따라 우선순위가 잘 드러나도록 설계

4.수용성

4.1.접근성과 보편성

누구든지 쉽게 시스템을 사용할 수 있도록 설계된 기능적·문화적 포용성

4.2.발견용이성

기능이나 정보가 감춰져 있지 않고 자연스럽게 노출되어 쉽게 발견될 수 있는 설계

4.3.현실성

시스템이 사용자의 정서, 상황, 기대 등을 이해하고 맞춰주는 설계

5. 조작용이성

5.1.사용자 통제와 자율성

사용자가 시스템의 흐름과 기능을 주도적으로 조작할 수 있도록 하는 자유도

5.2.효율성과 유연성

시스템은 초보자에게도 쉽게, 숙련자에게는 더 빠르게 사용할 수 있어야 하며,다양한 사용자 수준에 따라 효율성과 유연성을 함께 제공

5.3.기본값 설정

합리적인 초기 상태를 제공하여 사용자가 복잡한 설정 없이 바로 작업할 수 있도록 하는 설계

5.4.작업단순화

작업 절차가 복잡하지 않고 최소한의 단계로 구성되어 사용이 쉬운 상태

6.오류회복

6.1.오류예방과 복구

실수 발생 자체를 방지하기 위해 설계가 사전 예방적으로 구성된 정도

6.2.목표 중심 설계

방해 없이, 복잡하지 않게, 바로 목적을 향하도록 설계

6.3.오류율 관리

사용자가 작업 수행 중 실수를 얼마나 자주, 얼마나 심각하게 경험하는지,

그리고 시스템은 그것을 어떻게 줄이고 관리하는지 평가

위의 6가지 항목을 기준을 세부항목을 두고, 각각 그 안에서 서비스와 관련된 질문들을 작성한다.

여기에 항목별 가중치를 두어 평가표를 도출하고, 점수화한다.

휴. 참 별거 아닌것 같으면서도 너무 무거운 짐덩어리였다...

내 나름 그래도 한 번 정리를 마쳤다.

정리한 자료는 요청하는 사람에게 링크로 공유할 수 있습니다.

keyword

작가의 이전글금융권 UX의 현실어느 UXer의 업무 탐방기작가의 다음글