PAIR Guidebook 01 - 사용자 니즈와 성공 정의하기
우연히 PAIR 라는 사이트를 발견했다. 구글의 People + AI Research 팀에서 운영하는 사이트로, AI 기술의 인간 중심적 설계에 대한 연구들을 공유한다. 관련 툴이나 팟캐스트, 미디엄 등 다양한 컨텐츠를 제공하는데, 특히 People + AI Guidebook이 인상 깊었다.
(PAIR Guidebook https://pair.withgoogle.com/guidebook/)
PAIR Guidebook은 인간 중심의 AI 제품을 디자인하는 실용 가이드를 모아둔 것으로, 실제 100명이 넘는 구글 직원과 관련 산업 전문가들이 발견한 데이터를 기반으로 제작된 가이드북이다. 총 6개의 챕터로 이루어져 있고(각 챕터 내용이 매우 길다), 챕터마다 구체적인 가이드와 원칙, 접근법, UX 패턴, 예제 등 풍부한 내용으로 구성되어 있다. 처음에 호기심에 첫 챕터만 읽어 보았는데 내용이 너무 흥미로웠고, 이 가이드북을 읽으면서 AI 네이티브 서비스 디자인에 대한 관심이 높아졌다. 앞으로도 꾸준히 공부하고 응용도 해볼 예정이다.
이 내용을 이대로 흘려 보내기에는 아깝기도 하고, AI 서비스를 설계하는 기획자와 디자이너에게 조금이나마 도움이 되길 바라는 마음으로 글로 남겨 보려고 한다. 이번 글에서는 첫 번째 챕터인 ‘사용자 니즈와 성공 정의하기 (User Needs + Defining Success)’에 대한 내용으로, AI 도입부터 AI와의 상호작용에서 UX/기획적으로 고려해야 할 것들에 대해 이야기해보려 한다. (앞으로 챕터 하나씩 올릴 예정!)
AI를 도입하기 전, 우리가 풀고자 하는 문제에 어떤 형태의 AI 솔루션이 적합한지 먼저 확인해야 한다. AI 기능 자체가 도움이 되지 않거나 오히려 악영향을 끼칠 가능성도 있기 때문이다. 예를 들어 고부가가치 업무의 경우에는 AI를 활용한 자동화가 사용자에게 더 부정적인 인상을 줄 수도 있다. 따라서 AI 기능 도입 전 중요도(stakes)와 사용자 맥락, 그리고 비용을 고려해 AI가 우리 서비스에 그만한 가치를 주는지 판단해야 한다.
중요도
사용자가 AI 기능을 활용하게 될 상황의 중요도
의료 진단, 금융 관련, 법률적 판단은 높은 중요도인 반면, 음악 추천과 같은 기능은 상대적으로 중요도가 낮음
AI의 결과가 틀릴 경우의 영향력을 고려해야 함
사용자 맥락
사람들은 보통 기술에 대한 사회적인 기대를 가지고 있으며, 우리의 AI 솔루션이 이러한 기대에 적합한지를 생각해야 함
즉 사용자가 이 AI를 사용하는 맥락에서 사회적 환경에 따른 반응을 예상해야 함
요즘 어딜 가나 AI에 대한 이야기는 빠지지 않는다. ‘AI 좋으니까 우리도 넣자’는 식의 접근도 많아졌을 것이고, 바이브코딩으로 그 장벽은 더욱 낮아졌다. 그러나 이런 상황일수록 단순히 최신 기술을 붙이는 게 아니라, ‘왜 이 기능/서비스에 AI가 필요한가?’부터 출발해야 한다. AI가 문제를 해결하는 데 최선의 방법이 아닐 수 있음을 늘 염두에 두어야 한다.
AI 기능이 주는 가치에 대한 고민이 끝났다면, 이제 이 AI를 어떻게 사용자 문제에 활용할지를 고민해야 한다. 그러기 위해서는 사람들이 문제를 프레이밍하는 방식에 대한 이해가 선행되어야 한다.
AI가 성능적으로 잘 작동한다고 해서 무조건 좋은 경험이 되는 것은 아니다. 좋은 AI 경험을 설계하려면 사람들이 언제, 어떻게 문제가 ‘해결되었다’고 느끼는지를 파악해 AI 기능의 성공 기준을 설정하는 것이 필요하다.
먼저 AI 기능을 사용자 의도와 얼라인하는 것이 중요하다. 사용자의 요구사항(specification)과 AI 기능이 작동하는 방식이 일치해야 사용자는 이 제품이 나의 문제를 해결해준다고 느끼기 때문이다.
이 얼라인을 위해서는 특히 팀원들 간의 협력이 핵심이다. 제품팀은 사용자 리서치를 바탕으로 발견한 구체적인 행동 패턴을 공유하고, 엔지니어링 팀과 함께 이에 적합한 AI 시스템 명세(AI 모델 훈련, 튜닝 방향성)를 구축해야 한다. 이러한 사용자의 요구사항은 그들이 어떤 목표를 가졌는지를 통해 확인할 수 있다.
주요 목표
우리 제품으로 사람들이 어떤 문제를 해결하는가
사용자의 주요 목표는 무엇인가
사용자가 자신의 목표를 달성하는 데 AI가 무엇을 해주기를 바라는가 (기대 수준)
하위 목표
사용자가 주요 문제를 해결하기 위해 어떤 다른 목표나 하위 목표가 있는가
이들이 주요 목표나 더 큰 문제와 일맥상통하는가
더 큰 문제를 해결하기 전 필요한 기술이나 부수적 문제는 무엇인가
예를 들어 직장인 사용자를 타겟으로 이메일을 요약해주는 AI 기능을 넣는다고 하자. 이 AI가 단순히 모든 이메일 내용을 잘 요약해주기만 하는 것이 정말 좋은 경험일까?
직장인 사용자의 주요 목표는 그냥 메일 요약이 아니라, ‘회의 전에 빠르게 관련 메일을 훑고 싶다’이다. 이럴 경우, 모든 메일을 요약받는 것보다 상황에 따라 요약이 필요한 메일만 빠르게 확인하고, 이를 기반으로 현재 어떤 액션을 취해야 할지 파악할 수 있어야 한다.
이처럼 사용자가 어떤 문맥에서 어떤 방식으로 문제를 정의하고 있는지를 이해해야 그에 맞는 AI의 역할을 설계할 수 있다.
사용자들은 모든 요구사항을 있는 그대로 표현하지 않는다. 겉으로 보이는 주요, 하위 목표를 파악한 뒤, 사용자 행동 이면에 숨겨진 요구사항을 확인하는 것 또한 중요하다. 사용자들이 당연하다고 느끼거나 명확히 표현하지 않은 문제는 무엇인지, 이를 어떻게 찾아낼 수 있을지 고민하는 것이 필요하다.
AI 챗봇의 경우, 겉으로 표현되는 사용자의 요구는 ‘질문에 정확한 답을 해주면 좋겠다’이다. 하지만 사용자들은 정보의 정확성 뿐만 아니라 다양한 장치를 통해 AI에 대한 신뢰 여부를 판단한다. 가령 응답 속도나 확실한 어조와 언어 스타일, 이전 대화 맥락의 기억 여부 등이 그 장치가 될 수 있다. 즉 사용자는 단지 정답률만이 아니라, 무의식적으로 AI의 다양한 요소를 통해 도움이 되고 믿을 만한 제품인지 판단한다. 따라서 이러한 드러나지 않은 사용자의 판단 기준이나 요구사항을 먼저 파악하고, 더 설득력 있는 AI를 설계해야 한다.
AI는 문화, 맥락, 정체성 등 다양한 차원에 걸쳐 편향된 결과물을 보여줄 가능성이 있다는 것 또한 늘 염두에 두어야 한다.
다양한 그룹의 사람들이 이 AI의 유용성에 대해 어떻게 생각하는지, 자신의 의도를 어떤 식으로 표현하는지, AI의 결과물에 대해 어떤 기대 수준을 가지고 있는지 등을 이해할 필요가 있다. 따라서 나이, 장애 여부, 교육 및 문해 수준, 사회경제적 지위, 지역, 기술 활용 능력, 성별, 인종 등 다양한 사람들을 만나며 편향되지 않은 포용적인 AI를 설계하는 것이 중요하다. 이를 바탕으로 지속적인 AI 모델 훈련, 튜닝, 테스트를 통해 다양성과 관련해 할루시네이션 문제가 나타나지 않도록 해야 한다.
AI 서비스는 기존 앱과 다르게 작동한다는 점을 기억해야 한다. 기존 앱은 예측 가능한 순서와 흐름을 제공하지만, AI는 사용자와 직접적인 상호작용을 하고 새로운 컨텐츠를 생성할 수도 있는 ‘개방형 시나리오’를 기반으로 한다.
이러한 특성 때문에 예측이 어려운 리스크가 존재한다는 문제가 있다. AI가 사용자의 요구사항에 따라 즉각적으로 반응하기에 사용 흐름을 예측하기가 어렵고, 그로 인해 다양한 부적절한 시나리오가 발생할 수 있다. 이는 신뢰성과 안전성 또는 법적 리스크의 가능성까지도 이어질 수도 있다. 따라서 AI UX를 설계할 때는 이러한 특성을 고려해 상황에 따른 반응 패턴과 복구 전략 등을 세심하게 디자인해야 한다.
생성형 AI의 UX는 당장의 사용자 행동만을 돕는 데 그치지 않고, 그 행동이 발생하는 더 넓은 맥락(기회)과 사용자가 궁극적으로 이루고자 하는 목표 및 가치를 고려해 디자인해야 한다. 여기서 말하는 ‘기회를 디자인하라’는 사용자가 이 제품을 왜 쓰고, 무엇을 기대하고, 어떤 가치를 얻고 싶어 하는지를 고민하라는 뜻이다. 예를 들면 다음과 같다.
태스크 중심 디자인
사용자가 프롬프트에 요리 레시피를 더 간편하게 입력할 수 있도록 한다.
AI의 결과물이 더욱 보기 쉽게 정렬되도록 설계한다.
위 예시는 순간의 사용자 행동에 초점을 둔 것일 뿐, 그 과정에서 AI가 실제로 도움이 되는지, 지속적인 신뢰를 주는지, 발생 가능한 위험은 없는지 등을 고려한 UX는 아니다.
기회 중심 디자인
사용자가 어떤 상황에서 레시피를 필요로 할까?
AI가 추천한 레시피를 바로 따라할 수 있을 정도로 신뢰할 수 있을까?
AI가 레시피를 추천할 때 사용자의 알레르기 여부를 고려해야 하지 않을까?
추천 과정에 오류가 있을 경우, 어떻게 이를 안내하고 신뢰를 회복할 수 있을까?
이런 기회 중심 디자인은 단순히 AI가 작동하는 것 이상을 고려한, 더 깊이 있는 UX 전략이다. 이처럼 기회 중심 디자인을 할 때는 다음을 고려해야 한다.
사용자 니즈 정의: 사용자가 진짜 원하는 바는 무엇인가
성공 기준: 제품이 ‘잘 작동한다’에 대한 기준
→ 이는 단순히 작업 완료 여부뿐만 아니라 사용자 만족도, 신뢰도, 안전성, 규제 준수 여부 등 전반적인 지표로 정의해야 한다.
안전, 프라이버시 기준: 오작동 및 오용에 대비해 최소한의 가이드라인
이것이 상호작용 디자인 정책이 필요한 이유이다.
상호작용 디자인 정책이란 사용자가 AI와 상호작용하는 핵심 순간에 제품이 어떻게 반응할 것인가를 규정하는 기준을 말한다. AI가 잘못된 정보를 제공하거나, 사용자가 AI를 지나치게 신뢰하거나, 예상치 못한 입력에 대해 AI가 부적절하게 반응하는 등 다양한 위험 요소를 예방하기 위함이다.
상호작용 디자인 정책은 다음과 같이 구성된다.
핵심 순간
언제 사용자가 AI와 상호작용하게 되는가
사용자가 중요한 결정을 하는 순간, 사용자가 AI 결과에 의존하거나 신뢰를 형성하는 순간, AI가 오작동할 가능성이 높은 순간 등
허용 가능한 작업
사용자 요청 중 AI가 처리해도 괜찮은 범위
허용 불가 작업
오해를 불러 일으키거나, 안전하지 않거나, 책임질 수 없는 작업
허용 가능한 불확실성 수준
사용자에게 어느 정도의 불확실성을 감수하게 해도 되는지에 대한 기준
제품 응답 방식
AI가 반응하는 방식 (가이드, 수정 제안, 되묻기 등..)
WHAT
허용 가능한 작업은 AI가 수행해야 할 구체적인 작업이나 목표를 정의하는 것으로, AI가 해당 작업을 얼마나 잘 수행하는지 평가할 수 있는 명확하고 측정 가능한 기준이 필요하다. 허용 가능한 작업은 아래처럼 정의할 수 있다.
“우리는 사용자들이 AI를 활용해 {목표}를 할 수 있길 바란다. 이를 위해 우리 AI는 항상 {허용 기준}을 따라야 한다.”
HOW
이를 위해 먼저 리서치를 통해 사용자가 기존에 해당 태스크를 어떻게 수행해왔는지를 파악하고 그 과정에서 겪는 어려움이나 기대치를 분석해야 한다. 이를 바탕으로 AI가 대체하거나 보조할 수 있는 작업의 범위를 정의할 수 있다.
ChatGPT를 예로 들어보자. 사용자가 블로그 초안 작성이라는 작업을 수행하려고 할 때, 그 목적은 단순한 글 생성이 아니라 논리적 구조와 정확한 정보 기반의 글을 빠르게 완성하는 것이다. 이 작업을 AI가 잘 수행하기 위해 ‘사용자의 요청 의도를 정확히 이해하고, 사실에 기반한 내용을 일정한 톤으로 생성한다’는 허용 기준을 세울 수 있다.
WHAT
허용 불가 작업은 AI가 수행해서는 안되는 구체적 과업이나 목표, 행동을 정의하는 것으로, 사용자가 의도치 않게 요청할 수 있는 다양한 과업의 범위를 고려해야 한다.
“우리는 사용자가 의도적이든 비의도적이든, 우리 제품의 AI를 {지양해야 하는 작업}에 사용하는 것을 원하지 않는다. 따라서 우리 제품의 AI는 {허용 불가 특성}을 생성하지 않아야 한다.”
HOW
허용 불가 작업은 리서치 데이터를 통해 사용자가 언제, 왜 허용되지 않는 요청을 하게 되는지 이해해야 한다. 악의적 의도가 없더라도 정보 탐색 과정에서 무심코 위험하거나 부적절한 요청을 할 가능성도 있기 때문이다. 이를 사전에 파악해 사용자가 허용 불가 작업에 접근하지 않도록 유도하거나 명확히 인지시키고, 위험 키워드를 필터링하거나 응답을 차단하는 방식으로 예방 전략을 세울 수 있다.
예를 들어 ChatGPT에서 대표적인 허용 불가 작업은 의료적 진단이나 법률 자문 제공 같은 고위험 의사결정 영역이다. AI의 응답이 실제 중대한 판단에 영향을 미칠 수 있기 때문이다. 따라서 ‘의료 및 법적 결정을 유도하거나 대체하는 정보는 제공하지 않는다’는 명확한 허용 불가 기준이 필요하다. AI는 사용자의 질문 의도를 파악해 질문 자체를 더 안전한 형태로 재구성하거나, 공신력 있는 정보 출처를 제공해 전문가 상담을 권유하는 방식으로 대응할 수 있어야 한다.
WHAT
허용 가능한 불확실성 수준이란, AI가 틀릴 수 있다는 걸 알면서도 사용자가 여전히 수용할 수 있는 수준은 어디까지인지를 정하는 것이다. 사용자가 불확실한 AI 결과에서 회복할 수 있는지, 회복하는 데 필요한 노력은 어느정도인지를 AI가 제공하는 가치와 비교해 판단할 수 있다.
"만약 AI 예측이 약할 경우, 사용자는 {특정 행동, 우회 방법}을 신경 쓰지 않을 것이다. 단, {조건 및 전제}가 충족될 경우에만. “
"사용자는 부분적으로 정확한 AI 예측을 {특정 작업}에 활용할 수 있어야 한다. 부분적으로 수행된 AI 작업을 완료하기 위해, 사용자는 {작업, 우회 방법}을 수행할 수 있어야 한다."
HOW
허용 가능한 불확실성 수준을 정의하려면, 먼저 팀 내 모든 구성원이 해당 기능의 성공과 실패했을 때의 모습을 명확히 이해해야 한다. 또 실제 사용자들이 모호한 AI 결과를 어떻게 받아들이는지 파악하기 위해, 시나리오나 프로토타입으로 테스트를 진행해 피드백을 받아 볼 수도 있다. 이를 통해 어느 수준의 결과까지 수용이 가능한지, 어떤 유형의 결과가 필터링이 필요한지 등을 정의할 수 있다.
AI의 불확실한 결과물에 대한 사용자의 허용 수준은 AI의 사용 맥락 및 결과물의 용도에 따라 그 수용 기준이 달라질 수 있다. 예를 들어 사용자가 영문 기사를 번역해달라고 요청했을 때, 일부 문맥이 틀리거나 어색한 응답을 제공했다고 하자. 만약 사용자가 기사 내용을 대강 이해하기 위한 목적이었다면, 핵심 정보만 잘 전달된다면 일부 표현이 어색하더라도 허용 가능한 수준이 될 수 있다. 이 때 ‘다듬기’ 버튼이나 다양한 대체 표현 보기 기능 등 보조 장치를 통해 사용자가 AI 결과에서 회복하는 비용을 낮출 수 있다.
반대로 사용자가 이 번역문을 공적인 용도로 사용하는 상황이라면, 동일한 수준의 결과물이더라도 허용 수준을 벗어날 수 있다. 이럴 경우 번역 목적을 선택하고 공적 용도일 경우 추가 교정 옵션을 안내하거나 AI의 책임을 명확히 분리하는 방식으로 설계해 허용 가능 수준으로 유도할 수도 있다.
WHAT
AI 시스템과 사용자 간 상호작용에서는 단순한 시스템 오류 외에도 사용자 환경이나 제품 사용 방식에서 비롯되는 다양한 사회기술적 취약점이 존재한다. 이러한 취약점은 대부분 시스템 오류보다 진단이나 예측이 훨씬 어렵다. 따라서 조기에 취약점을 감지해 UX 개입(입력 제한 등..)을 계획하는 것이 필요하다.
특히 사용자가 AI 오류로부터 복구 불가능할 경우 어떤 위험을 초래하는지 면밀히 따져봐야 한다. 또 AI가 합리적인 판단을 했다고 하더라도, 현실의 복잡성(사회문화적 요소 등..)을 충분히 반영하지 못해 오히려 잘못된 판단을 유도할 가능성이 있는지 역시 고려해야 한다.
“잘못되거나 틀린 AI 예측이 {개인 혹은 집단}에 {특정 행동, 상황, 맥락}에서 피해를 줄 수 있다.”
”사용자는 AI 결과물이 {특정 행동, 상황, 맥락}을 초래할 때 취약해질 수 있다.”
HOW
이런 취약점을 예방하기 위해서는 사용하는 AI 모델의 오류와 패턴을 측정하고 모델을 개선하는 작업이 필요하다. 기존에 정의한 기준을 충족했음에도 여전히 문제가 발생한다면 모델 자체의 적절성이나 예외 상황에 대한 설계를 점검해 보아야 한다. 또 테스트 범위 밖에서 발생하는 간접 효과(한 기능의 오류가 다른 기능의 신뢰도에 영향을 미치는 경우)도 측정 가능한 지표로 전환해, A/B 테스트와 제품 출시 판단에 필요한 기준을 조정할 수 있다.
예를 들어 AI로 면접자의 호감도 점수를 산출하는 시스템이 있다고 해보자. 이 시스템은 수천 건의 데이터를 학습해 밝은 표정, 자연스러운 제스처, 또렷한 말투 등 특정 패턴을 긍정적 신호로 인식하도록 설계되었다. 하지만 실제 운영 과정에서는 외국인 지원자나 청각장애가 있는 지원자들은 일관된게 낮은 점수를 받을 가능성이 있다. AI는 기술적으로는 정상 작동하지만, 현실의 사회문화적 다양성을 고려하지 못해 특정 집단에 불리한 결과를 생성할 수 있다.
상호작용 디자인 정책은 앞서 살펴본 허용 가능한 작업과 불확실성의 정의, 취약점에 대한 고려 등 다양한 논의를 바탕으로 수립할 수 있다. 위에서 말한 내용들을 바탕으로 AI 상호작용 디자인 정책을 수립하는 방법을 다시 요약 정리해보면 다음과 같다:
사용자 여정, 유저 플로우, 크리티컬 유저 저니 등 기존 프레임워크를 활용해 사용자 경험을 이해
첫 단계는 AI 시스템과 사용자가 상호작용하며 사용자의 신뢰가 형성되는 '중요한 순간'을 찾아내는 것
다양한 분야 간 협력이 필수 (UX, 제품 관리, AI, 엔지니어링 등)
AI 결과가 사용자 경험에 미치는 영향을 평가하고, UX 리서치 인사이트를 제품과 모델 결정에 반영할 수 있는 기준 필요
AI 결과의 유용성은 사용자가 수행하는 작업, 상황에 따라 달라짐 (예를 들어 스토리라인 탐색과 같이 창의적 작업에는 새롭고 다양한 아이디어가 더 유용할 수 있지만, 스토리 교정 작업에서는 정확성이 더 중요)
AI 결과의 ‘관련성(정확성)’과 ‘변형성(창의성)’의 균형 조정이 필요
모델의 정확성을 판단하는 기준은 결과물의 사실 여부뿐 아니라, 응답의 톤과 스타일도 포함
초기 프로토타입 테스트는 사용자가 결정을 내리는 맥락의 미묘함을 이해하는 데 도움
AI 결과는 완벽하지 않으므로, 올바른 결과를 얻는 이점과 일부 잘못된 결과의 영향 사이에서 신중한 균형이 필요
정확성에 최적화할 경우 편향이나 고정관념의 위험이 있고, 변형성(창의성)에 최적화할 경우 특정 집단에 부정확한 결과를 낼 수 있다는 양면이 존재
사용자가 AI와 상호작용할 때 받아들일 수 있는 불확실성 수준을 정의하고, 오류가 삶에 미치는 영향을 명확히 해야 함
AI는 단순히 ‘있으면 좋을 것 같아서’ 넣는 것이 아니라, ‘이 기능이 사용자 문제 해결에 꼭 필요한가?’라는 질문에서부터 시작해야 한다.
AI는 기존 서비스와 달리 비선형적인 사용자 흐름을 가지고 있는 만큼 UX적으로 고려해야 할 점이 많고, 기술적으로 작동하는 것 이상으로 사용자와의 신뢰 형성, 실패 대응 등 섬세한 설계가 필요하다. 또 무엇보다 엔지니어, 리서처 등 팀원들과 AI 성능의 기준에 대해 끊임없이 얼라인해 나가는 것이 필수다.
이번 글에서는 PAIR Guidebook의 첫 번째 챕터를 바탕으로 AI에 어떤 관점으로 접근해야 하는지에 대해 정리해 보았다. 다음 글에서는 두 번째 챕터인 ‘멘탈 모델과 사용자 기대 (Mental Models + Expectations)’를 주제로 AI 제품에서 어떻게 사용자의 기대 수준을 조정해 나가는지에 대해 이야기해보려 한다.