[구글의 AI서비스기획] 사용자 니즈 + 성공 정의하기

구글 PAIR 가이드 1장

Jan 11. 2021

이 글은 '20년 12월에 작성된 글입니다. 기존에 사용하던 블로그에서 가지고 왔습니다. :)

구글에 AI서비스 R&D 조직이 있다는 것을 알고 계셨나요?

저는 이번에 사내 강의를 들으면서 처음 알게 되었는데요, 구글뿐만 아니라 Microsoft에서도 AI 서비스 연구 조직을 설립해서 다양한 연구를 진행하고 있습니다. Tech 기업들이 기술 개발에 투자하는 만큼 인간-AI interaction 연구에도 투자하는 추세인 것 같습니다.

구글의 People + AI Research (줄여서 PAIR) 조직은 AI 프로덕트 (서비스, 기술)를 생산적이고, 즐겁고, 평등하게 만들기 위한 인간 중심의 연구를 진행합니다. PAIR는 UX 전문가들이 AI 대해 인간 중심적 접근을 할 수 있도록 가이드라인을 만들었습니다. 구체적인 내용은 "People + AI 가이드북"으로 제공하고 있습니다. 서비스, UX 기획자들을 위한 AI서비스기획 가이드 정도로 이해할 수 있겠죠? 가이드라인은 웹사이트에서도 읽을 수 있고, 공부하기 편하기 PDF 파일로도 업로드되어 있습니다.

AI 기술이 발전하고 기업에 적용이 확대되면서 AI 기획자들이 늘어날 것입니다. AI 기획은 신생 분야이기 때문에 공부할 수 있는 자료가 풍부하지 않습니다. 그러므로 Google의 People + AI 가이드북은 이미 AI 기획을 하시는 분이나 앞으로 하시고 싶은 분들 모두에게 공부하기 좋은 자료입니다. 저는 AI서비스기획자로 일하면서 같은 분야에 있는 사람들을 만나기 어려웠는데 가이드라인으로라도 목소리를 들으니 공감이 되기도 하고 배우는 것도 많았습니다.

구글 People + AI 가이드북을 읽기 편하게 한국어로 요약 & 번역하여 공유합니다. 이번 글에서는 첫 장 "사용자 니즈 + 성공 정의하기"를 살펴보겠습니다. 그럼 같이 공부해볼까요? :)

[구글 People+AI 1장] 사용자 니즈 + 성공 정의하기
(User Needs + Defining Success)

Photo by Markus Winkler

"최고의 AI라도 사용자에게 특별한 가치를 제공하지 못하면 실패한 것입니다."

1장 개요

- AI가 사용자의 어떠한 문제를 해결해줄 수 있을까?

- AI가 어떻게 일을 자동화하거나 사람의 능력을 강화시켜줄 수 있을까?

- 보상 기능이 AI를 적절한 방향으로 최적화시켜줄 수 있을까?

사용자 니즈에 맞는 서비스를 만드는 것이 AI 서비스의 첫 번째 단계입니다. 사용자 니즈를 발견했다면 이를 해결하기 위해 AI가 특별히 필요한 것인지 평가합니다. 그 후, 서비스 경험이 "자동화 (automate)" 되어야 하는지 "강화 (augment)"되어야 하는지 판단합니다. 마지막으로, 모든 사용자에게 좋은 경험을 제공하기 위해 장기간 동안 보상 기능을 평가합니다.

1. 사용자 니즈와 AI가 잘하는 것의 접점 찾기

Find the intersection of user needs & AI strengths

Photo by Maxim Ilyahov

1.1 일단 사람들이 실제로 도움을 필요로 하는 문제를 찾으세요.

1.2 현재 서비스의 흐름(workflow)을 따라가 보세요.

- 따라가다 보면 서비스의 어떤 부분을 자동화/강화해야 할지 알 수 있습니다.

- 이미 AI 서비스가 있다면 조사를 통해 사용자가 자동화된 부분에 대해 어떻게 느끼는지 알아보세요.

1.3 AI가 가치를 더할 수 있을지 판단하세요.

- 서비스에 필요한 기술이 AI로 인해 개선될지 아니면 저하될지 판단해야 합니다.

- rule-base나 경험 기반 솔루션이 AI만큼 기능할 수 있다면 AI가 꼭 필요하지 않습니다.

- 가장 간단한 솔루션이 좋은 솔루션입니다.

- 이럴 때 AI가 더 적합합니다 : 콘텐츠 추천, 미래 예측, 개인화, 자연어 인식, 하나의 클래스를 통째로 인식해야 할 때 (ex. 사진 얼굴 인식), 시간에 걸쳐 변화하며 잘 일어나지 않는 일을 발견할 때 (ex. 신용카드 사기), 특정 분야를 위한 챗봇

- 이럴 때 AI가 적합하지 않습니다 : 예측 가능성이 필요할 때 (ex. 취소 버튼), 정보가 제한적일 때, 오류 비용이 높을 때 (ex. 내비게이션 오류), 투명성이 보장되어야 할 때, 높은 속도와 낮은 비용이 필요할 때, 높은 가치의 일을 자동화할 때

구글 PAIR에서 강조하는 것은 AI가 꼭 필요한 서비스에만 쓰라는 것입니다.

AI 서비스도 본직적으로는 서비스이기 때문에 서비스 자체가 사용자에게 유용해야 합니다. AI로 만들었기 때문에 가치가 만들어지지 않습니다. 따라서 서비스를 구현하는 데에 다른 기술이 더 효율적으로 적용될 수 있다면 그 기술을 사용해야 합니다.

또한, AI는 투명성이나 설명 가능성이 낮습니다.

이러한 특성이 서비스에 치명적일 경우 AI를 사용하지 않는 것이 좋습니다. 예를 들어, 한 가지 기능에 대해 항상 같은 결과가 나와야 할 때, 즉 예측 가능성이 중요할 때에는 AI를 사용하지 않는 것을 추천합니다.

2. 자동화 vs. 강화 결정하기

Assess automation vs. augmentation

Photo by Possessed Photography

AI가 모든 일을 자동화해선 안 됩니다. 사람들이 AI가 하길 바라는 일도 있지만, 직접 하고 싶어 하는 일도 있습니다. 후자에 대해서는 AI가 사람들이 더 빠르고 효율적으로 심지어는 더 창의적으로 일을 할 수 있게 돕습니다. 제대로만 한다면 자동화와 강화가 함께 기존에 복잡했던 절차를 개선할 수 있습니다.

2.1 언제 자동화할까 (When to Automate)

- 사람들이 가치가 없다고 판단하고 원하지 않는 일을 자동화합니다.

- 자동화의 효과 : 효율 증진, 인간의 안전 강화, 반복적인 업무 축소, 자동화로 새로운 경험을 제공

- 자동화를 써야 할 때 :

1) 사람들이 그 일을 할 수 없거나 지식이 부족할 때 (ex. 수만 개의 데이터에서 특정 숫자 찾기)

2) 일을 빨리 해야 할 때

3) 재미없고 반복적이고 이상하거나 위험한 일일 때

- 자동화를 하더라도 사람의 감시는 필수이며 개입이 필요할 수 있습니다. (사람의 감시, 개입은 종종 human-in-the-loop이라고 불리죠) 사용자가 AI가 자동화한 부분을 미리 보고, 테스트하고, 수정하고 취소할 수 있게 해야 합니다.

AI서비스 기획을 하면서 공감한 부분입니다.

AI가 자동화를 잘한다고 해도 100% 정확도를 보장할 수 없기 때문에 사람의 감시와 개입이 꼭!!! 필요합니다. AI서비스를 기획하고 운영한다면 사람이 어떻게 AI을 감시하고 보정할 수 있게 할 것인지를 아주 많이 고민해야 합니다.

제가 직접 경험한 AI의 단점과 human-in-the-loop을 운영에 관한 내용은 8월에 작성한 "AI서비스기획이 다른 서비스 기획과 다른 점"에서 보실 수 있습니다.

2.2 언제 강화할까 (When to Augment)

- 어떤 일은 사람들이 자동화하길 원하지 않습니다. 그 보다는 그 일을 하는 자신에게 AI가 "초능력"을 주길 바랍니다.

- 강화의 효과 : 일하는 즐거움 상승, 자동화에 대한 통제감 상승, 사용자의 책임감과 충족감 상승, 노동의 효과 상승, 창의력 향상

- 강화를 써야 할 때 :

1) 사람들이 하기 좋아하는 일 (ex. 예술)

2) 인간의 책임이 중요한 일 (ex. 사회 활동)

3) 위험성이 높은 일 (ex. 파일럿, 의사, 경찰 등 위험하거나 생명과 직결된 일)

4) 사람들이 선호하는 바가 있는데 말로 표현하기 어려울 때 (ex. 방을 꾸미고 싶은 그림이 머릿속에 있는데 말로는 표현하기 어려울 때에는 자동화를 꺼린다.)

AI서비스기획자로서 PAIR가 AI를 바라보는 자세를 배워야겠다고 생각했습니다.

결국 HCI든 PAIR에서 하는 People + AI 리서치든 가장 중요한 것은 "인간 중심"으로 생각하는 것인데 일을 하다 보면 쉽게 잊어버립니다.

AI의 궁극적인 목표는 사람을 대체하는 것이 아니라 사람이 하기 싫은 일은 대체하고, 하고 싶은 일은 도와주는 것입니다. 마음속에 새기고 갑시다.

3. 보상 기능 기획 & 평가하기

Design & evaluate the reward function

Photo by LagosTechie

보상 기능은 AI가 성공과 실패를 판단하는 방법입니다. AI는 보상에 따라 최적화됩니다. 따라서 보상 기능을 어떻게 디자인하느냐는 고객이 경험하는 서비스에 지대한 영향을 미칩니다. 다양한 분야의 전문가들과 소통하고 협력하세요. 이 과정에서 틀린 결과를 최적화하는 AI의 위험을 밝혀낼 수 있습니다.

3.1 허위 긍정 & 허위 부정의 중요도 판단하기 (Weigh false positives & negatives)

AI의 결과는 이진 분류 카테고리 중 하나에 포함됩니다. 이진 분류 체계는 아래와 같이 긍정/부정 X 참/오류로 구분됩니다. AI가 어떻게 맞고 틀릴 수 있는지에 대해 간단한 예시로 설명해 드리겠습니다.

- 긍정 참 (True positives) : AI가 긍정적인 결과를 정확히 예측했을 때

(ex. 사용자가 뛰고 싶을 때 앱이 뛰라고 추천함)

- 부정 참 (True negatives) : AI가 부정적인 결과를 정확히 예측했을 때

(ex. 사용자가 뛰는 것을 원치 않을 때 추천하지 않음)

- 긍정 오류 (False positives) : AI가 긍정적인 결과를 잘못 예측했을 때

(ex. 사용자가 뛰는 것을 원치 않을 때 추천함)

- 부정 오류 (False negatives) : AI가 부정적인 결과를 잘못 예측했을 때

(ex. 사용자가 뛰고 싶을 때 추천하지 않음)

*긍정/부정 참이라는 말은 원래 없는데 영어 사전에서 한국어로 번역된 것을 찾기 어려워서 제가 지어냈습니다..^^;;

PAIR 1장 - 기본 오차 행렬

긍정 오류와 부정 오류 중 어떤 것이 우리 서비스에 더 치명적인지 판단합니다. 예를 들어, 불이 나지 않았는데 잘못 울리는 알람이 불이 났는데도 울리지 않는 알람보다 위험한가요? 두 경우 다 틀린 예측이지만 한쪽이 더 위험하죠. 특정 결과에 신뢰도 지수를 추가하여 부정적 효과를 줄일 수 있습니다.

3.2 정확률과 재현율의 상호보완 이해하기 (Consider precision & recall tradeoffs)

정확률(precision)과 재현율(recall)은 AI 결과의 넓이와 깊이, 그리고 사용자가 접하는 오류의 종류를 나타내는 표현입니다.

좌) 정확률 vs. 우) 재현율

1) 정확률 (precision): "긍정 참" + "긍정 오류" 중 "긍정 참"이 차지하는 비율입니다. 정확률이 높을수록 모델의 어떤 결과든 정답일 확률이 높습니다. 그 대신 부정 오류의 수가 올라가죠. 예를 들어, 러닝 앱이 사용자에게 뛰는 것을 추천했을 때 사용자가 뛰러 나갈 확률은 높지만 그 대신 추천의 횟수가 줄어듭니다. 따라서 추천했으면 사용자가 뛰고 싶었을 때에도 추천을 하지 않는 오류(=부정 오류)가 발생합니다.

2) 재현율 (recall) : "긍정 참" + "부정 오류" 중 "긍정 참"의 비율입니다. 재현율이 높을수록 결과에 정답이 포함되어 있을 확률이 높습니다. 그 대신 긍정 오류의 수가 올라가죠. 예를 들어, 러닝 앱이 사용자가 뛰고 싶지 않을 때에도 추천 알림을 띄울 확률이 높습니다. (=긍정 오류)

정확률과 재현율의 상호관계에 대한 이해를 바탕을 서비스를 디자인해야 합니다. 돌아가는 방법은 없습니다. 사용자가 서비스에 대해 기대하는 바를 충족시키거나 일의 수행 만족도를 높일 수 있는 사분면에 서비스가 위치시켜야 합니다.

인공지능에게 정확률과 재현율을 모두 높일 수 있는 방법은 존재하지 않습니다. 정확률을 높이면 재현율이 떨어지고 재현율을 높이면 정확률이 떨어집니다.

재현율을 높이면 검수 인원이 더 늘거나 해야 할 일이 많아집니다. 따라서 재현율과 정확률을 적정 수준으로 유지시키는 것이 AI서비스기획자가 해야 하는 가장 중요한 일 중 하나입니다. 서비스 측면에서 완성도를 높이는 방향으로 수준을 정하고 개발자와 소통해야 합니다.

제가 하고 있는 서비스를 예로 들자면, 인물 인식의 정확률을 높이면 비디오에서 인물이 등장한 구간을 잘 못 잡아냅니다. 구간 개수가 너무 줄어들어 서비스가 비어 보입니다. 그렇다고 재현율을 높이면 A라는 인물의 구간에 B 인물의 구간이 잡히는 오류가 너무 많이 나옵니다. 서비스 검수 인력이 고생합니다. 따라서 기획자는 개발자, 운영자의 목소리를 듣고 정확률과 재현율이 적당한 수준으로 나올 수 있게 레벨을 지정해야 합니다.

3.3 보상 기능의 결과 평가하기

보상 기능을 평가할 때 고려해야 하는 것 :

1) 포용력을 평가하라 (inclusivity)

- 인종, 성별, 나이, 체형과 상관없이 누구에게나 동등한 서비스를 제공해야 합니다.

- 당신의 데이터셋이 편향을 가지고 있는지 평가하세요.

2) 오랜 기간 관찰하라

- 서비스를 100일, 1,000일 사용해도 처음 사용했을 때와 같이 좋을지 판단하세요.

- 장기적으로 어떤 경험으로 최적화시켜야 할까요?

3) 가능한 위험을 상상하라

- 서비스에서 파급되는 위험 요소들을 상상해보세요.

- AI가 완벽히 최적화되었을 때 사용자와 그들의 가족, 친구, 그리고 주변 사회에 어떤 일이 일어날까요? 상상의 결과는 항상 좋은 방향이어야 합니다.

3.4 부정적 결과 고려하기

AI가 내리는 결정에 부정적 결과는 없는지 감시해야 합니다. 가능한 부정적인 결과와 그것을 해결할 방법을 미리 정해놓는 것이 좋습니다.

예시 :

- 스마트 플레이리스트나 길 추천에 대한 평균 거부 비율이 20%를 넘으면, 머신 러닝 모델을 확인해야 한다.

- 사용자가 앱을 다운 받아서 한 번도 쓰지 않으면 마케팅 전략을 수정해야 한다.

- 사용자가 앱은 자주 없지만 25%만 달리기를 완주한다면 사용자와 대화를 통해 알림 빈도를 수정한다.

서비스가 성숙할수록 서비스의 이해관계자에게 부정적 영향을 미치고 있진 않는지 확인해야 합니다. 그들과 대화를 나누세요. 그 대화를 바탕으로 부정적 결과를 바꿀 수 있는 전략을 세우세요. AI 서비스의 성공, 실패에 대한 특정 기준을 세우고 실패 기준을 넘겼을 때 어떻게 해결할 것인지까지 정하세요.

여기까지 PAIR가 말하는 사용자의 니즈를 파악하고 AI 서비스를 기획하기 위해 필요한 가이드라인이었습니다. 추가적으로 구글에서 worksheet을 제공하고 있습니다. 팀에서 이 worksheet을 바탕으로 서비스를 기획하고 AI를 활용한다면 원하는 결과를 얻을 수 있을 것입니다.

그럼 2장, "데이터 수집과 평가 (Data Collection + Evaluation)"에서 만나요!

[구글의 AI서비스기획] 사용자 니즈 + 성공 정의하기 (구글 PAIR 가이드 1장)

2020.12.08

keyword

[구글의 AI서비스기획] 데이터 수집과 평가매거진의 다음글