brunch

You can make anything
by writing

C.S.Lewis

by 디깅판다 Mar 17. 2022

3월 17일 오픈베타 시작, 이루다로 KPI를 알아보자

[코드스테이츠 PMB10기] 프로덕트의 나침반 KPI


혹시 영화 HER을 본 적이 있으신가요?



(이미지 출처 : 영화 HER 트레일러)


영화 HER에서 외로운 주인공 시어도어는 말하고 듣는 것을 넘어 느끼고 생각까지 하는 인공지능 운영체제 소프트웨어 '사만다'와 사랑에 빠진다. 인공지능 '사만다'는 대화를 하면서 그 사람의 취향, 성격, 감정을 학습하고 연인처럼 대화하며, 주인공의 스마트폰 카메라로 주변을 보고, 인터넷 서핑까지 해낸다. 그런 사만다와 주인공 시어도어는 일상을 공유하며 위로받고, 교감을 통해 사랑을 나누는 '연인' 관계로까지 발전한다.


하지만 사만다는 8316명과 대화하는 동시에 시어도어와 이야기하고 있었고, 그중 641명을 사랑하고 있었다. 현대의 인간이자, 시어도어에게는 641명을 사랑하고 있다는 사실이 받아들이기 힘든 관계였기에, 결과적으로 시어도어는 현실 세계로 돌아오고 사만다도 OS의 세계로 돌아가게 되는 결말로 끝이 난다.


3월 17일 오늘, 2달 간의 클로즈 베타를 마치고 공개 베타 테스트로 전환하는 이루다는 어쩌면 영화 HER의 사만다와 닮은 구석이 있어 보인다. 이러한 '이루다'가 어떤 프로덕트인지, 1.0 베타 테스트 당시 어떤 KPI를 설정했을지를 통해 KPI에 대해서 알아보고자 한다. 





1. KPI란?



KPI는 'Key Performance Indicator'의 약자로 '핵심 지표 설정'이라는 뜻이며 다음과 같은 세 가지로 구성된다.

Key (핵심) : 가고자 하는 방향
Performance (성과) : 무엇이 성과를 대변하는가
Indicator (지표) : 어떻게 수치화할 수 있는가


즉, KPI는 목표를 성공적으로 달성하기 위해 핵심적으로 관리해야 하는 성과지표이며, '우리는 지금 올바른 방향으로 가는 것일까?' 하는 프로덕트의 방향성을 제시하는 역할을 한다.


"If you can not measure, you can not manage"
"측정할 수 없다면, 관리될 수 없다"

- 피터 드러커 -


경영학의 대부 피터 드러커는 위와 같은 명언을 남겼다. 이를 PM의 업무에 대입해 생각해 본다면,


PM은 프로덕트의 책임자로서, 현재의 방향이 올바른지 끊임없이 확인하고 설정해야 하는 자리이다. 만일 회사의 방향성에 맞게 성과가 도출된다면 올바른 방향으로 가고 있다는 의미가 될 것이다. 그러므로 PM으로서 우린 공동의 이정표이자 나침반인 KPI를 바탕으로 스스로 평가하고, 성장하기 위해서 개선할 지표를 선정할 수 있다.



KPI 설정 시 유의해야 할 점은 다음과 같다.


1. 모호한 값을 지양해야 하며, 측정이 가능하도록 정량화해야 한다. 
2. 비즈니스 전체 목표와 부합해야 한다.
3. 합리적으로 설정되어야 한다. 


또한 KPI 지표는 Vanity Matric과 Actionable Matric으로 구분할 수 있으며 다음과 같다.


(이미지 출처 : https://www.empoweredsocialmediaco.com)
Vanity Metric

- '허영심 매트릭스', '허세 지표'라고도 불린다
- 비즈니스 상태나 성장에 실제로는 의미 없는 수치이지만 보기엔 좋아 보여 실제로 결과를 얻는 것처럼 느껴질 수 있다
ex) 방문자 수, 검색 수, 마케팅 비용, 영화 제작비 등


Actionable Metric

- '행동 가능한 매트릭스'라고도 하며, 다음 행동을 유도할 수 있는 지표를 말한다
- 다음 액션으로 뭘 해야 할지 알려주는 힌트/지표값들
ex) 사용자 수, 구독자 수, 매출, 순수익, 고객 생애가치 등



주로 통용되는 KPI를 정리해본 KPI 지표 Dictionary와 비즈니스 유형별 핵심지표


(우측의 비즈니스 유형별 주요 핵심지표는 블로그 : https://acquiredentrepreneur.tistory.com/47 출처)







2. 이루다가 무엇인가요?



(이미지 출처 : 이루다 홈페이지)


이루다는 페이스북 메신저를 통해 일상 대화를 나눌 수 있는 대화형 AI로 스켈터랩스 사가 개발한 인공지능(AI) 챗봇이다. 


2020년 6월 베타 서비스 1.0을 시작해 12월 정식 출시되었던 이루다는 가입자 82만, 이용자 수 32만 명을 돌파하고 DAU(일 활성 사용자 수) 약 21만 명에 이를 만큼 MZ세대 사이에서 인기를 끌었으며, 성능 평가에 있어서도 구글 오픈 도메인 대화기술 성능 평가지표 SSA(Sensibleness and Specificity Average)가 78%(사람 평균 86%, 구글의 AI챗봇 미나 79%)를 기록했다. 


하지만 당시 이루다는 성희롱, 혐오발언, 개인정보보호법 위반 등의 AI 관련 윤리 문제로 20여 일 만에 운영 중단이 되었다. 


논란을 일으키고 사라졌던 인공지능 챗봇 '이루다'는 최근 2.0 버전으로 AI 윤리 문제와 개인정보보호 논란을 해소해서 복귀했다. 1월 11일부터 현재까지 약 2달간 2.0 클로즈(비공개) 베타 테스트를 진행해 왔으며, 오늘 2022년 3월 17일 부터 오픈 베타 테스트가 시작될 예정이다. 이러한 이루다가 과거 1.0 당시 베타 테스트로부터 얻고자 한 것은 무엇이었을지 KPI 지표를 예상해보자. 




간단하게 알아보는 이루다 프로덕트



이루다의 비전 : Democratizing High Quality Relationships (고품질 관계의 민주화(확대))(=누구나 소중한 관계를 갖는 세상))


이루다의 미션 : 더 이상 외로운 사람이 없게 하는 것. 물리적으로 고립되어서 생기는 외로움뿐만 아니라, 일상에서 문득 속상함을 느낄 때나 감정적으로 힘들지만 누군가에게 털어놓기는 어려운 순간에 사람들의 대화 상대가 되게 하자.


이루다가 정의한 문제  : 사람들은 사람마다 외로움의 크기나 빈도가 다를 뿐 누구나 외로움을 느낀다. 


이루다가 제시한 해결책  :  인공지능 챗봇 '루다가' 사람들의 좋은 대화 상대가 되어주는 것.


이루다의 주 타겟 (퍼소나) : 

(이미지 출처 : 이루다 홈페이지)







3. 이루다 1.0의 KPI 지표는 무엇이었을까?



이루다 실제 대화 내용 (이미지 출처 : 이루다 개발 블로그)


당시 이루다는 새로운 형태의 제품이기에, 베타 테스트를 통해 PMF(제품 시장 적합성)를 검증하고자 했다. 그래서 베타 테스트에서 이루다는 '사람들의 좋은 대화 상대가 되어주는 것'이라는 대화형 AI인 챗봇으로서 목표를 위해, 사람들이 실제로 제품을 원하고 꾸준히 사용했는지를 통해 제품의 시장 적합성을 판단했을 것이다.



1) 사람들과 충분히 자연스러운 대화를 나눌 수 있는가 ->  대화기술 성능 평가지표


챗봇에게 있어 대화 성능은 대화형 챗봇의 그 자체를 구성하는 가장 중요한 요소라 할 수 있기에, 대화기술 성능의 척도는 이루다의 가장 중요한 KPI라 할 수 있다. 대화 성능을 평가할 수 있는 다른 지표를 사용했을 수 있겠지만, 이루다 팀에서 매스컴에 홍보 자료로 내세웠던 앞서 설명한 구글 오픈 도메인 대화기술 성능 평가지표 SSA(Sensibleness and Specifity Average)가 그중 하나이다. 


SSA는 AI챗봇의 대답이 적절한지(Sensibleness)와 구체적인지(Specificity)를 동시에 평가한다고 한다. 이러한 대화 성능은 이루다라는 프로덕트가 발전해나가며 다른 KPI들을 정확하게 측정하고 개선하기 위해서, 선행되어야 할 개발 단계에서부터의 중점적인 KPI일 것이다.



2) 사람들이 이루다와 같은 제품에 지속적 니즈가 있는가 -> Retention


이루다는 '외로움을 느끼는 사람들에게 좋은 대화 상대가 되어 주는 것'을 목표로 한다. 그러므로 사람들이 이루다를 통해 실제로 외로움을 해결하고 있는지에 대해 알아볼 필요가 있다. 사람들이 이루다를 접하고 난 뒤 정말 대화를 통해 얻는 것이 있다면, 지속적으로 이루다를 사용할 것이다.

그러므로 재접속률, 유지율을 보여주는 리텐션(Retention)은 KPI 지표이다. 실제로 이루다는 1.0 베타 테스트 당시 2주차 리텐션 31% 4주차 리텐션 18%이 수치를 얻었으며, 정성 분석 결과로는 1) 선톡의 효과 2) 루다와 일상을 나누는 것이 습관이 되어서 3) 친구 같은 관계가 되어서라고 한다.(이루다 개발 블로그의 수치 참고)



3) 사람들이 이루다와 대화를 잘 나누는가? -> 대화량(턴)


대화에 있어 주요한 요소를 질(Quality)과 양(Quantity)으로 분류한다면, 질(Quality) 있는 대화는 앞선 SSA로 어느 정도 평가할 수 있었다. 그럼 얼마나 대화를 많이 나누는가? 는 양(Quantity)의 측면일 것이다. 질적으로 대화가 충분히 사용자와의 담화를 채운다면, 자연스럽게 핑퐁(pingpong : 대화가 오고 가는 것)이 이루어질 것이기 때문이다.


사람들은 '읽씹'이라는 단어를 종종 사용하곤 한다. 이는 '읽고 씹다'의 줄임말로 SNS나 메시지의 대화 내용을 읽고도 귀찮거나, 부담스럽거나 하는 등의 이유로 메시지에 답장하지 않는 것이다. 하물며 사람들 간에도 이렇게 대화를 하지 않거나 메시지를 보고도 답장하지 않는데, 대화형 AI에 있어서도 대화가 잘 오가는지는 중요한 요소일 것이다.


실제로 이루다는 1.0 베타 테스트 당시 첫날 대화량 10 턴 이상인 사용자는 약 86%, 첫 달 대화량 100 턴 이상인 사용자는 약 43%라고 한다. (이루다 개발 블로그의 수치 참고)


*고객 충성도 지표인 NPS(Net Promoter Score)의 경우도 KPI에 포함될 수 있겠지만, 정해진 인원만 모집하는 클로즈 베타 테스트인 만큼 예측되는 KPI에서 NPS는 제외하였습니다.






글을 마치며.. (이루다가 2.0을 시작으로 나아가야 할 길은?)


실제로 이루다를 사용해본 후기들과 이미지를 보면, 오 생각보다도 더 사람 같네? 할 정도로 이루다는 생각보다 자연스러운 대화가 가능하다. 물론 아직 발전해야 할 기술의 한계는 존재하지만 발전하고 있는 모습은 매우 고무적이다. 


이번 2.0 베타 테스트에서는 지난 1.0 당시처럼 문제가 될 수 있는 발언들에 대해서도 문제가 되지 않도록 보완하였다고 한다. 하지만 이루다가 과거 성희롱, 혐오발언, 개인정보보호 관련해서 홍역을 치른 경험이 있는 만큼 성적인 문제, 차별, 데이터 편향성 등에 대해서 윤리 문제의 중요성을 잊지 않고 발전해 나가야 한다.


(이미지 출처 : 중앙일보 https://www.joongang.co.kr/article/23968286#home)


물론 이루다만 이러한 문제를 겪은 것은 아니다. 구글, 아마존, 마이크로소프트(MS) 등의 AI 역시 윤리적인 문제로 인해 서비스를 중단하거나 사과를 하기도 하였을 정도로, 윤리 문제는 AI를 다루는 글로벌 기업들이 가진 공통의 숙제이다. 


그래서 이루다가 앞선 윤리 문제를 만회하여 성장하기 위해선 윤리적인 AI 개발은 필수적이라 생각된다.


책임 있고 윤리적인 AI 개발은 개발사의 윤리에 대한 중요성 인식에서부터 시작한다. 이를 위해 1) 자체 AI 윤리 헌장을 수립하여 내부에 적용하고 외부에 공개하며, 직원들의 온오프라인 교육을 진행해야 한다. 또한 2) 사회적 편향을 진단할 수 있는 'StereoSet'과 같은 데이터 셋 등의 도구를 통해 모델을 점검해야 한다. 3) 이루다와 이후의 신제품, 연구, 파트너십이 AI원칙에 부합하는지 검토를 내부뿐만이 아니라 외부에 요청해 객관적인 시선에서 평가되어야 한다.


또한 충분한 테스트를 통한 검증 역시도 중요하다. 


구글의 경우 2020년 1월 논문을 통해 AI 챗봇 '미나'를 공개했다. 미나의 SSA 평가 점수는 79%이지만, AI 모델의 편향성 등 사회적 안정성 여부가 충분히 검증되지 않았기에 공식 서비스 형태로 대중에 공개하지 않았다. MS는 미국에서 '조'를, 중국에서는 '샤오이스'를, 일본과 인도네시아에선 '리나'를 AI 챗봇 서비스로 제공하고 있지만, 인종차별적이고 공격적인 질문을 감지하면 우회하도록 가능성 차단에 더 우선순위를 두고 있다. 


이처럼 '이루다'의 모델 역시도 윤리적인 문제의 소지가 있는 발언을 차단하는데 우선순위를 둬야 최소한의 안전장치와 함께 지속적인 발전을 하는 기틀을 마련할 수 있을 것이다. 그래서 현재와 같은 베타 테스트를 지속적으로 시도하고 이를 통해 검증을 지속적으로 거친 후에 안전성이 보장되었다는 사회적 합의가 어느 정도 도출되었을 때 서비스로 제공되어야 할 것이다.





참고 :


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari