brunch

라이킷 7 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 이승헌 Jerome Dec 03. 2023

비즈니스 성과를 내는 AI 제품 개발 프로세스와 지표

AI 제품을 성공적으로 운영하기 위해서 알아야할 프로덕트 매니지먼트 기술

2023년 11월 미디엄(Medium)에 작성한 글을 브런치에도 공유합니다.

비즈니스 성과로 연결되는 AI 제품 개발 프로세스와 운영 지표

AI 제품을 성공적으로 운영하기 위해서 알아야할 프로덕트 매니지먼트 기술

medium.com

들어가며

생성형 AI 기술이 공개된 이후로, AI 기술에 관한 관심과 중요성이 더욱 높아졌습니다. 생성형 AI 기술은 생산성 및 사용자 경험 측면에서 기존의 인터페이스의 한계를 분명히 해결하며, 다양한 태스크를 동시에 수행해내고 있기 때문입니다. 이제는 자연스러운 대화를 통해 원하는 정보를 얻기도 하고, 맥락을 적절히 추론하여 텍스트나 이미지, 코드 등을 생성하는 등 새로운 인터페이스로서의 가능성을 보여주고 있습니다.

기술의 발전 속도와 더불어, 여러 기업이 AI를 활용해 제품화하는 속도 또한 매우 놀랍습니다. 가장 대표적인 사례인 마이크로소프트는 코파일럿(Co-pilot) 기능을 다이나믹스 365 등 자사의 플랫폼 내에 전방위적으로 통합하여 기업용 AI 시장에서의 경쟁력을 강화하고 있습니다. 코파일럿 기능은 여러 생산성 도구 간 사용자 데이터를 통합하여 이용 맥락을 연결한 뒤, 더욱 정확하고 상황에 적합한 정보/서비스를 연계합니다. 디지털 교육 분야 또한 GPT 기술을 가장 빠르게 적용하고 있는 시장 중 하나입니다. 듀오링고, 칸 아카데미 등은 GPT-4 기반 대화형 코치 기능을 출시하여 이전과는 차별화된 튜터링 경험을 구성했습니다. 이러한 움직임으로 볼 때, 앞으로 기업의 제품 경쟁력 강화에 있어 AI의 역할과 비중은 빠르게 확산될 것으로 예상됩니다.

하지만 아직까지 기업 내에서 AI 기반 제품에 대해 숙련된 경험과 운영 역량을 갖추고 있는 경우는 많지 않습니다. 이로 인해 85%의 AI 제품은 실패한다고 합니다. AI 기반의 제품은 일반적인 디지털 제품과는 구별되는 특성을 가지고 있습니다. 데이터의 불확실성, 반복적인 이터레이션 과정 등 AI 제품 개발 시 발생하는 특수한 조건과 환경을 고려하지 못한다면, AI 제품 자체와 그것을 만드는 조직은 어느 순간 길을 잃고 맙니다. LLM과 같은 생성형 AI를 활용할 경우, AI가 제공하는 아웃풋의 형태와 범위가 넓고, 예상치 못한 에러케이스가 발생할 가능성이 높기 때문에 이러한 문제는 더욱 심각해집니다. 통제 하지 못한 에러케이스 등은 때때로 기업의 리스크로 이어지기도 합니다. 따라서, 기업의 목표와 AI의 역할을 얼라인하고, 적절한 AI 제품의 품질을 유지하기 위해서는 일반적인 개발 방법론과는 다른 원칙과 프로세스가 요구됩니다. 또한 데이터를 통해 지속적으로 목적과 제품의 상태를 모니터링하며, 조직 내 원활한 커뮤니케이션을 이끌어내는 것이 중요합니다.

저는 AIEd 기업인 뤼이드에서 영어 학습자를 위한 AI Tutor 제품의 프로덕트 매니저를 담당하고 있습니다. 실제로 AI 제품, 특히 LLM 기술의 제품화를 진행하며 팀내 커뮤니케이션 방식, AI 생성 콘텐츠의 품질 측면에서 여러 시행착오를 겪었었고, 좀더 성숙한 실행 역량을 가진 팀을 구성하고자 AI 제품에 맞는 개발 프로세스를 하나씩 잡아나가고 있습니다. AI 제품을 담당하는 프로덕트 매니저가 제품화를 진행할 때, 제품의 품질과 비즈니스의 지속가능성을 담보하는 데에 도움이 되었던 개발 프로세스와 세 가지 운영 지표에 대해서 공유해보려고 합니다.

일관적인 목표 수립 및 품질 관리를 위한 AI 제품 개발 프로세스

앞서 언급한 바와 같이, AI 기반의 제품을 개발하기 위해서는 모델의 라이프사이클과 반복적인 이터레이션 과정을 반영하여 일반적인 소프트웨어 제품과는 다른 접근을 할 필요가 있습니다. 데이터의 복잡성 및 모델 구현의 불확실성, 생성된 콘텐츠의 품질 등 여러 절차적인 문제들이 산발적으로 발생하여, 사용자 경험 및 품질에 영향을 주기 때문입니다. 적절한 프로세스를 통해서 합의된 규칙을 만들어내지 못한다면, 아래의 예시와 같은 문제들이 발생하여 전반적인 팀의 생산성에 영향을 줄 가능성이 높습니다.

(1) 비즈니스 목표와 AI 기능의 역할 간 불일치 : AI 기술에 대한 개인의 관심사에 따라 비즈니스 목표, 타겟 사용자와는 무관한 제품/기능이 개발됨.

(2) 데이터 부족으로 인해 목표한 기능 개발 중단 : 사용자의 니즈에 맞춰 특정 기능을 기획했지만. 해당 모델을 구성하기 위한 충분한 데이터가 없어 구현이 중단됨.

(3) 모델 성능의 불확실성으로 인한 명확한 계획과 작업 추정의 어려움 : 모델의 불확실성으로 인해 명확한 계획과 추정에 기반한 진행이 어려움. 유관 업무의 일정에 영향을 줌.

(4) 리스크 통제 실패로 인한 사용자 경험/신뢰 악화 : 적절한 원칙과 인수 기준 없이 개발이 진행될 경우, 예상치 못한 리스크 등을 온전히 통제하지 못함. 이로 인해 AI 예측/생성 결과에 대한 신뢰가 하락하고, 사용자 경험 악화로 이어짐.

이처럼 AI 모델의 개발 프로세스는 다른 기술을 활용할 때와는 달리 발생할 수 있는 리스크를 사전에 예측하고 대응할 수 있어야 합니다. 그리고 모델의 라이프사이클별 발생할 수 있는 문제와 워크플로우를 사전에 식별하고 적절히 팀의 일하는 방식과 규칙으로 정의할 수 있을 때, AI 제품의 실행 역량에 대한 성숙도가 올라갑니다.

PwC의 Responsible AI 툴킷은 모델 라이프사이클에 맞춘 9단계의 세분화된 워크플로우를 제시하여, 실무적으로 고려해야할 작업의 내용을 순차적으로 설명합니다. 뿐만 아니라 단계별 주요 리스크에 대한 질문을 제시하여, AI 제품 개발 과정에서 의사결정에 참고할 수 있는 기준을 제시한 점이 인상적입니다. 이를 잘 활용한다면, 제품 개발 단계별 적절한 기준을 통해 AI 모델의 성능과 아웃풋을 검증하고, 신뢰할 수 있는 AI 제품을 고객에게 선보일 수 있습니다. 나아가 배포 이후에도 사용자의 반응과 모델의 상태 등을 모니터링 하고, 사용자의 행동을 학습시키며 모델의 성능을 더욱 진화시킬 수 있습니다. 무엇보다 기능을 배포하는 것 이상으로 AI 모델 발전에 필요한 절차를 프로덕트 매니저 뿐만 아니라 디자이너, 엔지니어 등이 공감하고 이해할 수 있어, AI에 대한 이니셔티브를 지속할 수 있는 힘이 생긴다는 장점이 있습니다.

PwC의 책임감 있는 AI 제품 개발 프로세스 (출처 : PwC)

단계별 더 나은 의사결정을 도와주는 다섯 개의 스테이지 질문

Stage Gate 1 : 비즈니스 적합성 검증 : 해당 비즈니스에 AI 솔루션을 적용하는 것이 적합한가?

Stage Gate 2 : 성능 적합도 검증 : AI 모델은 기대한 수준의 성능을 보여주는가?

Stage Gate 3 : 프로덕션 환경 배포 여부 결정 : AI 모델을 프로덕션 환경에 배포할 것인가?

Stage Gate 4 : AI 모델의 운영 방식 결정 : 모델을 지속적으로 운영할 준비가 되어 있는가?

Stage Gate 5 : 모델 개선 및 중단 여부 결정 : 모델은 현재 상태 그대로 지속해야 하는가? 혹은 재학습/재설계하거나, 모델 서비스를 중단해야 하는가?

AI 제품을 담당하는 프로덕트 매니저가 확인하는 세 단계 운영지표

앞서 언급했던 프로세스와 스테이지 질문들은 직접적인 목표 및 운영지표로 연결될 수 있습니다. 성공적으로 AI 제품을 개발하기 위해서는 제품의 성장 수준별, 모델의 개발 라이프사이클별 적절한 지표를 세워 과정과 성과를 추적하는 것이 필수적입니다. 가치 범위 설정(Value Scoping) 단계에서 비즈니스 전략 관점의 목표와 AI 기능의 역할(솔루션)이 명료하게 정해지면, 이를 실행하기 위한 단계별 작업의 목표를 객관적인 지표를 통해 정의할 수 있어야 합니다. 또한 초기에 설정했던 비즈니스 KPI를 기준으로 단계별 이를 달성하는 데에 요구되는 AI 모델의 성능 지표, 제품의 사용자 지표 등을 역으로 모니터링하고, 제품 개발 전 주기의 과정을 컨트롤할 수 있어야 합니다. 특히, AI 모델의 성능 지표와 인프라 비용 등은 AI 제품을 담당하는 프로덕트 매니저가 일반적인 제품에서 활용하던 지표 이상으로 확인하고 검증해야 하는 부분입니다.

초기 모델 구성 및 개발 단계 : AI 모델의 성능 지표

우선, AI 모델의 성능 지표는 가치 발견(Value Discovery) 단계를 마친 후 AI 리서처, 엔지니어와 프로덕트 매니저가 모델의 배포 여부를 결정할 때, 가장 먼저 확인하는 기준입니다. 결국 사용자가 구매하는 것은 AI 기술 자체가 아닌 AI 기반의 사용자 경험이지만, AI의 성능은 제품의 사용자 경험에 있어 중요한 충분 조건이 됩니다. 예를 들어, 초기 사용 단계에서 부정확한 예측 결과가 빈번하게 발생하여 제품의 신뢰도가 하락할 경우, 더이상 제품을 이용하지 않게 될 수도 있고, AI가 특정 콘텐츠를 생성하는 속도가 너무 느릴 경우, 사용자는 더이상 기다리지 못하고 이탈해버리는 경우도 빈번히 생깁니다.

위와 같은 리스크를 방지하기 위해 AI 모델의 성능 지표는 앞서 스테이지 게이트에서 언급했던 “AI 모델이 기대한 성능을 보여주는가?”라는 질문을 가장 잘 설명할 수 있어야 합니다. 또한 일정 기준을 통과하지 못할 경우 다음 작업의 진행을 멈출 수 있는 인수 조건(Acceptance Criteria)로서 작용해야 합니다. 만약 목표했던 기준을 충족시키지 못했다면 기준에 다다를 때까지, 반복적인 이터레이션을 허용하는 형태로 프로세스가 짜여져 있어야 합니다. AI 기반 제품 개발시, 가장 중점적으로 확인했던 성능 지표는 모델의 정확도(Accuracy)와 처리 속도(Speed) 그리고 에러 케이스의 종류와 발생 빈도 등이 있습니다.

(1) 모델의 정확도 (Accuracy)

모델의 정확도를 측정할 때에는 수행해야 하는 태스크, 모델의 종류에 따라 확인해야할 지표가 상이합니다. 평가 지표 선정 및 모델을 평가하는 부분은 AI 연구자의 영역이며, 프로덕트 매니저는 해당 수치가 목표했던 태스크를 얼마나 잘 수행하는 것을 의미하는지 올바른 질문을 통해 확인하는 것이 중요합니다. 뿐만 아니라 고객 영향도 분석과 AI의 불완전성을 보완할 수 있는 UX 차원의 고민도 병렬적으로 함께 이루어질 필요가 있습니다.

점수 예측 등의 분류 모델 기반의 기능을 개발할 때, 주로 확인했던 평가 지표는 AUC(Area Under the Curve), MAE(Mean Absolute Error), PCC(Pearson’s Correlation Coefficient) 등이 있습니다. 이는 모델이 학습한 데이터 셋과 비교해, 테스트 셋을 정확히 예측한 비율과 오차 등을 의미합니다. 타 벤치마크 대비 성능 차이와 오차 범위 등을 고려해 영향도를 판단하고, 모델의 배포 여부를 결정했습니다.

(2) 모델의 처리 속도 (Speed)

실제 AI 모델의 운영을 고려할 때, 처리 속도 또한 고려해야할 중요한 지표입니다. 처리 속도는 구현하고자 하는 기능의 성격, 사용자의 기대, 기준 속도 등에 따라서 상대적인 고민이 필요합니다. 예를 들어, 사용자가 짧은 턴테이킹을 통해서 빠른 목표 달성을 기대하는 경우라면 해당 사용자 경험에서 속도는 매우 중요해집니다. 사용자가 기존에 동일한 목적을 달성하기 위해 제품과 상호작용하던 방식을 관찰하여, 사용자가 감내할 수 있는 처리 속도 수준을 가늠하는 것이 기준점 설정에 도움이 됩니다. 그리고 배포 이후에도 처리 속도에 대한 사용자의 반응을 확인하며, 필요시 배포 시점 대비 모델의 처리 속도를 개선해 나가야 합니다.

영어 스피킹 실력을 진단하는 AI 모델의 경우, ‘신속한 점수 진단’의 가치를 부각하고자 기준 속도를 3분으로 설정했습니다. 하지만, 초기 진단 모델의 안정성과 서빙 방식에 따라서, 기준 속도보다 현저히 느려지는 경우가 발생했습니다. 이 경우, 사용자는 오류라고 인식하여, 해당 화면에서 이탈하는 경우도 생길 것이라 예상되었습니다. 이를 해결하기 위해 ML 엔지니어와 상의해 모델의 서빙 방식과 주체 등을 개선했고, 기준 속도 대비 크게 빠른 속도를 확보할 수 있었습니다.

(3) 발생하는 에러 케이스의 종류와 빈도

생성형 AI 기술이 발전함에 따라, 텍스트, 비디오 등 사용자가 AI 기술을 경험할 수 있는 인터페이스의 폭이 넓어졌습니다. 더불어, 수치로 표현되지 않지만, 사용 상에 불편함을 야기할 수 있는 여러 에러 케이스도 발생합니다. 모델의 기본적인 성능이 충족되면, 테스트 환경에 배포하여 사용자 경험을 저해하는 에러케이스의 종류와 빈도를 확인하는 정성적인 평가를 수행해보는 것이 좋습니다. 특히 AI가 산출, 생성하는 정보/콘텐츠에 대해 사용자의 관여도가 높은 제품일 수록, 초기 기능 배포 시점부터 에러 케이스의 발생 가능성을 사전에 줄여 사용자의 신뢰를 형성하는 것이 중요합니다. 이 때에 한 번에 모든 에러케이스를 통제하기는 어렵습니다. 이 경우, 케이스의 심각도를 종합적으로 고려하여 해결해야할 문제를 선별합니다. 이어서 핵심 타겟 사용자를 시작으로 적용 범위를 넓혀가며 순차적인 해결 및 릴리즈 계획을 세워야 합니다.

예를 들어, Open AI사의 STT(Speech To Text) 모델을 활용해, 영어 스피킹 학습자의 발화 내용을 텍스트로 보여주는 기능을 개발할 때, 예상치 못한 에러케이스가 산발적으로 발생하여 많은 시행착오를 겪었습니다. 소음의 정도에 따라 사용자의 발화와는 상관없는 텍스트가 출력되기도 하고, Open AI 사 모델의 학습 과정에서의 오류가 실제 프로덕션 환경에서 동일하게 나타나기도 했습니다. 프로젝트 초기, 명확한 기준없이 한꺼번에 이를 해결하려고 하다보니, 팀의 업무 리듬이 깨지는 경우가 많았습니다.

이를 해결하기 위해, 영어 실력(실제 점수대)별로 사용자 집단을 나누어, 테스트 음성 세트를 구성했습니다. 그리고 매 업데이트 시 마다 동일한 테스트 음성 세트를 가지고 테스트 한뒤, 생성된 콘텐츠에서 발생한 에러 케이스의 종류와 빈도를 측정했습니다. 각 테스트 음성에서 고유하게 발생했던 에러케이스와 특이사항을 기록해놓은 다음, 모델 운영 방식 개선 이후, 해당 에러케이스가 개선되었는지 확인했습니다. 제품의 핵심 타겟 사용자 집단의, 심각도 높은 에러케이스를 선제적으로 해결한 뒤 1차적으로 기능을 공개했고, 배포 시마다 에러케이스의 발생 빈도를 점차 줄여나갔습니다.

이처럼 모델의 성능과 관련된 정량적인 지표 뿐만 아니라 모델의 생성 결과에 대한 정성적인 평가 내용을 종합적으로 고려해, 배포 가능 여부를 판단하는 것이 좋습니다. 또한 제품의 핵심 타겟과 심각도 등을 저울질하며 단계별 적절한 목표와 기준을 설정해 순차적이고 반복적으로 해결해나가는 것이 무엇보다 중요합니다.

프로덕션 환경 배포 및 운영 단계 : 사용자 만족 및 충성도 지표

일정 기준의 AI 성능이 충족되면, 적절한 인터랙션을 결합하여 AI 제품/기능을 프로덕션 환경에 배포합니다. 배포 이후에는 예상했던 가설대로 실제 사용자에게 유의미한 가치를 제공했는지 평가해보아야 합니다. 초기의 사용자 경험은 고객이 기대한 것 이상으로 충분히 만족할 수 있는 수준이어야 합니다. 사용자의 만족은 지속적인 사용으로 이어지고, 이를 통해 다시 쌓이는 데이터는 AI 모델을 진화시키는 데에 중요한 자원이 되기 때문입니다. 배포 후, 프로덕트 매니저는 사용자의 만족도, 기능의 활성화 정도, 그리고 충성도 지표 등 목적에 맞는 지표를 확인하며, 기능의 지속 여부와 개선 방향성에 대해 결정을 해야 합니다.

AI 모델의 가치 확장 사이클

(1) 순 고객 추천 지수 (NPS : Net Promoter Score)

제품 신규 런칭 후 아직 충분한 데이터가 쌓이지 않은 경우, NPS(Net Promoter Score), CSAT (Customer Satisfaction Score) 등의 사용자 만족도 척도를 활용하는 것은 매우 유용합니다. 그 중 저는 주로 NPS 지표를 활용합니다. NPS는 해당 제품을 얼마나 가까운 지인에게 추천할 의향이 있는지 0~10점 으로 물어보는 척도이며, 추천 의향의 정도로 부터 주관적인 만족도를 간접적으로 유추해볼 수 있습니다. 이를 통해 시장 적합성 여부를 판단합니다.

신규 AI 제품을 베타 버전으로 런칭했을 때, NPS 지표를 측정하여 PMF(Product Market Fit) 여부를 가늠하고자 했습니다. NPS 점수 계산법을 기준으로 점수를 산출하여, 초기 제품의 수준을 판단했습니다. 또한 모델/기능 업데이트 시마다 초기 산출 점수 대비 변화를 확인했습니다. 실제로 스피킹 발화에 대한 문법 첨삭 모델을 고도화 할 때에는, 영어 콘텐츠 전문가와 AI 리서처가 협업하여 수 차례가 넘는 프롬프트 개선 작업을 거쳤습니다. 그 결과 AI 생성 콘텐츠의 품질이 향상되어, 결과적으로 NPS 지표가 점차 상승하는 것을 확인할 수 있었습니다.

(2) 사용자 리텐션(User Retention)율과 재구매율 지표

AI 제품/기능의 시장 적합성(Product Market Fit) 여부는 최종적으로 사용자 리텐션율과 재구매 지표를 통해 객관적으로 확인하는 것이 좋습니다. 사용자 리텐션 지표는 시간이 지나도 지속적으로 AI 제품을 사용하는 사람의 수를 표현하는 지표입니다. 주관적인 만족 여부를 넘어, 지속적으로 사용(행동)하고 있다는 의미는 제품의 필요성과 기능의 만족도가 충족되었다는 것을 의미합니다. 나아가 재구매율 지표는 돈을 지불하고 반복적으로 사용하는 사람들의 비율을 표현하기 때문에 제품에 대한 고객의 충성도를 알아보기 좋습니다. 활성 사용자 수 등을 통해 해당 AI 제품에 대한 관심도가 충분히 크다고 판단되면, 제품 고도화를 통해 리텐션 지표를 끌어올리는 것이 비즈니스 목적 달성에 중요해집니다.

만약 많은 유입, 활성 사용자 수에도 불구하고, 제품의 리텐션이 충분히 일어나지 않는다면 사용자 참여도(User Engagement) 지표를 통해 사용자와 제품의 상호작용 패턴을 자세히 살펴보면서, AI 모델 아웃풋 적합성과 설계된 인터랙션의 문제 등을 진단해보는 것이 좋습니다. 예를 들어, 영어 문법 첨삭 시 자신에게 적합한 아웃풋이 나오지 않아 사용자가 기능에 대한 유용성을 낮게 평가하는 경우, AI가 생성하는 피드백의 개인화 정도, 답변 생성의 정확성 등을 높여 리텐션율, 재구매율 등을 높일 수 있습니다.

상품화 단계 : 사용자 1인당 평균 수익과 인프라 비용

결국 AI 모델의 성능, 그리고 이를 통해 달성한 사용자 지표는 비즈니스적인 성과와 직접적으로 연결되어야 합니다. 간단한 예를 들면, 데이터 분석 플랫폼에서 자연어로 데이터를 분석할 수 있는 AI 도구는 쿼리를 모르는 사람도 해당 제품을 쓸 동기를 만들어 구매 사용자 모수를 확장할 수 있어야 하고, 기 사용자 집단의 락인(Lock-in) 효과를 유도하며 시장 지배력을 높일 수 있어야 합니다. 혹은 ChatGPT, Grammarly 같이 B2C 고객이 직접 비용을 지불하는 형태의 비즈니스 모델을 통해, AI 제품 및 기능을 하나의 상품으로 인지시키고, 매출, 결제 전환율 등의 비즈니스 KPI에 기여해야 합니다.

더불어 AI 비즈니스의 지속가능성을 판단하기 위해 꼭 확인해야 할 것이 1) 단위당 평균 매출과 2) 인프라 비용 입니다. LLM(Large Language Model) 등을 활용하게 되면서, 특정 AI 기능을 제공하기 위한 비용이 크게 증가했기 때문입니다. 적절한 프라이싱 전략과 인프라 비용, 그리고 이를 통해 최종적으로 만들어내는 매출과 순이익의 비중을 종합적으로 산출하여 AI 제품의 지속 운영 여부를 결정해야 합니다.

(1) 단위 당 평균 매출(Average Revenue Per Unit)

단위 당 평균 매출은 말 그대로 사용자 1인당 창출하는 수익을 뜻하는 용어입니다. 이는 전체 매출을 판매된 단위 수량으로 나누어 산출할 수 있습니다. 일반적으로 많은 구독형 제품은 사용자당 평균 매출(ARPU: Average Revenue Per User)을 많이 사용하는 한편, AI가 제공하는 서비스를 회당 판매하는 경우에는 단위당 평균 매출을 확인하는 것이 실질적인 매출과 비용을 비교하기에 용이합니다. 예를 들어, AI 기반의 영어 스피킹 시험 자동 채점 및 첨삭권을 회당 과금하여 판매하는 경우, 평균적으로 한 회(단위)가 벌어들인 매출액이 단위 당 평균 매출액이 됩니다.

(2) AI 모델 운영 인프라 비용

인프라 비용은 단위당 AI 기반의 서비스를 제공하기 위해 들어가는 GPU 운영 비용, API 콜당 비용 등을 합산한 금액입니다. 앞서 설명한 단위당 평균 매출과 더불어 종합적인 수익을 계산하기 위해서, AI 모델의 인프라 비용은 반드시 고려해야될 요소 입니다. 단위 고객별, 혹은 서비스 단위별 소모되는 인프라 비용을 정확히 산출하여, 적절한 프라이싱을 설정하는 것이 중요합니다. 혹은 지속적으로 인프라 비용을 낮추는 방법을 찾음으로써 순이익의 비중을 늘릴 수 있습니다.

GPT 기술을 활용한 영어 스피킹 자동 채점 및 첨삭 제품은 단일 제품으로서 매출을 발생시키는 것을 목표로 했습니다. 하지만, 다수의 AI 모델을 활용하고 있어 인프라 비용 또한 상당히 소모되고 있었기 때문에, 비즈니스의 지속 가능한 운영을 위해 비용을 50% 이상 줄이는 것을 주요 KPI로 삼았습니다. 결제 전환율은 유지한 채, 1인당 평균 수익을 높이기 위해 프라이싱은 유지했고, 모델 내재화 및 프롬프트 운영 차원에서 노력하여 비용을 감축했습니다. 이를 통해 안정적인 사용자 1인당 평균 매출을 갖췄고, 좀 더 도전적인 프라이싱 전략을 고민해볼 수 있었습니다.

마무리하며

결국 소개한 프로세스와 지표의 핵심은 비즈니스 목적에 맞게 일관적으로 AI 제품을 이끌어갈 수 있는가의 여부에 달려있습니다. 비즈니스 KPI를 달성하기 위해 AI 제품/기능이 수행해야 하는 역할과 지표, 그리고 AI 기술을 활용함에 따라서 발생하는 여러 절차적인 문제를 사전에 인지하고 대응할 수 있어야 일의 리듬을 잃지 않고 끝까지 목표를 달성할 수 있습니다. 나아가, 단계별 목표와 기준을 ‘데이터’를 통해 직접적으로 연결할 수 있을 때, 상위 의사결정자, AI 연구자, 개발자, 디자이너 등이 일관적인 언어로 소통하고, 동일한 목표에 집중할 수 있는 환경을 만들 수 있습니다.

AI 제품의 프로덕트 매니저는 목표 설정 부터 모델 개발, 제품 운영에 이르기까지 기존 보다 몇 차례 더 길고, 반복적인 개발 과정에서 각 전문가를 연결하는 퍼실리테이터이자, 페이스 메이커로 역할을 완수해야 합니다. 명확하게 조준된 비즈니스 목표와 단계별 기준은 결국 더 나은 품질과 사용자 경험으로 연결될 것입니다. 또한 더 많은 유저가 제품을 신뢰하고 사용할 수록, 더욱 다양하고 방대한 데이터가 쌓이며, 이는 다시 더 높은 수준의 성능과 확장된 가치를 지닌 제품으로 이어질 수 있습니다. AI를 빠르게 제품에 통합하여 비즈니스 성과를 만들고자 하는 프로덕트 매니저라면, 기술 자체 뿐만 아니라 이를 실행하는 관점과 배포 전후의 프로세스, 운영 지표 등을 적용해 구체적인 실행 역량을 높여볼 것을 추천합니다.