Part 3. AI 제품의 품질 판단 기준
Part 3. 핵심 요약
- AI 제품은 기능이 작동한다고 해서 ‘좋은 제품’이 아니다.
- 속도(Latency), 정확도(Accuracy), 비용(Price)에 더해, 신뢰와 윤리성(Trust and Safety)까지 고려해야 한다.
- 이를 관리하고 팀의 판단 기준을 세우는 것이 바로 ‘평가(Evaluation)’의 역할이다.
AI 제품을 만들고 운영하다 보면 자연스럽게 이런 질문과 마주하게 된다.
“우리는 지금 잘하고 있는 걸까?”
기존 제품은 기능이 명확하고, 그 기능이 의도대로 작동하면 품질을 판단할 수 있었다. 하지만 AI 제품은 그렇지 않다. 입력과 맥락에 따라 결과가 달라지고, 사용자의 기대와 모델의 반응이 항상 일치하지 않기 때문이다.
결국, 우리가 만들고 있는 AI 제품이 ‘잘 되고 있는지’를 평가하려면 다른 기준이 필요하다. 단순히 ‘기능이 된다’가 아니라, 더 복합적인 관점이 요구된다.
AI 제품의 품질은 결국 다음 네 가지 축으로 정의된다: 속도, 정확도, 비용, 그리고 이를 총괄하고 조정하는 평가 체계. 그리고 이 모든 판단의 배경에는 윤리성과 책임감이 깔려 있어야 한다.
사용자는 빠른 응답을 기대한다.
AI 제품은 사용자 입력을 받은 뒤 서버, 모델, 응답 파싱을 거쳐 다시 사용자 화면에 결과를 노출하기 때문에, 수 초의 딜레이가 발생하는 것은 흔한 일이다. 하지만 사용자의 입장에서는 체감상 1초만 넘어가도 지루함과 불신이 시작되는 게 현실이다. 결국 속도는 기술적 스펙 이상의 사용자 신뢰에 대한 문제로 이어진다.
따라서 아래와 같은 고려가 필수적이다:
✔ 단일 응답 속도만이 아니라, 전체 대화 흐름의 체감 속도를 함께 고려해야 한다.
✔ 너무 긴 답변 생성 시간, 후처리 지연, 복합 API 호출 지연 등을 지속 줄여야 한다.
✔ 고성능 모델도 방법이지만, 프롬프트 최적화, 캐싱, 응답 구조 단순화 등 다양한 병렬적 전략도 필요하다.
✔ 때로는 품질을 소폭 희생해서라도 속도를 높이는 전략이 필요할 수 있다.
속도는 단순한 기술 스펙이 아니라, 사용자와 제품 사이의 신뢰를 결정짓는 문제다.
속도가 아무리 빨라도, 답변이 부정확하거나 맥락에 맞지 않으면 신뢰는 오래가지 못한다.
하지만 AI 제품에서 말하는 ‘정확도’는 단순한 정답률이 아니다. 맥락, 사용자 의도, 대화 히스토리에 따라 달라지는 응답 속에서 사용자가 '믿을만 하다’고 느끼는 응답이 중요한 품질의 기준이다. 사용자는 검색어 쿼리처럼 한 턴으로 끝내거나 단 건의 태스크 수행만 요구하지 않기 때문이다.
✔ LLM 기반 제품에서는 사실성(Factuality), 일관성(Coherence), 문맥 적합성(Contextuality)을 함께 살펴야 한다.
✔ 사용자 의도에 부합하는 ‘적절한’ 응답이 무엇인지 고민하는 것이 더욱 중요하다.
✔ 완벽한 답변이 불가능할 때, 불확실성을 명확히 인지시키는 UX 설계(fallback, 안내 메시지 등)가 필요하다.
정확도는 단순히 정답률에 그치지 않는다. 진짜 품질은, 사용자의 기대와 문맥 속에서 얼마나 신뢰할 수 있는 응답을 제공했느냐에 달려 있다.
AI 제품은 명백히 비용 민감적이다. 그중에서도 모델 호출 비용은 가장 빠르게 누적되는 항목 중 하나다. 사용자 수가 많아질수록 토큰당 단가, 호출 횟수, 응답 길이 등 운영 비용은 기하급수적으로 증가한다.
때문에 LLM 선택은 단순 성능이 아닌, 예측 가능한 비용 구조와 함께 고려되어야 한다. 프롬프트 최적화, 응답 축소, 캐싱 전략, 경량 모델과의 하이브리드 조합 등은 제품 설계 초기 단계에서부터 함께 고민돼야 하는 영역이다.
✔ 사용자 1명당 생성 비용(Unit economics)을 지속 트래킹한다.
✔ 일부 피쳐에서는 더 작은 모델을 쓰거나, 답변 길이를 최적화하는 식의 현실적 균형 전략이 필요하다.
✔ 과금 체계 구분(Premium/Basic 기능), 경량 모델 하이브리드 구조 등 전략적 선택이 필요하다.
PM은 완벽한 재무적 시뮬레이션보다 제품의 전략 차원에서 이 수치를 읽고 판단할 수 있어야 한다. 특히 제품의 장기적인 지속 가능성을 위해선 제품의 사용자 경험과 비용 간 트레이드오프를 체계적으로 검토할 수 있어야 한다.
좋은 제품은 사용자 경험만이 아니라, 운영 구조까지 고려한 ‘비즈니스로서의 완성도’를 갖춰야 한다.
속도, 정확도, 비용. 이 세 축을 균형 있게 관리하기 위해선, 이들이 지금 ‘어떤 상태’에 있는지를 판단할 기준이 필요하다. 그것이 바로 평가(Evaluation)다.
AI 제품에서 평가란 단순히 기능이 정상 동작하는지를 확인하는 QA를 넘어, 모델이 실제 사용자 문맥 속에서 의미 있는 반응을 하고 있는가를 탐색하는 과정이다. 특히 생성형 AI는 입력과 맥락에 따라 응답이 크게 달라지기 때문에, 명확한 기준 없이는 제품 품질을 유지하거나 개선 방향을 잡기 어렵다. 그렇기에 평가 체계는 장기적인 제품 전략과 윤리적 기준을 함께 담고 있어야 한다.
평가 방식은 다음과 같이 다양하다:
① 정량 평가 지표: BLEU, ROUGE, grounding score, Precision, Recall, F1 Score 등 자동화가 가능한 지표들은 텍스트 생성 품질이나 응답 일관성을 객관적으로 판단하는 데 도움을 준다. 특히 Retrieval-Augmented Generation(RAG) 기반 제품에서는 grounding score를 통해 응답이 실제 문서 기반인지 확인할 수 있다.
② 정성 평가: UT, 피드백 버튼, NPS, 사용자 인터뷰 등은 응답이 '신뢰할 수 있었는지', '도움이 되었는지'를 사용자 경험 관점에서 파악할 수 있게 해 준다. 이는 숫자로는 측정되지 않는 품질의 결을 잡는 데 중요하다.
③ 샘플링 및 시나리오 기반 평가: 특정 주요 흐름(예: 추천, 생성, 요약 등)에 대한 응답을 샘플링하거나, 내부 쉐도잉 테스트를 통해 반복적으로 품질을 점검할 수 있다.
④ 실시간 로그 기반 분석: 사용자 입력, 모델 응답, 피드백, 오류 발생 등의 로그를 기반으로 제품 상태를 실시간으로 추적하는 것도 장기적인 품질 유지에 핵심적인 평가 도구다.
속도, 정확도, 비용을 넘어서 ‘이 모델이 사회적으로 안전하게 작동하는가?’, ‘사람을 오도하거나 해하지는 않는가?’를 끊임없이 되물어야 한다. AI 제품에서 윤리적 기준은 단순히 '안전장치'가 아니다. 제품의 존재 이유, 작동 방식, 사용자를 대하는 태도 그 자체다.
이 철학은 다양한 제품 구현 방식에도 반영되어야 한다:
✔ 과잉 신뢰 방지 설계: AI의 한계와 불확실성을 드러내는 언어 사용, 정보 출처 노출, human-in-the-loop 설계 등이다. 사용자의 맹신을 방지하고, 신뢰를 지키는 UX 전략이다.
✔ 편향 탐지와 공정성 점검: Fairlearn, Aequitas 등과 같은 도구로 모델의 응답이 특정 집단에 편향되거나 차별적이지 않은지를 주기적으로 점검할 수 있다. 이는 단순 기능 품질이 아닌, 제품이 지향하는 가치와도 연결된다.
✔ 오답 대응과 설명 가능성: 잘못된 응답이 있을 경우 이를 사용자와 함께 식별하고 교정할 수 있는 Fallback, 피드백 루프 등의 구조를 마련한다.
✔ 내부 제품 철학 정립: 어떤 판단은 AI가 대신하지 않는다는 원칙, 이 도구가 인간을 보조하는 것인지 대체하는 것인지에 대한 제품 철학은 평가의 방향성을 설정하는 데 결정적인 역할을 한다.
결국, 평가는 수치를 만드는 일이 아니라 제품이 어떤 기준을 가지고 발전해 가는가에 대한 약속이다.
속도와 정확도, 비용이라는 수치는 변할 수 있지만, 그 안에서 무엇을 우선순위로 둘 것인지, 어디까지 책임지고 관리할 것인지에 대한 기준이 없다면 제품의 방향성은 흔들릴 수밖에 없다. 또한 품질은 윤리 위에 쌓인다.
우리는 이제 단지 ‘잘 작동하는 AI’를 만드는 시대를 넘어섰다.
속도, 정확도, 비용이라는 정량적 기준뿐 아니라, 사용자와의 신뢰, 불확실한 상황에서의 책임감, 그리고 제품이 품고 있는 윤리적 기준까지—AI 제품의 품질은 더 넓고 깊은 기준 위에서 판단되어야 한다.
PM은 이 다섯 축의 균형을 조율하는 설계자다.
그리고 그 중심에는 늘 스스로에게 던져야 할 질문이 있다:
“이 제품은 얼마나 빠르게, 정확하게, 효율적으로, 그리고 책임 있게 문제를 해결하고 있는가?”
다음 글에서는 AI 제품의 품질과 평가를 가능하게 하는 핵심 기반, ‘데이터’에 대해 이야기해보려 한다.
“사용자 행동은 어떻게 정의되고, 어떤 데이터가 쌓이며, 무엇을 기준으로 분석하고 판단해야 할까?”
▶️ 다음 글: AI 제품의 데이터는 어떻게 설계할까? (1편. 행동 데이터)
◀️ 이전 글: AI 팀은 어떻게 일해야 할까?
*본 글의 전체 시리즈는 여기에서 확인할 수 있습니다.