스타트업 현장에는 묘한 장면이 자주 있습니다.
경험 많은 투자자나 심사역이 어떤 서비스에 대해 꽤 단호한 평가를 내립니다. 시장은 어떻고, 팀은 어떻고, 비즈니스 모델은 어떻고, 확장성은 어떻다는 말이 이어집니다. 그 말들은 대부분 틀리지 않습니다. 오히려 상당히 맞는 말처럼 들립니다.
문제는 그 말이 맞는 말이면서도, 동시에 서비스의 본질을 놓치는 경우가 적지 않다는 데 있습니다.
그럴 때 창업자는 보통 자신을 먼저 의심합니다. 내가 설명을 잘못했나, 내가 숫자를 덜 준비했나, 내가 사업을 너무 감성적으로 보고 있나. 하지만 조금 더 냉정하게 보면 다른 가능성이 있습니다. 설명이 부족한 것이 아니라, 애초에 진단의 대상이 어긋난 것일 수 있다는 가능성입니다.
우리는 흔히 기업을 진단하는 일, 사업을 진단하는 일, 서비스를 진단하는 일을 하나의 연속선 위에 놓고 생각합니다. 경험 많은 심사역이라면 이 셋을 다 볼 수 있다고 여깁니다. 그러나 실제 연구와 실무 사례를 차분히 들여다보면, 이 셋은 서로 다른 질문을 던지는 영역에 가깝습니다. 그리고 이 차이를 무시할 때, 좋은 서비스가 초기 단계에서 가장 쉽게 오해받습니다.
이 문제를 이야기하려면 먼저 불편한 사실 하나를 인정해야 합니다.
투자자는 본질적으로 서비스 진단 전문가가 아닙니다.
이 말은 투자자의 수준이 낮다는 뜻이 아닙니다. 오히려 반대입니다. 그들은 다른 문제를 아주 잘 풀도록 훈련된 사람들입니다. 다만 그 문제가 “서비스가 사용자에게 실제로 어떤 경험을 만드는가”는 아닐 뿐입니다.
벤처캐피털의 의사결정 과정을 다룬 대표적인 NBER 연구는 VC들이 투자 판단에서 가장 중요하게 보는 요소로 경영진과 창업팀을 꼽는다는 점을 보여줍니다. 시장은 역시 매우 높은 비중을 차지합니다. 반면 제품이나 서비스 자체는 상대적으로 후순위에 놓이는 경우가 많습니다.
국내 연구에서도 비슷한 결과가 반복됩니다. 시드 단계 투자 의사결정 요인을 분석한 KCI 기반 연구들에서는 팀과 시장이 가장 높은 가중치를 차지하고, 제품·서비스는 그 다음에 위치합니다. 다시 말해 투자자는 서비스 그 자체보다, 이 팀이 이 시장에서 이길 수 있을지를 먼저 보도록 구조화된 사람들입니다.
이 구조는 투자라는 행위의 성격상 어느 정도 자연스럽습니다.
아주 초기 단계에서는 서비스가 아직 완성되지 않았고, 숫자도 안정적이지 않으며, 시장 검증도 불충분합니다. 그러니 팀과 시장에 높은 비중을 두는 것은 나름의 합리성을 가집니다. 문제는 여기서 시작됩니다. 팀과 시장을 잘 보는 능력이 곧바로 서비스 경험을 잘 보는 능력으로 이어진다고 믿는 순간, 판단의 층위가 섞이기 시작합니다.
기업 진단의 질문은 대체로 이렇습니다.
이 조직은 살아남을 수 있는가.
이 팀은 신뢰할 만한가.
이 사업은 커질 수 있는가.
돈이 붙을 수 있는 구조인가.
반면 서비스 진단의 질문은 완전히 다릅니다.
사용자는 왜 처음 들어오는가.
왜 한 번 쓰고 떠나는가.
어떤 순간에 멈추는가.
무엇이 다시 돌아오게 하는가.
어떤 마찰이 행동을 끊는가.
어떤 경험이 습관을 만드는가.
이 둘은 같은 문제를 다른 각도에서 보는 정도가 아닙니다.
거의 다른 학문이라고 부르는 편이 정확합니다. 기업 진단은 조직, 전략, 재무, 시장 구조의 언어를 주로 사용합니다. 서비스 진단은 사용성, 행동 변화, 맥락 적합성, 반복 사용, 만족도, 인지적 마찰의 언어를 사용합니다. 전자는 상위 구조를 보고, 후자는 실제 사용 경험의 결을 봅니다.
그래서 어떤 심사역의 피드백이 분명 논리적이어도, 창업자가 이상한 어긋남을 느낄 수 있습니다.
그 피드백은 기업 진단으로는 맞을 수 있습니다. 사업 진단으로도 맞을 수 있습니다. 그러나 서비스 진단으로는 틀릴 수 있습니다. 더 정확히 말하면, 틀린 대상에 대해 맞는 방식으로 평가한 것일 수 있습니다.
투자 판단은 종종 매우 냉정하고 분석적인 행위처럼 보입니다.
하지만 실제 관련한 연구들에 의하면 그 과정이 우리가 생각하는 것만큼 정교한 정량 평가만으로 구성되어 있지 않음을 보여줍니다.
앞서 언급한 NBER 연구는 일부 VC가 명시적인 정량 모델이나 현금흐름 예측 없이도 투자를 진행한다는 점을 보여줍니다. 또 다른 연구에서는 투자자가 발표 내용 그 자체보다 시각적 요소, 전달 방식, 비언어적 인상에 크게 영향받을 수 있다는 결과도 나옵니다. 즉, 투자 판단은 데이터 분석만이 아니라 패턴 인식, 직관, 인상, 신뢰감 형성 같은 요소와 강하게 얽혀 있습니다.
이것이 왜 문제일까요.
서비스, 특히 사용자 경험이 핵심인 서비스는 겉으로 보기 좋은 스토리와 실제 사용의 질이 쉽게 분리되기 때문입니다. 발표 자료 안에서는 설득력 있어 보이지만 실제로 쓰면 불편한 서비스가 있습니다.
반대로 프레젠테이션 안에서는 평범해 보여도 실제로 쓰면 매우 강한 반복 사용성을 가진 서비스도 있습니다. 투자 판단이 시각적 인상과 팀의 설득력에 더 민감할수록, 후자의 서비스는 과소평가되고 전자의 서비스는 과대평가될 위험이 커집니다.
서비스를 서비스답게 보려면, 결국 사용자의 행동을 봐야 합니다.
이 점에서 UX와 제품 영역에는 투자 실무와는 다른 오래된 축적이 있습니다. 구글의 HEART 프레임워크는 사용자 경험을 행복감, 참여도, 채택, 유지, 과업 성공으로 나누고, 각각을 측정 가능한 신호와 지표로 연결할 것을 제안합니다. 이 프레임워크가 중요한 이유는 단순히 예쁜 이름의 모델이어서가 아닙니다. “좋은 서비스”를 막연한 인상이나 표면적 트래픽으로 판단하지 말고, 사용자 경험의 목표와 실제 행동 사이를 구조적으로 연결하라는 요청이기 때문입니다.
여기서 특히 중요한 것은 많은 투자자가 자주 보는 표면 지표가 서비스의 본질을 설명하지 못한다는 사실입니다.
페이지뷰가 많다고 좋은 경험은 아닙니다. 가입자가 늘었다고 유지가 되는 것도 아닙니다. 체류 시간이 길다고 만족도가 높은 것도 아닙니다. 서비스는 항상 숫자를 만드는데, 그 숫자가 무엇을 의미하는지는 별개의 문제입니다. HEART가 말하는 핵심은, 제품이 해결하려는 목표와 그 목표를 보여주는 행동 신호를 구분하라는 것입니다. 이 기본 구조가 없으면 서비스 평가는 곧바로 감각적 추정으로 흘러갑니다.
초기 서비스 평가가 자주 망가지는 결정적 이유는 채택과 지속 사용을 혼동하기 때문입니다.
이건 그냥 감각적 주장이 아니라, 정보시스템 연구와 습관 형성 연구가 오랫동안 반복해서 확인해온 사실입니다.
정보시스템 지속사용 연구에서는 새로운 기술을 받아들이는 행동과, 그것을 계속 사용하는 행동이 다르다고 말합니다.
처음에는 호기심, 기대, 주변 영향, 신기함이 채택을 만듭니다. 하지만 시간이 지나면 만족, 마찰의 정도, 반복의 용이성, 습관화 여부가 지속 사용을 결정합니다. 즉, “한 번 써보고 싶다”는 신호는 “계속 쓸 것이다”의 신호가 아닙니다.
습관 형성 연구에서도 같은 사실을 다른 각도에서 보여줍니다.
대표 연구에서는 새로운 행동이 자동화되는 데 평균적으로 약 66일이 걸렸고, 개인차는 매우 컸습니다. 어떤 사람은 훨씬 빠르게 습관화되지만, 어떤 사람은 훨씬 오래 걸립니다. 이 말은 곧 초기 리텐션 데이터나 짧은 사용 관찰만으로 서비스의 장기 가능성을 너무 쉽게 단정해서는 안 된다는 뜻입니다. 반대로 단기 반응이 좋다고 해서 이미 습관이 형성되었다고 봐서도 안 됩니다. 서비스가 실제로 사용자 삶에 자리를 잡는 데에는 시간, 반복, 맥락 적합성이 필요합니다.
그런데 투자 현장에서는 이 둘이 자주 섞입니다.
“초기 반응이 좋다”, “유저들이 관심을 보인다”, “전환율이 괜찮다”, “주목받고 있다”는 말이 곧바로 서비스의 질적 우위로 번역됩니다. 하지만 그건 대체로 채택의 신호일 뿐입니다. 서비스의 본질은 그 다음에 있습니다. 다시 오게 만드는가, 반복하게 만드는가, 귀찮음을 이길 만큼의 가치를 주는가, 습관으로 넘어갈 만큼의 구조가 있는가. 이 질문 없이 서비스 진단은 늘 표면 위를 맴돕니다.
서비스를 망치는 피드백은 보통 “틀린 말”의 형태로 오지 않습니다. 오히려 너무 이른 시점에 너무 맞는 말을 해버리는 형태로 옵니다.
아직 사용자가 반복적으로 쓰는 구조가 만들어지지 않았는데 수익모델을 묻습니다. 아직 한두 개의 핵심 행동도 안정화되지 않았는데 확장성을 묻습니다. 아직 사용 맥락과 문제 정의가 검증되지 않았는데 조직 규모와 GTM 효율을 묻습니다. 이 질문들은 언젠가 반드시 중요해질 것입니다. 하지만 아직 물어볼 단계가 아닌 질문일 수 있습니다.
Startup Genome이 조기 확장을 위험요인으로 지적한 이유도 여기에 있습니다. 문제를 충분히 이해하기 전에 마케팅을 확대하고, 경험을 다듬기 전에 채널을 넓히고, 사용자 행동을 이해하기 전에 BM을 강하게 덧씌우면, 서비스는 학습해야 할 시간을 잃어버립니다. 겉으로는 더 사업답게 보일지 몰라도, 실제로는 서비스의 핵심 가치를 배우는 과정이 끊깁니다. 초기 서비스가 죽는 이유 중 상당수는 역량 부족이 아니라 순서의 붕괴에서 옵니다.
모든 서비스가 같은 방식으로 오해받지는 않습니다.
특히 다음과 같은 서비스들은 투자자의 전통적 평가 프레임과 자주 충돌합니다.
교육 서비스, 커뮤니티, 콘텐츠 플랫폼, 건강 관리 앱, 행동 변화형 앱, 대화형 AI 서비스 같은 것들입니다. 이런 서비스들의 핵심은 단순 기능 제공이 아닙니다. 사용자가 특정 행동을 반복하도록 만들고, 그 과정에서 경험의 질을 설계하며, 결국 사용자의 삶 속에 특정 리듬을 정착시키는 것이 핵심입니다.
이런 서비스는 팀이 훌륭하고 시장이 크다는 사실만으로 설명되지 않습니다.
어떤 경험의 흐름이 있는지, 어디에서 사용자가 멈추는지, 어떤 감정과 동기가 다시 방문을 만드는지, 그 서비스가 얼마나 자연스럽게 삶 속에 끼어드는지가 본질입니다. 서비스의 경쟁력은 때로는 알고리즘이 아니라 아주 작은 인터랙션의 설계에 숨어 있습니다. 입력창 문구 하나, 피드백 타이밍 하나, 실패했을 때 복구되는 방식 하나가 리텐션 전체를 갈라놓기도 합니다.
그런데 사업 프레임만 들이대면 이런 서비스는 쉽게 오해받습니다.
“BM이 아직 약하네요.”
“차별성이 크지 않네요.”
“기술이 특별해 보이지 않네요.”
이 말들은 어느 시점에서는 맞을 수 있습니다. 하지만 UX 중심 서비스의 아주 초기에는 핵심을 비껴갈 가능성이 큽니다. 지금 확인해야 할 것은 돈의 구조가 아니라 사용의 구조일 수 있기 때문입니다. 사용자가 왜 이 서비스를 반복하게 되는지 아직 검증되지 않았는데, 수익 구조의 완성도를 먼저 요구하면 서비스는 가장 중요한 학습을 건너뛰게 됩니다.
대화형 AI 서비스는 이 문제를 한층 더 날카롭게 드러냅니다. 왜냐하면 여기서는 “좋은 서비스”를 판단하는 기준 자체가 훨씬 더 미묘하기 때문입니다.
대화 시스템 평가 연구들은 오래전부터 좋은 대화를 단순한 정답률로 측정하기 어렵다고 말해왔습니다. PARADISE 같은 고전적 프레임워크는 대화 품질을 과업 성공, 대화 비용, 사용자 만족의 결합으로 보았습니다. 최근의 대화 시스템 평가 연구들 역시 적절성, 맥락 유지, 수리 능력, 만족도 같은 요소를 자동으로 안정적으로 측정하는 것이 어렵다고 지적합니다. 다시 말해, 대화형 서비스에서는 “정확하다”가 곧 “좋다”가 아닙니다. 더 정확히 말하면, 맞는 답을 했는데도 나쁜 경험일 수 있습니다.
이 영역에서 투자자가 자주 빠지는 함정은 기술을 보고 경험을 판단하거나, 반대로 경험을 보고 기술 차별성을 단정하는 것입니다.
“이거 그냥 챗봇 아닌가요?”라는 말은 얼핏 예리해 보일 수 있지만, 실제로는 서비스의 설계 포인트를 전혀 못 짚은 평가일 수 있습니다. 어떤 대화형 서비스는 모델 자체보다 실패했을 때 복구하는 방식, 맥락을 얼마나 잘 유지하는지, 사람에게 자연스럽게 넘길 수 있는지, 프라이버시에 대한 신뢰를 어떻게 형성하는지가 훨씬 중요합니다. 최근 연구들은 만족도 추정에서도 단순 정확도보다 왜 불만족이 발생했는지를 설명 가능한 루브릭으로 분해하는 접근이 필요하다고 봅니다.
한국어 실증 연구들도 흥미로운 결과를 보여줍니다.
AI 챗봇의 지속 이용 의도에 영향을 주는 요인을 분석한 국내 연구에서는 만족도가 지각된 가치보다 더 큰 영향을 보였고, 상호작용성과 정보 제공의 정확성, 개인화가 중요하게 작동했습니다. 반면 우리가 직관적으로 중요할 것이라 여기는 의인화는 항상 유의미하지 않았습니다. 또 다른 연구에서는 정서적 지원과 정보적 지원이 만족과 지속사용에 영향을 주었고, 사회적 실재감이 그 경로를 조절하기도 했습니다. 즉, 대화형 서비스에서 사용자가 계속 머무는 이유는 기술적 화려함보다 심리적·관계적 품질에 더 가까울 수 있습니다.
이런 서비스에 대해 전통적 투자 프레임만으로 판단하면 어떤 일이 벌어질까요.
기술 시연은 괜찮은데 왜 쓰는지는 모르겠다고 하고,
기능은 많은데 차별성이 약하다고 하고,
반응은 있는데 사업성이 약하다고 합니다.
하지만 실제 문제는 전혀 다른 데 있을 수 있습니다. 사용자가 왜 맥락을 잃는지, 실패했을 때 왜 다시 시도하지 않는지, 도움을 주는 방식이 왜 불편하게 느껴지는지, 개입 타이밍이 왜 부담스러운지 같은 문제들입니다.
이런 문제는 투자자의 경험만으로는 쉽게 보이지 않습니다. 별도의 UX 감각, 대화 설계 감각, 행동 데이터 해석 경험이 있어야 겨우 드러납니다.
좋은 서비스가 죽는 방식은 대개 극적이지 않습니다. 조용히 방향이 틀어지는 방식으로 죽습니다.
처음에는 “조금 더 사업적으로 보이게 하자”는 말로 시작합니다.
그 다음에는 “차별성을 보여줄 기능을 더 넣자”가 나옵니다.
그 다음에는 “지금은 매출 구조가 보여야 한다”는 압박이 옵니다.
그리고 어느 순간 서비스는 자기 본질에서 멀어집니다.
원래는 반복 사용을 만들어야 했는데, 일회성 전환을 높이는 방향으로 움직입니다.
원래는 사용 맥락을 더 깊이 이해해야 했는데, 발표용 메시지를 더 강하게 다듬습니다.
원래는 작은 마찰을 줄여야 했는데, 투자자에게 설명하기 좋은 기능을 얹습니다.
원래는 시간을 들여 습관을 만들어야 했는데, 빨리 커 보이기 위해 성장 신호를 과장합니다.
결국 서비스는 살아나지 못하고, 사업도 되지 않습니다. 이것은 “좋은 피드백이 나쁜 결과를 낳는” 전형적인 구조입니다. 틀린 말이었기 때문이 아니라, 너무 이른 말이었거나, 다른 층위의 말이었기 때문입니다.
실무 사례를 보면 이 문제는 더 선명해집니다.
Quibi는 거대한 자본과 훌륭한 인력, 강력한 콘텐츠를 갖고도 서비스와 사용 맥락의 부조화에서 무너졌습니다.
모바일에서 짧게 소비하는 영상이라는 가설은 그럴듯했지만, 사용자가 실제로 어떤 상황에서 어떤 방식으로 콘텐츠를 소비하는지에 대한 이해는 충분하지 않았습니다. 공유 구조의 제약과 사용 맥락의 어긋남은 서비스 확산과 습관 형성을 방해했습니다. 겉으로는 강력해 보였던 사업 가설이 서비스 차원에서 무너진 사례입니다.
Color 역시 비슷한 맥락에서 자주 언급됩니다.
훌륭한 팀과 큰 기대감, 초기의 대규모 투자에도 불구하고 서비스 자체가 사용자에게 왜 필요한지, 어떤 상황에서 반복적으로 쓰일 수 있는지 명확히 자리 잡지 못했습니다. 팀의 역량과 투자자의 기대가 서비스 가치의 검증을 대체하지 못한 사례라고 볼 수 있습니다.
반대로 Airbnb의 초기 이야기는 종종 다른 가능성을 보여줍니다.
초기에 많은 투자자에게 거절당했지만, 일부 투자자는 당장의 외형보다 창업자의 실행력과 실제 현장에서의 학습, 사용자를 설득하고 경험을 만들어가는 과정에 주목했습니다. 이 사례를 지나치게 낭만화할 필요는 없지만, 적어도 초기 서비스에서는 팀의 “좋음”이 추상적 명성이 아니라 사용자 문제를 실제로 풀어가는 능력으로 해석되어야 한다는 점을 보여줍니다. 서비스는 슬라이드 안이 아니라 현장에서 자라기 때문입니다.
Superhuman 사례는 또 다른 방향을 보여줍니다.
이 팀은 product-market fit을 선언이 아니라 운영 가능한 진단 프로세스로 다뤘습니다. 설문과 세그먼트 분석, 정성적 피드백을 결합해 무엇이 사용자를 열광하게 만들고 무엇이 그렇지 않은지를 구조적으로 파악하려 했습니다. 이 사례의 핵심은 “PMF가 있다/없다”가 아니라, PMF를 진단하는 방식 자체가 하나의 역량이라는 점입니다. 투자자가 봐야 하는 것도 결국 이 지점일 수 있습니다. 숫자 그 자체보다, 팀이 서비스를 어떻게 진단하고 학습하고 있는가입니다.
이 문제를 해결하려면 누가 더 똑똑하냐를 따질 일이 아닙니다.
구조를 다시 세워야 합니다.
기업 진단은 기업 전문가가 해야 합니다.
사업 진단은 전략 전문가가 해야 합니다.
서비스 진단은 제품과 UX를 아는 사람이 해야 합니다.
특히 초기 단계, 그리고 UX 차별성이 핵심인 서비스라면 이 분리가 더 중요합니다.초기 서비스는 아직 사업으로 완성된 존재가 아닙니다. 서비스는 먼저 경험으로 검증되고, 그 다음에야 비로소 사업이 됩니다. 그런데 우리는 너무 자주 그 순서를 뒤집습니다. 사업이 되어 보이지 않는다는 이유로 서비스를 잘못 판단합니다. 하지만 서비스는 처음부터 사업답기 때문에 살아남는 것이 아니라, 먼저 사용자에게 반복될 이유를 만들기 때문에 살아남습니다.
그래서 투자자나 심사역이 정말로 서비스 진단까지 하려면, 적어도 스스로에게 몇 가지 질문은 던져야 합니다.
지금 내가 진단하고 있는 대상은 기업인가, 사업인가, 서비스인가.
내가 보고 있는 숫자는 채택의 숫자인가, 지속 사용의 숫자인가.
이 서비스의 핵심 경쟁력은 시장 크기나 BM이 아니라 경험 설계일 가능성은 없는가.
이 서비스가 AI나 대화형 인터랙션을 포함한다면, 나는 그것을 정확도나 기능 수로만 보고 있지는 않은가.
이 질문을 던지지 않는 순간, 경험 많은 투자자도 서비스 진단에서는 의외로 쉽게 미끄러질 수 있습니다. 그것은 개인의 무능이 아니라 전문성의 경계가 무시된 결과입니다.
아마 이 글의 핵심은 결국 이 질문 하나로 돌아옵니다.
지금 우리는 무엇을 진단하고 있는가.
기업을 진단하는 것과, 사업을 진단하는 것과, 서비스를 진단하는 것은 다릅니다.
팀을 보는 눈과, 시장을 보는 눈과, 사용자 행동을 보는 눈은 다릅니다.
재무를 읽는 역량과, 경험을 읽는 역량은 다릅니다.
그리고 이 다름을 인정하지 않는 순간, 우리는 가장 쉽게 좋은 서비스를 놓칩니다.
특히 특별한 사용자 경험을 겨냥한 서비스, 습관을 형성해야 하는 서비스, 관계적 신뢰가 중요한 서비스, AI와 대화 경험이 핵심인 서비스일수록 이 문제는 훨씬 더 심각합니다. 그 서비스는 기업 진단의 언어로는 잘 보이지 않을 수 있습니다. 사업 진단의 언어로도 아직 충분히 설명되지 않을 수 있습니다. 그 서비스는 오직 서비스 진단의 언어 안에서만 제대로 보일 수 있습니다.
그러니 때로는 이런 질문이 필요합니다.
이 피드백은 정말 틀린가, 아니면 그냥 다른 대상을 보고 있는가.
그리고 더 중요하게는,
지금 이 서비스에 필요한 것은 투자자의 권위 있는 판단인가, 아니면 사용자의 행동을 읽어내는 더 정밀한 진단인가.
좋은 서비스는 종종 나쁜 판단 때문에 죽지 않습니다.
오히려 너무 그럴듯한, 그러나 다른 층위의 판단 때문에 죽습니다.
그 순간을 알아보는 것, 어쩌면 그것이 창업자와 투자자 모두에게 지금 가장 필요한 역량인지도 모릅니다.
--
Written by AI Alchemist & Maestro 두드림(Two Dreams)
- Orchestrating AI, systems, and human judgment
이 글은 Creative Commons BY-NC 라이선스에 따라 비영리적 용도로 자유롭게 복사·배포·활용할 수 있습니다. 출처(저자명·브런치 링크)만 표시해 주세요.