좋은 시나리오, 보이지 않는 곳에서 완성된다

Oct 18. 2025

보이스봇의 품질은 고객의 말을 정확히 이해하고, 맥락을 놓치지 않게 설계한 ‘보이지 않는 과정’에서 완성된다.
그 섬세한 과정이 결국 기술의 품질을 결정짓는다.
결국, 좋은 시나리오는 기능이 아니라 태도의 산물이다.

1. 내 말을 알아듣지 못할 때, 신뢰는 무너진다

하나의 시나리오가 고객을 제대로 응대하려면 눈에 띄지 않는 수많은 준비가 필요하다.
고객 발화 분류, 예외 요청 처리, 핵심 정보 추출(날짜, 이름, 차량번호 등).
이런 과정은 흔히 ‘부수적인 일’로 취급된다.
하지만 바로 이 단계가 부실하면 아무리 멋진 시나리오도 무너진다.

예를 들어 고객이 이렇게 말했을 때, “보상 신청했는데 아직 답이 없어요.”
이건 진행 상태를 묻는 발화지만 시스템이 신규 보상 접수 흐름으로 안내하면, 그 순간 고객은 ‘내 말을 못 알아듣는다’고 느낀다.

이건 단순한 기술 오류가 아니다. 신뢰의 균열이다.
고객은 묻는다. “이 회사, 정말 내 얘기를 듣고 있는 걸까?”
반대로, 말을 정확히 이해하고 맥락에 맞게 반응하는 시스템은 기술보다 먼저 회사를 신뢰하게 만든다.
결국 이건 단순한 기능 구현이 아니라, 신뢰를 쌓는 일이다.

2. 보이지 않는 세밀함이 만드는 세 가지 축

신뢰는 대화의 겉모습이 아니라, 보이지 않는 세밀한 과정에서 만들어진다.
다음은 그 신뢰를 지탱하는 세 가지 축이다.

2-1. 고객 발화 유형 분류: 말은 많고, 기준은 흐릿하다

보이스봇이 사람의 말을 이해하기 위한 첫 단계, 즉 대화 설계의 출발점은 ‘의도 분류’다.
하지만 사람의 말은 생각보다 훨씬 자유롭고, 예외가 넘친다.

예를 들어 상담 초반 ‘본인 확인’을 요청했을 때, 고객의 대답은 수십 가지로 갈린다.

- “네.” / “아니요.”: 긍정 또는 부정 응답형
- “홍길동입니다.”: 이름 응답형
- “저희 엄마인데요.”: 대리 발화형
- “지금 회의 중이라 이따가요.”: 콜백 요청형
- “앱으로 처리했어요.”: 이미 완료형

이건 단순한 데이터 분류가 아니다. 사람의 말에 숨어 있는 맥락을 해석하는 일이다.
요즘 주목받는 챗GPT 같은 LLM(거대언어모델)도 결국 사람이 정의한 데이터와 분류 기준 위에서 작동한다.
기준이 흔들리면 아무리 성능이 좋아도 결과는 불안정하다.

그래서 이 작업은 개발자만의 일이 아니다.
실제 고객과 부딪혀 본 상담사들의 감각과 통찰이 함께해야 한다.
그 감각이 빠지면, 분류의 균형이 쉽게 무너진다.
하나의 유형이 누락되면 시스템은 엉뚱한 대답을 하고, 사용자는 곧바로 ‘기계가 내 말을 못 알아듣는다’고 느낀다.

반대로, 이 과정을 정교하게 다듬으면 시스템은 예측 가능한 흐름으로 움직인다.
이 일은 한 번에 끝나지 않는다.
녹취를 다시 확인하고, 기준을 정제하고, 유형 간 경계를 재설정하는 과정을 거쳐야 한다.
이 반복의 축적이 결국 고객과 상담사가 모두 신뢰할 수 있는 ‘언어의 체계’를 완성한다.

Insight. 기억보다 데이터로 말하라
발화 유형은 감이 아니라 데이터로 검증해야 한다.
“이런 말 자주 들어요”라는 기억은 근거가 될 수 없다.
녹취 데이터를 통해 실제 빈도를 확인해야 진짜로 ‘많이 나오는 발화’를 구분할 수 있다.
현장에서는 종종 감에 의존한 분류가 실제 고객 발화와 어긋나 시스템 신뢰를 떨어뜨린다.
기억은 참고일 뿐이다. 증거는 언제나 데이터에 있다.

2-2. 고객 발화 패턴 정리: 한국어는 AI에게 너무 어렵다

발화를 분류하는 기준이 세워지면, 이제 그 안의 ‘패턴’을 정리해야 한다.
같은 뜻을 가진 수많은 표현이 질서 없이 흩어져 있기 때문이다.
같은 긍정이라도 “네”, “예”, “맞아요”, “응”, “그래요”, “그렇습니다”처럼 끝없이 변주된다.
이를 모두 ‘긍정’이라는 하나의 의미로 묶어줘야 기계가 이해할 수 있다.

하지만 같은 단어도 상황에 따라 전혀 다른 뜻을 가진다.
“네!”는 단순한 긍정, “네?”는 되물음, “아, 네~”는 대화를 잇기 위한 공손한 추임새다.
표현은 같아도 억양과 맥락이 바뀌면 의미가 달라진다.

최신 LLM은 문맥 단서로 이를 어느 정도 구분하지만, 실제 고객 대화처럼 짧고 비정형적인 음성 발화에서는 여전히 오해가 잦다.
그래서 단어가 아니라 상황과 용도 단위로 정리하는 사람의 판단이 필요하다.
이건 단순한 언어 분류가 아니라 의도 모델을 학습시키기 위한 설계 단계다.
기계가 학습하기 전에, 어떤 발화를 어떤 의도로 분류해야 하는지 그 ‘기준’을 세우는 일이다.

특히 한국어처럼 맥락 의존도가 높은 언어는 모델 학습 이전에 사람의 언어 감각이 설계되어야 안정적인 결과를 낸다.
“그렇게 한 것 같아요”는 완료일 수도, 추측일 수도 있고,
“그럴 수도 있도 있겠네요”는 긍정처럼 들리지만 사실상 거절일 수도 있다.
문장만 보면 모호하지만, 맥락을 보면 의도가 분명해진다.
그래서 패턴을 정리할 때는 반드시 문맥과 함께 등장 빈도를 함께 본다.

결국 이 작업은 지금도, 그리고 앞으로도 사람의 감각이 개입해야 하는 영역이다.
LLM이 수많은 패턴을 자동으로 정리할 수는 있지만, 고객의 감정과 의도를 해석해 ‘이 말을 어떻게 들을 것인가’를 결정하는 건 여전히 사람의 몫이다.

데이터 처리의 목적은 기술적 효율이 아니라, 사람의 언어를 더 정확히 이해하게 하는 공감의 해석이다.
그 공감이 쌓일 때, 기술은 비로소 사람의 언어로 작동한다.

이렇게 다듬어진 패턴은 단지 시나리오의 품질만 높이지 않는다.
지금은 비용과 안정성의 이유로 대부분 NLU 기반 시스템을 사용하지만, 머지않아 챗GPT 같은 LLM(거대언어모델) 기반 구조로 옮겨갈 것이다.
그때 이 데이터는 ‘문맥을 이해하는 기술’을 만드는 핵심 자산이 된다.
어떤 상황에서 어떤 표현이 등장했는지, 그 표현이 어떤 의도와 연결되는지를 학습시키는 것.
그게 결국, 기술이 사람을 닮아가는 첫걸음이다.

2-3. 핵심 정보 추출: 말 속의 정보, 의미의 문맥

문맥의 질서가 잡히면, 이제 말 속에서 ‘정보’를 찾아야 한다.
대화의 의미가 아니라, 업무가 실제로 움직이게 하는 데이터의 단서들이다.
이 정보들을 정확히 뽑아내지 못하면, 아무리 잘 설계한 시나리오라도 무용지물이 된다.

예를 들어, 렌터카 예약 상담을 떠올려 보자. 고객이 이렇게 말할 수 있다.
“123456 예약했고요, 생년월일은 880101이에요.”
이 말 속에서 시스템이 정상적으로 작동하려면, ‘123456’은 예약번호로, ‘880101’은 생년월일로 정확히 인식해야 한다.
겉보기엔 단순한 숫자 추출처럼 보이지만, 실제로는 문맥 속 의미를 해석해야 하는 고난도의 작업이다.

STT가 음성을 정확히 텍스트로 바꿔도, 그 안에서 어떤 숫자가 ‘예약번호’이고 어떤 숫자가 ‘생년월일’인지 구분하는 건 또 다른 문제다.
게다가 고객은 항상 교과서처럼 말하지 않는다.
“음... 하나둘셋사오육일이요.”
“예약번호는... 123456일 거예요, 아마도.”
이처럼 숫자와 불필요한 말이 섞이거나, 말끝을 흐리는 경우도 많다.
단순히 정규식 한 줄로 해결할 수 있는 문제가 아니다.
숫자의 패턴은 문맥에 따라 달라지고, 고객의 말투는 예측할 수 없기 때문이다.

물론 최신 LLM(거대언어모델)은 이런 문맥을 일정 부분 추론할 수 있다.
하지만 그 정확도는 결국 사람이 정제한 학습 데이터와 규칙 설계에 달려 있다.
기술이 사람을 대신하는 게 아니라, 사람이 설계한 문맥 위에서 기술이 작동하는 구조다.
그래서 이 단계는 단순한 기술 구현이 아니라, ‘이해 가능한 문맥’을 설계하는 일에 가깝다.

결국 보이스봇의 품질은 인식률이 아니라 해석력에 달려 있다.
기계가 문장을 이해하는 순간에도, 그 의미의 경계를 그려주는 것은 언제나 사람이다.

기술은 인간을 대신하지 않는다.
사람이 만든 질서 위에서, 그것은 사람을 지키는 언어로 작동한다.

3. 기술의 품질은 태도에서 결정된다

기술은 결국, 그것을 다루는 사람의 태도만큼 신뢰를 얻는다.
고객 발화를 분류할 때 필요한 건 데이터 처리 기술이 아니라, “이 말을 왜 이렇게 했을까”를 묻는 습관이다.
패턴을 정리할 때 필요한 건 언어학 지식이 아니라, 사람의 맥락을 끝까지 따라가는 인내다.
정보를 추출할 때 필요한 건 정규식 한 줄이 아니라, 말속의 의미를 놓치지 않으려는 세심함이다.

결국 좋은 시나리오는 기능이 아니라 태도로 완성된다.
- 고객의 말을 정확히 이해하려는 태도,
- 맥락을 놓치지 않으려는 태도,
- 그리고 그 모든 과정을 기록하고 다듬는 태도.
신뢰는 그렇게, 보이지 않는 곳에서 자란다.

4. 정리하며: 신뢰는 눈에 보이지 않는 곳에서 만들어진다

대화형 시스템을 만들다 보면, 일은 두 부류로 나뉜다.
눈에 잘 보이는 일과, 아무도 알아주지 않는 일.
대부분은 화려한 시나리오나 새로운 기술에 집중하지만, 고객이 기억하는 건 언제나 “내 말을 들어주는 시스템”이다.

보이스봇이 고객의 말을 끝까지 따라가고, 상담사가 그 위에서 흔들림 없이 일할 수 있는 이유.
그건 눈에 보이지 않는 기반이 단단하기 때문이다.
겉으로는 단순한 로직 하나처럼 보여도, 그 안에는 수십 번의 점검, 수많은 수정, 그리고 한 사람의 세심한 배려가 쌓여 있다.

결국 기술의 완성도는 언어를 얼마나 존중했는가에서 갈린다.
신뢰는 언제나 눈에 보이지 않는 곳에서 조용히 자란다.
그 신뢰가 쌓일 때, 사람은 비로소 기술에게 마음을 연다.

한 줄 요약
좋은 시나리오는 기술로 꾸미지 않고, 신뢰로 완성된다.

keyword

Brunch Book

이전 08화결과를 예측할 수 없는 상황에서 시작해야 한다는 두려움보이스봇은 대화한다, 테스트도 그래야 한다다음 10화