테스트 결과와 앞으로의 계획
Single / Multi 라디오 버튼을 활용하여 자유롭게 감정 분석 모드를 선택할 수 있도록 구성
STT (Speech to Text) whisper API를 활용하여 실시간 음성 인식을 수행
STT2Emotion (질문 + stt = 감정평가) Claude 3.7 Haiku 모델을 이용하여 텍스트 기반 감정 분석 질문과 응답 쌍을 전달하면 7가지 감정 중 하나로 분류하여 반환
외부 소음에 매우 민감함
노이즈 제거로 보완 가능하나, 해당 작업도 별도 학습이 필요하기 때문에 이번 테스트에선 생략
예시: 길거리에서 통화하듯 말하면 대부분 angry 감정으로 분류됨 (70% 이상)
단순 음성 기반으로 angry, neutral, happiness 등은 비교적 정확히 판단함
하지만 sad, fear, disgust 감정은 목소리만으로 구분이 어려움
예시:
질문: “너 오늘 가방 진짜 이쁘다!”
답변: “어.. 그래” (비꼬는 말투)
→ Wav2Vec2 모델은 neutral 로 인식하지만, 실제 감정은 복합적일 수 있음
STT를 기반으로 한 감정 분석은 상황 맥락에 따른 의미 분석이 가능하나, 여전히 neutral로 수렴하는 경향이 있음
Wav2Vec보다는 높은 정확도를 확인할수 있었음.
성별, 감정 강도 예측은 높은 정확도를 보임
하지만 해당 정보는 단순 규칙 기반으로도 예측 가능하기 때문에 모델을 쓸 필요성이 크지 않음
데이터 편향 문제도 존재: 대부분 어른 목소리 데이터라서 어린이(예: 아들)의 목소리는 female로 잘못 분류됨
AI 모델에서 가장 중요한 건 "신뢰도"라고 생각한다. 화를 내거나 웃는 감정처럼 명확한 표현은 모델이 잘 잡아내지만, 그 외 복합적이고 미묘한 감정은 여전히 인식이 어렵다. (물론 아직 내 실력이 부족한 탓도 있다고 생각함...)
목소리 기반 감정 분석 (Wav2Vec2)
질문 + STT 기반 텍스트 감정 분석 (STT2Emotion)
이 두 가지 방식을 조합하면, 신뢰도가 약 30% 정도 향상되는 것을 확인했다.
실제로는 STT 기반 방식만 사용해도 충분히 만족스러운 성능을 낼 수 있다는 판단도 들었다.
아직까지 보이스 감정 분석 모델이 대중화되지 않은 이유가 있었다는 걸 이번 테스트를 통해 알게 되었다.
감정 인식 실험에 사용한 데이터셋은 아래와 같다:
이 데이터를 공개해주신 KAIST 인공지능연구소에 깊은 감사의 마음을 전합니다.
이 데이터가 아니었다면, 이 질문은 평생 내 머릿속에 남아 있었을지도 모른다.
지금까지 목소리 감정 인식 모델의 여정을 함께해주셔서 감사합니다.