매거진 AI NOTE

목소리로 감정을 읽는 AI 개발기 #3

테스트 결과와 앞으로의 계획

by dean
image.png



테스트 UI 구성

Single / Multi 라디오 버튼을 활용하여 자유롭게 감정 분석 모드를 선택할 수 있도록 구성


image.png


STT 기반 감정 평가 흐름


STT (Speech to Text) whisper API를 활용하여 실시간 음성 인식을 수행

STT2Emotion (질문 + stt = 감정평가) Claude 3.7 Haiku 모델을 이용하여 텍스트 기반 감정 분석 질문과 응답 쌍을 전달하면 7가지 감정 중 하나로 분류하여 반환


테스트 결과 및 분석


1. 노이즈 민감도

외부 소음에 매우 민감함

노이즈 제거로 보완 가능하나, 해당 작업도 별도 학습이 필요하기 때문에 이번 테스트에선 생략

예시: 길거리에서 통화하듯 말하면 대부분 angry 감정으로 분류됨 (70% 이상)


2. Wav2Vec2 기반 감정 예측 한계

단순 음성 기반으로 angry, neutral, happiness 등은 비교적 정확히 판단함

하지만 sad, fear, disgust 감정은 목소리만으로 구분이 어려움

예시:

질문: “너 오늘 가방 진짜 이쁘다!”

답변: “어.. 그래” (비꼬는 말투)

→ Wav2Vec2 모델은 neutral 로 인식하지만, 실제 감정은 복합적일 수 있음


3. STT2Emotion의 한계와 가능성


STT를 기반으로 한 감정 분석은 상황 맥락에 따른 의미 분석이 가능하나, 여전히 neutral로 수렴하는 경향이 있음

Wav2Vec보다는 높은 정확도를 확인할수 있었음.


4. Multi task에서의 성별/감정 강도 예측

성별, 감정 강도 예측은 높은 정확도를 보임

하지만 해당 정보는 단순 규칙 기반으로도 예측 가능하기 때문에 모델을 쓸 필요성이 크지 않음

데이터 편향 문제도 존재: 대부분 어른 목소리 데이터라서 어린이(예: 아들)의 목소리는 female로 잘못 분류됨



최종 결론

AI 모델에서 가장 중요한 건 "신뢰도"라고 생각한다. 화를 내거나 웃는 감정처럼 명확한 표현은 모델이 잘 잡아내지만, 그 외 복합적이고 미묘한 감정은 여전히 인식이 어렵다. (물론 아직 내 실력이 부족한 탓도 있다고 생각함...)


감정 인식 성능을 높이기 위한 조합 제안


목소리 기반 감정 분석 (Wav2Vec2)

질문 + STT 기반 텍스트 감정 분석 (STT2Emotion)


이 두 가지 방식을 조합하면, 신뢰도가 약 30% 정도 향상되는 것을 확인했다.
실제로는 STT 기반 방식만 사용해도 충분히 만족스러운 성능을 낼 수 있다는 판단도 들었다.



마지막으로

아직까지 보이스 감정 분석 모델이 대중화되지 않은 이유가 있었다는 걸 이번 테스트를 통해 알게 되었다.


감정 인식 실험에 사용한 데이터셋은 아래와 같다:


AI Hub – 감정 인식 음성 데이터


이 데이터를 공개해주신 KAIST 인공지능연구소에 깊은 감사의 마음을 전합니다.
이 데이터가 아니었다면, 이 질문은 평생 내 머릿속에 남아 있었을지도 모른다.

지금까지 목소리 감정 인식 모델의 여정을 함께해주셔서 감사합니다.

keyword
매거진의 이전글목소리로 감정을 읽는 AI 개발기 #2