brunch

You can make anything
by writing

C.S.Lewis

by 손톱을 먹은 쥐 Jan 02. 2022

음성 인터페이스의 응답을 평가하는 방법

인공저능 디자이너 4

음성 프롬프트를 가독성 공식에 단순 적용해본 결과

포트폴리오를 정리하려고 예전 자료를 둘러보다가 피드백 프롬프트 평가방법을 만들어보려던 흔적을 찾았습니다. 2014년도에 정리했던 글이니까 그 사이 업데이트된 연구가 있는지는 기회가 될 때 찾아봐야겠네요.


프롬프트 효과를 검증하는 방법

사용자가 태스크 수행 중 프롬프트 및 화면에 의해 도움을 잘 받았을 수록 잘못된 명령어를 적게 발화하여 태스크를 수행했을 것이다.

- 시스템이 사용자에게 올바른 명령어를 잘 안내했다.
- (성공 발화수/유효 발화수)의 값이 크다.

사용자가 잘못된 명령어 발화 후, 자신의 명령어가 틀렸다는 것을 인지했을 때 명령어를 바꾸며, 이는 명령어 오류 수 대비 이형태 수의 증가로 나타난다.

- 시스템이 사용자에게 명령어가 틀렸음을 잘 인지시켰다.
- (이형태수/오류수)의 값이 크다.

계산식: U=dS/e(S+e)

U: 프롬프트 효과 점수
S: 성공 발화수
e: 명령어 오류 수
d: 이형태 수


발화시 발생 가능 시나리오 예시

케이스별 지표
주1)
(d+1)/(e+1)
- 명령어 오류 수 대비 이형태 비율.
- 다양한 명령어를 시도할 수록 1에 가까워진다. 다양한 명령어를 사용한다는 것은 자신의 명령어가 틀렸음을 인지한 것으로 해석함. (두 수가 모두 0이 될 수 있는 값이기 때문에 1씩을 더하여 0으로 나누는 수식이 나오지 않도록 보정함)
- 0에서 1  사이의 값이 도출되며 1에 가까울수록 자신의 명령어가 틀렸음을 잘 인지했다는 뜻으로 해석

주2)
S/(S+e)
- 유효 발화 중 성공 발화 비율. 유효 발화는 발화시점 오류를 제외한 발화인 성공 발화와 잘못된 오류 발화 수를 더해 계산한다.
- 0에서 1 사이의 값이 도출되며 1에 가까울수록 오류가 덜 발생했다고 해석

주3)
(d+1)/(e+1)*S/(S+e)
- 명령어 오류 수 대비 이형태 비율과 유효 발화 중 성공 발화의 비율을 곱한 값으로 최대 1의 값이 나온다.
- 1에 가까울수록 사용자는 자신의 오류를 수정하여 정확한 명령어를 찾아내었다고 해석하며 이는 프롬프트 또는 화면 안내 등의 영향을 받았다고 추측한다.


한계

시나리오의 차이에 따른 컨펌 커맨드 등에 따른 오차 발생 가능성 있음.

이형태는 3번째까지만 기록하여 4번째 이형태 발화부터 기록되지 않았으나 그 영향이 충분히 작다고 판단함

구체적으로 어떤 부분에서 도움을 받았는지 알 수 없음. 도움을 준 것이 화면에 출력된 도움말인지 프롬프트인지를 구분하지는 못함.

이형태 구성이 잘 되어있는 경우 시스템의 도움이 부족하더라도 명령어를 빠르게 찾아낼 수 있다. 때문에 ‘플랫폼의 명령어 유추 용이성’에 대한 점수라고 정의하는 것이 타당하다.

발화 타이밍 오류 및 인식 오류로 인해 명령어를 반복하는 상황이 고려되지 않음. 


참고

Candance Kamm, User interfaces for voice applications, 1995

음성 인터페이스에 관한 한 논문 (Candance Kamm, User interfaces for voice applications, 1995) 에서는 두 가지 프롬프트를 비교하기 위해 각각의 프롬프트에 대한 사용자의 반응을 다음 네가지 항목으로 분석했다.

– Yes 또는 No 라고 대답
– 여러 단어로 Yes 또는 No 표현 
– 기타 긍정 또는 부정 표현
– 부적합한 응답 

“Will you accept the call?”  의 경우에 Yes 또는 No 라고 대답한 사람은 54.5%, “Say yes if you accept the call otherwise, say no.” 프롬프트에서는 80.8%로 프롬프트에서 사용할 수 있는 명령어에 대한 구체적인 예시를 들려주는 것이 효과적이라는 것이라고 판단하였다.


프레시-킨케이드 가독성 공식

읽기 용이성과 독해 수준의 정보를 함께 측정할 수 있으며 값이 클수룩 해당 문단을 읽기 쉽다고 판단함.

장문의 읽기 문장에 적용되는 공식이지만, 문장, 단어, 음절을 사용한 공식으로 읽기 속도에 대한 고려를 추가하면 재생되는 프롬프트 판단에 참고할 수 있을 것으로 생각됨. 

https://readability-score.com/


이명지, 명령형 음성 사용자 인터페이스의 사용성 평가를 위한 도구 설계 및 구현, 2011

음성 사용자 인터페이스의 사용성을 평가하기 위해 개발된 도구의 사례로 SUEDE (ScotR.Klemmer,Anoop K.Sinha,Jack Chen,James A.Landay, Nadeem Aboobaker, Annie Wang, “Suede: a Wizard of Oz prototyping tool for speech user interfaces”, 2000)을 소개하고 프롬프트 선호도 조사를 가능하게 개선한 도구를 제시함.

사용자에게 다수의 프롬프트를 각각 들려주어 사용자가 선호하는 프롬프 트를 직접 선택할 수 있도록 시나리오를 작성 


작가의 이전글 한국이 저 경쟁 사회라니요?
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari