brunch

You can make anything
by writing

C.S.Lewis

by delight Jan 27. 2024

LLM 시대 음성퍼스트 UI가 아직 무리라고 보는 이유

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번에는 미디엄에 올라온 Chris Ashby의 글을 정리한 것입니다.

래빗과 틴에이지 엔지니어링(Teenage Engineering, )이 최근 출시한 r1은 연이은 매진을 기록하며 기존 스마트 기기 기존 앱 기반 인터페이스 디자인 관습에 도전하는 몇 안 되는 디바이스 중 하나로 꼽힌다. 뿐만 아니라 r1 기본 입력 방식은 음성으로, 많은 사람들에게 스마트 기기 기본 입력 모드가 자연스럽게 진화한 것처럼 느껴지며, 여러 앱 프로세스를 간단하고 자연스러운 상호 거더 언어 AI 모델을 새로운 차원으로 활용하고 있자.

하지만 음성이 차세대 인터페이스 디자인에 정말 적합한 선택일까? 그리고 스마트 기기 전반에 걸쳐 음성을 기본 입력 모드로 채택할 수 있을까? 나는 아직 그 단계에 이르지 못했다고 주장하고 싶고, 휴메인 AI 핀과 같은 다른 디바이스들이 관습에 도전하는 데는 성공했지만 음성의 문제를 무너뜨리는 디바이스가 되지는 못할 것이라고 생각한다. 어쩌면 음성이 기본 입력 모드가 되지 못할 수도 있다.

음성에 대해 내가 예상하는 3가지 주요 단점은 댜음과 같다.

1. 음성은 본질적으로 비공개가 아니다(특정 기준이 충족되지 않는 한)

방음 처리된 방에 혼자 있지 않는 한 음성은 배공개가 아니라는 건 피할 수 없는 사실이다.그리고 사용자들이 누구에게도 공개되지 않는 침묵의 프라이버시(privacy of silence)와 어디까지 보여질지 알 수 있는 프라이버시 가시성(privacy of visibility) 없이는 절대 하고 싶지 않은 특정 작업들이 있다. 휴대폰을 일상적으로 사용하면서 대중에게 알리고 싶지 않은 일들이 많이 있을 것이다. 반드시 음침하거나 소름 끼치는 이유 때문이 아니라, 주변 사람들이 가까운 가족이나 친구라 할지라도 자신이 무엇을 검색하거나 무엇을 하는지 주변 사람들이 모두 알기를 원하지 않기 때문이다.

예를 들어, 만원 열차에 탑승한 승객들에게 휴가 계획을 알리거나 행사장에 있는 이들에게 일찍 떠나려고 우버(Uber)를 예약하고 있다는 사실을 알리거나, 자신 또는 지인을 위해 구입하는 선물에 대해 누군가 엿들을 위험을 감수하고 싶지는 않을 것이다.

특정 상호 작용에 있어 음성은 목적에 맞지 않는 경우가 많다. 따라서 향후 몇 년 동안 LLM과 깊숙하게 통합하는데 초점을 맞출 많은 디바이스들의 출현에 따라 다중 입력 방식을 채택하거나 적어도 기본 상호 작용 유형으로 텍스트 입력에 계속 집중해야 더 널리 채택될 수 있을 것이다. 뿐만 아니라 테크 기업이 음성 데이터를 어떻게 저장하거나 기록하는지, 그리고 그 데이터가 정확히 어떤 용도로 사용되는지(그리고 그것이 사용자로서 우리에게 어떤 혜택을 주는지) 명확하게 밝히지 않는 것도 문제다. 이 문제를 해결하는 법안이 도입되거나 기술 기업이 이러한 정보를 더 투명하게 공개하기 전까지는 음성은 보다 널리 채택되기 어렵다.

2.사람이 아닌 존재와 대화하는 것은 부자연스럽고 무언의 규칙이 넘쳐난다

우리가 고객 서비스를 처리하려고 자동화된 콜센터에 전화를 걸 때 실제 사람과 통화할 수 있는 옵션을 선택하는 데에는 이유가 있다. 음성 기술이 인간의 언어, 상호작용, 감정의 뉘앙스에 반응하고 이해하는 단계에 도달하더라도(그리고 그 단계에 빠르게 근접하고 있다), 상대방이 사람이 아니라는 것을 알아야 한다는 장벽은 여전히 존재한다.

이는 생물학적 이유로 인해 극복할 수 없는 어느 정도 거북한 느낌을 동반할 뿐만 아니라, 상호작용할 때 반드시 인식하지는 못하지만 무의식적으로 스스로에게 물어보는 일련의 무언의 규칙을 가져온다. 예를 들면 다음과 같다.

질문은 어떻게 표현해야 하는가?

어떤 종류 상호작용이나 작업을 수행할 수 있는가?

기기나 기술로 달성할 수 있는 기능적 범위는 어디까지인가?

이 때문에 최근 Rabbit r1과 같은 앱 중심이 아닌 인터페이스의 비전에도 불구하고 이러한 과제를 극복할 수 있을 때까지 음성은 계속해서 목적에 맞지 않을 것이다.

3. 음성 입력은 사용자와 어시스턴트 간 신뢰 수준에 따라 달라진다

음성을 기본 입력 방법으로 사용하는 데 있어 내가 생각하는 마지막 치명적인 결함은 두 가지 요소에 따라 사용자와 어시스턴트 간 신뢰 수준을 가정한다는 것이다.

-사용자에게 제공되는 출력 유형(그래픽인요? 텍스트나 이미지가 포함되어 있나? 그리고 정보가 얼마나 세분화되어 있는가?)

-수행 중인 작업의 복잡성(사용자가 이전에 구매했던 제품에 대해 단순 주문을 완료하려고 하는가, 아니면 여러 주에 걸쳐 여러 목적지로 떠나는 휴가를 계획하고 예약하려고 하는가)

여기서 어려운 점은 사용자가 자신 있게 결정을 내릴 수 있을 만큼 충분한 수준으로 모든 질문에 답하는 것이다. 이러한 신뢰도는 현 세대 스마트 기술과 동등하거나 그 이상 수준에 도달해야 광범위한 채택을 달성할 수 있다.

예를 들면 다음과 같다.

어시스턴트가 "이번 목요일 아침에 경유지 없이 도쿄로 가는 가장 저렴한 항공편을 찾았습니다"라고 대답하는 경우다. 하지만 이는 여러 가지 상황을 고려해야 하는 복잡한 결정이다. 예를 들어 가격이 훨씬 저렴하다면 경유지를 경유할 의향이 있을 수도 있고, 어시스턴트를 신뢰하지 않을 수도 있다. 또는 가격이 훨씬 더 저렴하다면 다른 날에 비행기를 타고 싶을 수도 있다.

물론 AI는 사용자의 이러한 행동 패턴을 학습할 수 있지만, 의사 결정 과정에서 요구되는 세부적인 사항, 특히 시각적 또는 텍스트 입력이 제한되어 있는 경우에는 이를 극복하기 어려울 수있다. 우리는 아직 거기에 도달하지 못했고, 어쩌면 영원히 도달하지 못할 수도 있다

여기서 중요한 질문은 음성이 스마트 기기에서 기본 입력 모드가 될 수 있는지, 그렇다면 어떤 유형의 기기가 이 입력 방식을 가장 잘 활용할 수 있을까?다.

답은 여러 가지 요인들에 따라 달라진다.

음성 비서와 자연스럽고 인간적인 방식으로 상호 작용할 수 있을까?

사용자가 기술 개체와 상호 작용하는 데 있어 비인간적인 장벽을 극복할 수 있을까?

음성 비서가 중요하고 복잡한 결정을 내리는 데 필요한 모든 데이터와 피드백을 제공할 수 있을까? 아니면 그럴 필요가 있을까? 음성 입력과 관련된 개인정보 보호 문제는 어떻게 해결해야 할까?, 아니면 해결할 수 있을까? 어떤 경우든, AI 기술이 소프트웨어뿐만 아니라 하드웨어에 점점 더 많이 내장되고 음성이 일상적인 인터페이스 상호 작용의 최전선에 점점 더 많이 등장함에 따라 향후 몇 년은 분명 흥미로운 시기가 될 것이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari