AI가 생성하는 대화는 대화가 아니다
우리는 머신러닝과 딥러닝을 지나 생성형 인공지능(AI)의 시대에 살고 있다. AI 덕분에 여러 산업군의 생산성은 큰 폭으로 증가하고 있으며 알고리즘이 복잡한 데이터를 수집하고 분석하는 연구 분야에서는 큰 성과가 도출될 것으로 기대된다.
생성형 AI는 대화, 서사, 논증을 만들고 교육, 번역, 통역, 창작, 편집, 교정 등 인간이 하던 언어활동에도 개입한다. 논문을 기획하고, 제목을 찾고, 초록을 작성하고, 목차를 구성하고, 초안을 만드는 논문 작성에도 도움이 된다.
그런 AI가 ‘대화자’의 역할도 잘 감당할 수 있을까? AI 스피커, 콜봇, 챗봇과 같은 대화 앱은 시장에 출시되어 있다. ‘대화형 AI’는 자연어 처리(NLP, natural language processing) 기술로부터 인간처럼 언어를 생성하고자 한다. 초대형 언어모델(LLM, large language model) 기반으로 미리 저장된 엄청난 분량의 데이터로 자연스러운 말을 모방한다. NLP는 주어진 입력 문장을 형태소, 구문, 담화 단위로 분석하면서 사전이나 문법 데이터로부터 의미를 추론하고 문장 생성기에 의존하여 그럴 듯한 출력 문장을 만든다.
자연어 처리에 음성 엔진이 연합되면 문자로 제공되는 챗이 아닌 음성 기반의 대화가 가능해지고 이걸 전화와 연결하면 콜봇이 된다. 이렇게 인간만의 고유한 활동이라고 알려진 대화조차 AI가 감당하는 것으로 보인다. 그렇지만 대화를 가르치고 배우고 사용하는 여러 현장에서 AI를 도입하려는 시도는 신중하게 재고되어야 한다. 다음과 같은 여러 이유로 대화가 대화다울 수 있는 기본적인 속성을 대화형 AI가 제대로 감당하지 못하기 때문이다.
첫째, 자연스러운 대화는 화자끼리 능동적이면서도 즉흥적인 개입이 허락되어야 한다. 누구나 말 차례를 가져올 수도 있고 필요하다면 고집스럽게 지켜질 수도 있고 상대방에게 양도할 수도 있다. 그러나 AI는 예측 가능한 수준의 목표지향적 시스템에서 만들어진 것이라서 인간 사용자가 대화 수행을 지시해야만 반응한다. 주제어(참조물)가 주어져야만 AI의 말 차례로 바뀐다. 호명을 해야만 AI는 대답한다. 인간 사용자의 발화가 종결되어야만 AI가 말 차례를 갖기 때문에 말하는 도중에 끼어들지 않는다. 그와 같은 대화 형식에 우리는 만족감을 갖기 어렵다. 즉흥성과 변주성이 사라진 대화는 따분하기 때문이다.
둘째, 화제 역시 누구나 시작할 수 있고 달라질 수도 있고 서둘러 종결될 수도 있어야 한다. 그렇지만 AI는 화제를 협상하지 못한다. AI는 반응자일 뿐이며 인간 화자와 대화처럼 들리는 ‘결과물’을 생성할 뿐이다. 개시한 화제는 반드시 마쳐야 하는 AI와의 대화는 전형적인 맥커뮤니케이션 대화법이다.
셋째, 인간 화자는 한 번의 말 차례에서 온전한 문법으로 필요한 정보를 말끔하게 전달하지 않고 ‘수정’ 전략을 통해 다시 시작하거나 중단하거나 보완하면서 말한다. 상대방이 말할 때 맞장구를 치면서 수정할 내용을 즉흥적으로 보태기도 한다. 그러나 AI는 말 차례나 화제 전환이 경직되어 있기에 대화 정보를 교환하면서 자신의 말을 점검하면서 유연하게 수정하지 못한다. 인간에게 ‘수정’은 자연스러운 대화의 과정이지만, AI에게는 ‘오류’의 결과물로 취급될 뿐이다. 오류를 허락할 수 없는 대화형 AI는 버퍼링 없이 능숙하고도 즉각적으로만 말한다.
넷째, 대면 대화에서는 구어체, 혹은 말 문법으로 화자간에 자유롭게 의미가 협상된다. 글로 교환되는 의사소통보다 문체나 문법은 느슨하고 내용은 불완전하게 들린다. 그렇지만 서로 존중하고 협력하는 인간 대화라면 화자 누구나 자유롭게 말할 수 있고 상대방 발화는 예측될 수만 없다. 게다가 인간 화자는 파편화된 정보, 중단과 망설임의 화법, 일부러 애매하게 발화하는 대화기술을 사용한다. 익숙한 맥락, 친밀한 관계의 화자일수록 선행적으로 공유된 지식과 경험을 전제하며 대화한다. AI는 아직도 그만한 수준의 변수 조합을 감당하기 어렵다.
다섯째, 대화에서 필요한 자원은 언어지식만이 아니고 특정 공간에서 통용되는 사회문화적 지식까지 포함된다. 현재 AI 기술로는 과장, 반문, 은유, 풍자, 전제, 암시 등으로 추론되는 사회문화적 지식, 혹은 억양, 동작, 표정 등으로 전달되는 함축적인 의도가 데이터로 관리되기 어렵다. 언젠가 AI가 감정이 담긴 억양, 말 속도의 차이까지 구분하고 그것으로 화자의 의도를 이해하고 공감할 수 있을까? 복잡하고 다양한 음성 감정을 범주로 나누어 알고리즘으로 설계하기도 쉽지 않지만 구술 의사소통 현장은 음성 신호의 노이즈가 많아서 데이터로 수집하고 전환하기도 어렵다. 표정의 인식 기술 역시 꾸준히 발달하고 있지만 미시적인 변화를 데이터로 옮기기 어렵고 같은 표정이라도 얼마든지 다른 의미가 표현될 수 있다.
아직까지도 AI는 대화의 협력자가 아니다. 주어진 키워드(참조물)에 의존하면서 목적 지향적이고 예측 가능한 맥커뮤니케이션 대화만을 생성할 뿐이다. 자연스러운 대화의 속성은 이와는 다르다. 얼마든지 비참조적일 수 있고 예측은 쉽지만 않다. 참조물이 없더라도 공간적이고 기호적인 자원이 활용되면서 정서적인 교감만으로도 대화는 시작되고 유지될 수 있다. ‘인간다운’ 그리고 ‘자연스러운’ 대화는 합리성과 지능의 원리로만 구성되지 않는다.
출처 : 대학지성 In&Out https://www.unipress.co.kr/news/articleView.html?idxno=11813