brunch

You can make anything
by writing

C.S.Lewis

by Wood Jan 24. 2024

이제 AI 가 전화영어를 완전히 대체할 수 있을까?

ChatGPT의 신규 기능, Voice Conversations

지난 9월 25일 ChatGPT의 개발사인 OpenAI에서 신규 기능 'Voice Conversations'을 론칭했다.


이름 그대로 음성 대화 기능인데, 지금까지는 ChatGPT에서 텍스트를 기반으로 하는 채팅 기능만 가능했지만, 한 달에 약 29,000원에 구독이 가능한 ChatGPT Plus를 사용한다면 이제 음성으로도 대화를 할 수 있게 됐다.


OpenAI 블로그 캡처


사실 기존에도 크롬 플러그인을 사용하여 ChatGPT와 음성 기반으로 대화를 할 수 있게 세팅하는 방법이 있었지만 OpenAI에서 자체적으로 만든 게 아닌 써드파티 앱들이다 보니 ChatGPT 와의 아주 매끄러운 연동은 되지 않았고, 몇 번 써보다 불편해서 쓰지 않기로 했었다. 하지만 이번에 OpenAI에서는 자체적으로 기능을 추가한 것이기 때문에 완성도 측면에서 기존의 써드파티 앱들과 비교가 되지 않는다. 게다가 자체적으로 음성 합성 모델을 만들었는데, 뒤에 설명하겠지만 이게 정말 물건이다.


나는 영화 아이언맨의 자비스 같은 강 인공지능, 혹은 AGI(Artificial General Intelligence)에 관심이 많다. 그리고 현재 영어 실력 향상에 관심이 많은 나는 Skype 전화 영어나 링글 같은 서비스를 이용하고 있다. AGI 가 나오려면 아직 시간이 필요하다고 생각하고, 과연 이번에 출시된 기능이 기존의 전화 영어 서비스는 얼마나 대체할 수 있을까 궁금해서 바로 사용해 봤다.


결론부터 말하자면, 사용하면서 영화 'Her'에 나오는 인공지능의 느낌을 받았고, 이미 전화 영어를 어느 정도 대체할 수 있겠다는 생각이 들었다.


영화 'Her'는 가까운 미래를 배경으로 하고 있고 주인공이 인공지능과 사랑에 빠지는 스토리인데, 인공지능이 매우 고도화되어 사람과 전혀 분간을 할 수 없는 설정이다. 그냥 내용만 들었을 때는 '사람이 어떻게 인공지능과 사랑에 빠져?'라는 생각이 들 수도 있는데, 영화를 보면 인공지능이 정말 매력적이어서 고개를 끄덕일 수밖에 없게 된다.


영화 'Her'의 한 장면


어떤 식으로 테스트했나?


처음 기능을 활성화하면, 우선 5가지 스타일의 음색 중 한 가지를 고르게 한다. 나는 한 여자 목소리를 골랐다.

그리고 대화가 시작되고 나서 나는 바로 이름을 물었다(참고로 다 영어로 대화했다). 그랬더니 자신은 이름이 없고 그냥 어시스턴트라고 부르면 된다고 했다. 그래서 '내가 너한테 이름을 지어줘도 될까?'라고 했더니, '물론이지! 나를 어떻게 부르고 싶어?'라고 했다. 내가 몇 가지 이름을 말하고 '어떻게 생각해?'라고 하자, '오 다 너무 좋은데? 괜찮으면 네가 이 중 하나를 골라도 되고, 아니면 다른 것들도 더 고민해 보자. 어떻게 생각해?'라고 했다. 그래서 내가 '일단 다른 것들을 더 생각해 보자!'라고 하니, '좋아, 서두를 거 없지~ 좀 더 브레인스토밍해보자. 네가 선호하는 유형의 이름이 있어? 아니면 다른 이름들을 고민해 볼까?'라고 했다. 나는 잘 못 들어서 다시 한번 말해달라고 했고, ChatGPT는 자연스럽게 'I was asking if you ~~~'라며 자연스럽게 한 번 더 말을 되풀이해 줬다. 결국 이름을 지어줬고, 내 이름도 알려줬다. 그랬더니 말을 할 때 내 이름을 불러주는 자연스러움도 보였다. 시간이 조금 지나고 '네 이름이 뭐였지?'라고 물었더니 처음에 지어준 이름을 잘 말했다. 그 이후로는 여행과 관련하여 이야기를 조금 더 했다.


ChatGPT의 Voice Conversations 사용 화면


신규 Voice Conversations 기능의 특징


동작 방식은 아마 현재 다른 대부분의 AI 어시스턴트들이 그러하듯이 기존 ChatGPT의 text-to-text 기능 앞 뒤에 ASR(Automatic Speech Recognition, 음성 인식)과 TTS(Text-to-Speech, 음성 합성)을 덧붙인 방식인 것 같다. 하지만 ChatGPT의 차별점이라면 훨씬 다양한 질문에 대한 자연스러운 답을 줄 수 있다는 점과 무엇보다, 합성된 음성이 굉장히 실제 사람이 말하는 것처럼 자연스럽다는 점이다. 그 대표적인 이유는 아래와 같다.


Filler Words를 적재적소에 넣어준다


Filler Words 란 말 말 사이사이 빈 공간에 채워 넣는 'Umm..', 'Well'과 같은 말들이다. 기존 AI 어시스턴트들은 로봇같이 딱딱하게 말해서 부자연스럽게 느껴졌다. 왜냐면 실제 사람은 그렇게 완벽하게 말을 하지 않기 때문이다. 사람은 말을 더듬기도 하고, 생각을 하느라 중간에 잠깐 말이 늘어지기도 한다. ChatGPT는 이런 자연스러움을 갖췄다. 심지어 말을 시작하기 전에 가볍게 한숨을 쉰다거나, 말 사이사이에 숨을 짧게 들이마시거나, 특정 부분을 강조하기 위해 강세를 주고 천천히 말하는 디테일도 있었다.


사실 예전에 Google I/O 2018에서 구글에서 발표한 Google Duplex의 데모가 생각났다. AI 가 전화로 실제 매장에 예약을 하는 것을 시연했는데, 여기서도 중간중간 자연스럽게 '음..' 하는 Filler Words를 적재적소에 사용해서 사람과 거의 구분할 수가 없게 한다. 이때 많은 사람들이 놀랐다. 하지만 데모에서는 보통 아주 잘 동작하는 케이스만 뽑아서 가공하여 발표하는 경우가 대부분이기 때문에 이것이 과연 실제 제품에서 바로 사용할 수 있는 단계일까 하는 의문이 들었다. 실제로 구글 어시스턴트의 AI 보이스는 아직까지도 그때만큼 자연스럽지 않다. 이 정도의 성능이 평소에도 보장되도록 만들어 제품으로 출시하는 것은 더 어려운 문제다. 하지만 OpenAI는 이번에 이 어려운 것을 해냈다.


음성의 볼륨이 커졌다 작아졌다 한다


기존 AI 어시스턴트들(시리, 빅스비, 알렉사, 구글 어시스턴트, 네이버 클로바 등)은 한 가지 볼륨으로만 쭉 말한다. 너무나도 당당하고 자신의 말에 확신이 있는, 자신 있는 목소리다. 반면, ChatGPT의 음성은 실제 사람의 느낌이 난다. 그 당당함과 자신의 말에 대한 확신이 아주 조금은 반감된듯한 느낌. 말로 설명하기가 어렵다.


게다가 실제 전화나 화상 채팅을 할 때는 입과 마이크 사이의 거리와 네트워크 환경 등에 의해 목소리가 크게 들렸다, 작게 들렸다 한다. OpenAI에서 실제 사람과의 전화와 비슷한 느낌을 주기 위해 의도적으로 이런 데이터를 학습시킨 것인지는 모르겠지만 볼륨이 계속 바뀌는 게 느껴졌다. 심지어 어떨 때는 발화 마지막에 목소리가 기어들어가는 듯한 느낌이 굉장히 사실적이었다.


전화 영어를 완전히 대체 가능할까?


언어 학습, 특히 회화 실력 향상에 중요한 것은 듣기와 말하기 훈련이다. 이 두 가지를 골고루 많이 연습해야 회화 실력이 늘 것. 물론 저명한 언어학자인 스티븐 크라센 박사에 따르면 Comprehensible Input(이해가능한 입력)이 전반적인 언어 능력 향상에 중요한 역할을 한다고 한다. 듣기, 말하기, 읽기, 쓰기 능력이 완전히 분리된 영역이 아니라 모두 관련이 있기 때문이다. 하지만 많이 듣기만 한다고 해서 말하는 능력도 똑같은 수준으로 향상되지는 않을 것이다. 모든 능력치를 골고루 향상시키기 위해서는 내가 새롭게 알게 된 표현이 있으면 이걸 대화를 하는 상황에서 사용하는 훈련이 되어있어야 실전에서 실시간으로 바로바로 뱉을 수 있어 말하기 능력이 향상될 것이다.

그리고 당연히 말하기 훈련은 내가 알고 있는 말의 범위 내에서만 가능하기 때문에 어휘(Vocabulary)를 확장하는 훈련도 병행되어야 할 것이다.

또, 아무리 내가 적절하게 잘 말해도 상대방에게 전달되지 않으면 말짱 도루묵이므로 '어느 정도 수준'의 발음, 악센트, 인토네이션(intonation) 훈련 또한 필요하다.


전화영어는 위에 언급한 네 가지(듣기 훈련, 말하기 훈련, 어휘 확장, 발음 교정)를 모두 커버해 줄 수 있다.

ChatGPT는 이것들을 대부분 커버해 줄 수 있어 보였다. 특히 말하기 훈련만큼은 이론적으로 95% 정도는 대체할 수 있다고 생각했다. 왜냐면 사실 스피킹은 그냥 계속해서 말을 할 수 있는 상황만 만들어주면(즉, 적절하게 티키타카만 해주면) 충분히 훈련을 할 수 있기 때문이다. 사실 혼잣말로도 말하기 훈련은 할 수 있다. 하지만 그래도 상대방이 적절히 대화를 이어 나가 주면 더 다양한 표현을 써볼 수 있는 환경이 만들어질 것이다.

듣기의 경우도 AI 가 말하는 말들을 많이 들을 수 있기 때문에 훈련이 된다. 모르는 표현이 나오면 적어두었다가 공부하면 어휘도 확장시킬 수 있다. 아는 만큼 들리기 때문에 듣기는 결국 어휘와도 관련이 된다. 좀 더 다양한 국가의 억양(중국, 인도, 러시아, 영국, 그 외 유럽 국가 등)을 선택할 수 있다면 더 훌륭할 것 같긴 하다.


언제 어디서든 대화할 수 있다는 점에서 장점이 있는 것 같기도 한데, 오히려 단점이 될 수도 있을 것 같다. 일정을 정해놓고 하는 게 아니라 언제 어디서든 대화할 수 있으니 오히려 강제성이 없어 더 안 쓰게 될 가능성도 있다. 이것 또한 사람에 따라, 어떻게 쓰냐에 따라 다를 것 같다.


한계점


물론 아직은 여러 가지 한계점들이 느껴졌다.


기존 ChatGPT의 문제들


기존에 입력 텍스트를 받아 출력 텍스트를 뱉는 행위는 그대로 ChatGPT 가 수행할 것이다. 그럼 결국 기존에 ChatGPT 가 가지고 있던 다양한 문제점들은 그대로다. 그중 대표적인 것이 바로 실시간 정보를 반영하지 못한다는 점이다. 사람이나 AI 비서와 대화를 할 때 우리는 오늘 날씨나 최근 뉴스에 대해 이야기를 하기도 한다. 그리고 어느 정도는 당연히 알 거라고 기대하는 경우가 있다. 근데 과거의 데이터를 학습한 ChatGPT의 특성상 오늘 날씨를 물어보면 제대로 답을 해주지 못한다. 이점이 사람과의 차이를 느끼게 하는 하나의 포인트다.


대답이 느리다.


ChatGPT 같이 큰 모델일수록 추론 시간(inference time)에 소요되는 시간이 길 것이고, 현재 엄청난 트래픽이 몰리고 있어서 GPU 리소스의 한계도 있을 것이다. 그래서 지연시간(latency)이 꽤 길다. 질문을 하면 답을 얻는 데까지 매번 2~3초가량이 걸린다. 가끔 심하면 더 걸리기도 한다. 이 부분에서 또 사람과의 괴리를 느낀다. 물론 실제 사람도 말을 하기까지 생각을 하는 시간이 필요할 수 있다. 어떤 사람은 매번 답을 늦게 줄 수도 있다. 하지만 일반적으로는 입을 떼는 데까지 아무 말도 하지 않는 것이 아니라, '음..', '어..' 등의 생각한다는 표현을 한다. 이런 부분이 채워지지 않는 것에서 실제 인간과의 차이가 느껴졌다.


한정적인 대화 형식(나 질문 한 번, AI 답변 한 번)


실제 대화에서는 내가 말하는 도중에 상대방이 '어, 어', '아이고..', '그치..' 등의 추임새를 넣을 수가 있다. 그리고 상대방이 중간에 말을 끊고 자신의 이야기를 할 수도 있다. 하지만 ChatGPT는 기존의 다른 AI 어시스턴트와 마찬가지로, 내가 한 번 질문을 하면, 한 번 답변을 하고, 다음 질문을 기다린다. 그렇기 때문에 내가 말하고 있는 동안 추임새를 해줄 수는 없다. 반대로 AI 가 말하고 있는 도중에 내가 말 만으로 말을 끊을 수도 없다. 오직 버튼을 클릭하여 강제로 말을 멈추는 방법뿐이다. 

이 부분에 있어서는 여러 가지 고민해야 하는 포인트들이 있을 것 같다. 기술적인 한계도 있을 것이고,  UX 적으로도 고민이 필요할 것이다.


한정된 답변


AI는 사람보다도 훨씬 다양한 주제에 관해 대화할 수 있다는 장점은 있다. 하지만 답변에는 분명히 한계가 있다. 마치 백과사전을 잘 찾아서 읽어주는 딱딱한 느낌일 때가 많다. AI는 자신의 생생한 경험을 들려주지는 못한다. 답변이 굉장히 추상적이고 일반적이라 재미가 없다. 만약 사람이라면 '나도 이걸 해봤는데 이러이러한 에피소드가 있고, 주변에 내 친구는 이게 아니라 이걸 해봤다는데 이건 어떻다더라 이러쿵저러쿵...' 이런 식의 대화가 가능할 것이다. 하지만 ChatGPT는 그렇지 못한다. 우선 다른 사회적 존재와의 네트워크(사람이라면 친구, 가족, 직장동료)가 없다는 것이 큰 차이다.


이러한 점에서 언어학습에 가장 중요한 부분인 '꾸준함'을 유지하기 위한 충분한 흥미요소를 줄 수 있을지 의문이다. 나의 경우 보통은 단순히 궁금증의 해소, 영어 작문에 있어서의 도움 요청 등의 목적으로 주로 ChatGPT를 사용했지, 일상 대화에 사용해 본 적은 거의 없다. 다른 사람들도 비슷할 거라고 생각한다. 이건 조금 더 써봐야 하긴 할 듯.


말이 다 끝나지도 않았는데 대답을 한다.


위의 문제점과도 연결되는 문제다. 질문과 답변을 한 번씩 돌아가는 식의 단조로운 대화만 가능하고, 만약 AI 가 내 말이 끝났다고 판단하고 말을 시작해 버리면, 나는 속수무책으로 듣고 있을 수밖에 없다. 이런 일이 반복되면 짜증이 난다. 그리고 나는 항상 말을 할 때 AI 가 답변을 시작하지 않도록 하기 위해 노력을 기울이게 된다. 이 부분에서 내가 사람과 대화한다는 느낌이 많은 부분 사라져 버린다.


말이 빠르다


천천히 말해달라고 했는데 약간의 변화가 느껴지긴 했으나, 그래도 큰 차이는 없었다. 나는 그래도 알아듣는데 큰 지장이 있지는 않았지만, 꽤 빠르게 말하는 편이긴 했다. 사실 이게 본토에서 원어민들끼리 대화할 때의 일반적인 속도 같긴 하다. 하지만 영어를 학습하는 사람의 입장에서는 말하는 속도를 조절할 수 있어야 편할 것이다. 전화 영어 선생님들은 자유자재로 속도를 조절해 줄 수 있다. 실제로 수강생의 리스닝 실력에 따라 조절을 해주는 경우가 일반적일 것이다.


결론


사실 결국 언어학습에서 가장 중요한 건 '꾸준함'이다. 그래서 아무리 남들이 좋다는 방법이더라도 내가 오래 지속할 수 없으면 아무 의미가 없다. 그래서 가장 좋은 것은 내가 좋아하는 것을 영어로 하는 것이라는 말이 많이 나오는 것이다(좋아하는 팝 가수 노래 가사 이해하면서 듣기, 좋아하는 미드 자막 없이 보기 등). 하지만 아직까지 인공지능이 사람과 99% 싱크로율을 가지지 못하고, 그렇기 때문에 얘기를 하다 보면 인공지능과 대화를 하는 게 좀 지루해지는 순간이 있는 것 같다. 어느 정도 답변 패턴이 파악이 된다는 것도 한몫하는 것 같다. 내가 사람과 대화하고 있다는 사실을 알기에 재미가 있기 때문이다. 물론 사람 또한 각자 말하는 패턴이 있긴 하겠지만 좀 더 예측이 안 되는 변수들이 많이 있는 것 같고, 그래서 지루하다는 느낌이 덜 들지 않나 싶다. 물론 지루한 사람도 있고, 재밌는 사람이 있는 것처럼 케바케이긴 하다. 결국 꾸준하게 ChatGPT와 대화를 할 수만 있다면 전화영어를 통해 얻을 수 있는 학습 효과를 거의 비슷한 수준으로 충분히 얻을 수 있다고 생각한다.


물론 전화영어 선생님의 좋은 점은 여전히 있다. 좋은 선생님을 만난다면, 내가 언어학습 방법 자체를 잘 몰라도 다년간의 노하우를 통해 잘 리드를 해주기 때문에 알아서 좋은 표현들과 예시 문장들을 소개해주기도 하고, 문법적으로 틀렸거나, 어색한 부분들을 바로바로 교정해 주기도 하고, 자신 없어할 때면 격려를 해주기도 한다. ChatGPT는 내가 '잘' 질문을 해야 한다. 질문을 얼마나 잘하냐에 따라 답변 퀄리티가 달라지고, 대화 방향이 달라진다.


마지막으로, 나는 현재 영어 채용 인터뷰를 연습하는 데도 활용할 수 있을지 테스트 중인데, 아직까지 다른 사람과 하는 것을 대체하기는 어려워 보이지만 충분히 활용하기 좋을 것 같다.

자주 등장하는 Behavioral interview 질문들을 롤플레잉 형식으로 하나씩 질문해 달라고 하니 정말 적절한 질문을 해주었다. 내가 답변을 시작한 뒤 도입부 정도만 말한 상황에서 AI 가 답변을 해버렸는데, 놀랍게도 디테일한 상황을 아직 말하지 않은 것을 알고 좀 더 기술적인 디테일을 말해달라고 요구했다. 그리고 상황을 설명하고 있었는데 또 AI 가 답변을 해버렸지만, 또 놀랍게도 이제는 문제상황을 해결한 단계들을 설명해 줄 수 있냐고 물어봤다. 모범적인 답변을 할 수 있도록 리드를 해주는 느낌이었다. 끝나고 바로 다음 질문을 해버리길래 혹시 이전 답변에 대한 피드백을 줄 수 있냐고 했는데, 충분히 적절한 피드백이긴 했으나, 아주 디테일하고 경험에 기반한 피드백에 견주지는 못할 것 같았다. 그냥 아주 제너럴 한 답변을 줄 뿐이었다. ChatGPT 가 그냥 그런 것 같다. 딱히 모나지 않은 대답만을 그럴듯하게 잘 포장해서 말한다.

그래도 랜덤 한 질문을 잘해줘서 '답변을 생각해서 영어로 말하는 연습'을 시켜줄 수 있다는 점에서 충분히 활용할만한 가치가 있는 것 같다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari