침묵을 견딜 수 없는 OpenAI의 Whisper는 문제가 없을까
최근 AI가 텍스트, 이미지, 음성 등 다양한 데이터 유형을 생성하며 그 가능성을 보여주고 있지만, 여전히 ‘환각’이라는 문제에서 자유롭지 않습니다. 특히 OpenAI의 Whisper 같은 음성 인식 모델이 텍스트 생성 AI처럼 존재하지 않는 정보를 창조하는 경우가 빈번하게 발생하며, AI의 예상치 못한 ‘상상력’이 주목받고 있습니다. 이 현상은 Whisper의 사용 분야가 의료, 고객 상담 등 중요한 정보가 오고 가는 상황에서 특히 우려되는 문제로 부각되고 있는데요. Whisper가 빈 공간을 참지 못하고 ‘말하지 않은 정보’를 창조하는 이 과정은 기술적으로 어떤 이유에서 발생하는지, 또 이러한 환각이 실제 어떤 문제를 일으킬 수 있는지 자세히 살펴보겠습니다.
Whisper와 같은 음성 AI는 입력 음성을 텍스트로 변환하면서 빈틈을 찾고, 이를 어떻게든 채우려는 경향이 있습니다. Whisper는 음성 인식 과정에서 긴 침묵이 등장할 때 이를 정보의 결핍으로 인식하고, 이를 스스로 채워 넣으려 합니다. Whisper는 단순히 말을 기록하는 AI가 아니라, 음성의 패턴과 맥락을 인식하고 이를 토대로 텍스트를 생성하는 ‘생성형 AI’이기 때문에 이러한 현상이 일어납니다. 텍스트 생성 AI가 독해되지 않는 단어를 문맥적으로 추측해 생성하듯, 음성 AI도 일정 부분 비슷한 방식으로 정보의 공백을 추측해 채우려는 것이죠. 개발자들은 음성 조작이 멈추거나, 배경 소리만 들리거나, 음악이 재생되는 중에 환각 현상이 발생하는 경향이 있다고 말했습니다.
코넬 대학교의 연구에 따르면 이러한 Whisper의 환각이 빈 음성 구간, 즉 ‘침묵 구간’이 길어질수록 더 빈번하게 발생한다고 밝혔습니다. Whisper가 긴 침묵을 데이터 손실이나 잘못된 입력으로 해석하면서 그 공백을 채우려 하다 보니, AI가 없는 내용을 덧붙이는 경우가 발생하는 것입니다. 이는 인간의 사고에서 생기는 ‘착각’과 비슷하게 작용하여, 우리가 흔히 말하는 ‘AI 환각’ 현상으로 불리고 있습니다.
이러한 AI의 상상력은 재미로 넘길 수도 있지만, 실제 생활에서 특히 의료 분야에서라면 상황은 달라집니다. Whisper의 음성 인식 기술이 의료 상담에서 사용될 때가 대표적인 예로, 사용자가 언급하지 않은 약물 이름이나 증상을 추가하는 사례들이 보고되고 있습니다. AP 통신 기사에 따르면, Whisper는 환자가 특정 약물이나 진단에 대해 발언하지 않았음에도 불구하고 이를 만들어내는 경우가 있었습니다. 예를 들어, 한 환자가 자신의 상태를 설명하고 있을 때 Whisper가 전혀 다른 약물 이름을 끼어 넣거나, 환자가 이야기하지 않은 진단명을 덧붙이는 경우입니다. 이와 같은 문제는 단순한 음성 인식 오류로 볼 수 있지만, 실제 의료 상담에서 발생할 경우 심각한 혼란을 초래할 수 있습니다.
한 의사가 환자의 증상을 기록하는 과정에서 Whisper가 ‘상상 속의 약물’을 적어 넣는다면 어떻게 될까요? 예컨대, 환자가 복용하고 있지 않은 약물을 적거나, 잘못된 복용량을 입력할 수 있는 가능성이 생깁니다. 특히 환자가 복용 중인 약물이나 알레르기 정보는 중요한 생명 정보로, Whisper의 잘못된 환각이 이를 왜곡하면 예기치 못한 의료 사고로 이어질 가능성이 있습니다. 음성 AI의 환각이 단순한 오작동을 넘어서 위험한 허위 정보를 만들어내는 상황이 발생하는 것입니다.
AP통신에 따르면 이러한 여러 경고들에도 불구하고, 병원이나 의료센터에서는 Whipser를 활용한 음성-텍스트 변환 모델을 이용해 의사의 진찰 중에 말한 내용을 기록해서 활용되고 있습니다. 3만명 이상의 임상의와 미네소타, 로스엔젤레스의 아동병원을 포함한 40개의 의료기관들이 프랑스와 미국에 지사를 둔 Nabla가 구축한 Whisper 기반 도구를 사용하기 시작했거든요. 이미 700만건 이상의 의료 방문 기록에 사용되었으며, 의료 용어에 최적화된 모델이 사용되고 있는 것으로 알려졌습니다.
Whisper의 실제 결점은 전체 음성 분량의 1.4% 정도에서 발생한다고 하지만, 이 환각 현상은 인종 차별적인 논평이나, 폭력적인 문장, 상상에 의한 치료법을 포함할 수 있다고 여러 분석 개발자들이 밝히기도 했습니다. OpenAI는 이런 이유로 '고위험 영역'에서는 이 도구를 사용해서 안된다고 경고하지만, 많은 의료센터와 법률기구에서 이것을 활용하는 것을 서두르고 있는 문제가 있습니다. 음성 구분에 문제가 없는 13,000개의 오디오 파일들에서 187개의 환각 현상을 발견했다고 하니, 대규모의 음성 데이터를 Whipser로 분석할 때에는 잘못된 결과들을 구분하기가 더욱 어렵겠죠.
특히, Whipser가 활용될 것으로 예상되는 분야가 청각 장애인들을 위한 실시간 자막 등을 제공하는 것이라면, 장애인들이 텍스트 사이에 숨겨져 있는 거짓말들을 식별하는 것은 매우 어려운 일이 될 겁니다.
Whisper와 같은 생성형 AI가 빈 구간을 채우려는 습성은 왜 생기는 것일까요? 이는 AI가 데이터를 처리하고 예측하는 방식과 밀접한 관련이 있습니다. Whisper는 사용자의 음성을 받아들여 이를 문자로 변환하는 과정에서, 이전 발화의 맥락과 패턴을 학습하여 다음에 나올 발음을 예측합니다. 이 과정에서 Whisper는 텍스트 생성 AI와 유사하게 ‘문맥적 완성’을 시도하는데, 여기서 문제가 발생합니다. 침묵이나 공백을 실제 대화의 중단이 아니라 다음 내용이 있어야 할 ‘빈 구간’으로 인식하기 때문에, 이를 자동으로 메우려는 시도가 이루어지는 것입니다. 특히, 다른 AI의 환각현상보다 Whipser의 환각 현상이 더 자주 혹은 심각하게 발생하는 경향도 보이는 문제가 있다는 주장도 있죠.
이런 메커니즘은 AI의 설계상 논리적이지만, Whisper가 구체적이고 사실적 정보를 창조하는 데 익숙한 인간 사용자에게는 종종 비논리적이고 오류로 다가옵니다. Whisper는 실제로 입력된 음성보다 ‘추론된 텍스트’를 자주 출력하면서 예상치 못한 정보 왜곡을 일으키기도 합니다. Whisper가 단순히 음성을 기록하는 데 그치는 것이 아니라 적극적으로 문맥을 완성하려는 특성이 문제의 본질인 셈입니다.
Whisper의 환각을 막기 위해 AI 개발자들은 다양한 방법을 연구하고 있습니다. ACM의 연구자들은 Whisper와 같은 음성 인식 모델에서 침묵이 길어질수록 환각 확률이 높아지는 점에 주목하며, 모델이 침묵을 단순히 ‘채워야 할 구간’으로 인식하지 않도록 개선하는 방안을 제안하고 있습니다. 예를 들어, Whisper가 특정 구간에서 사용자가 발언한 내용만을 기록하도록 제한하는 방법을 고려할 수 있습니다. 이러한 접근법은 Whisper가 환자의 말을 있는 그대로 기록하도록 하여, 불필요한 정보를 추가하지 않도록 유도하는 것입니다. 즉, 정확한 데이터 라벨링과 맥락에서 실제 발화된 내용만 사용하도록 강화학습이 다시 되어야 할 필요가 있다는거죠.
또한 Whisper와 같은 AI가 실제로 중요한 의사 결정을 돕는 상황에서는 인간 전문가의 검증 과정이 반드시 필요합니다. 의료 상담이나 법률 상담과 같이 정보의 정확성이 필수적인 분야에서는 AI가 단독으로 작동하는 대신, 사람의 판단으로 최종 검증을 거치는 시스템이 요구됩니다. 이는 AI가 잘못된 정보를 창조해내는 상황을 방지할 뿐만 아니라, AI의 환각 현상이 실제로 불러일으킬 수 있는 오해와 위험을 최소화하는 안전장치가 될 수 있겠죠.
결국 Whisper의 환각 문제는 AI가 빈 공간을 채우려는 시도에서 발생하는 부작용이라고 볼 수 있습니다. 하지만 AI의 환각은 그 자체로 인간에게 AI의 한계를 일깨워주는 중요한 사례이기도 합니다. 인간은 침묵에서 의미를 찾아내거나 정보를 보충하려 하지 않습니다. 오히려 침묵을 침묵으로 받아들이며 맥락을 이해하는 반면, AI는 침묵을 ‘문제가 있는 상태’로 판단하고 채워 넣으려 합니다.
Whisper는 오늘도 빈 음성 구간에서 무언가 말을 만들어 내려고 하고 있습니다. 그저 침묵을 침묵으로 두는 단순한 일조차도 AI에게는 해결해야 할 문제처럼 보이기 때문에, Whisper와 같은 음성 AI는 종종 지나친 상상력을 발휘하게 됩니다. AI가 침묵을 못 견디는 것은 인간처럼 감정적이어서가 아닙니다. 그저 결핍을 데이터로 채워야 한다는 논리적 규칙이 그렇다고 명령하기 때문이죠. AI가 만들어내는 상상의 이야기들은, 그래서 때로는 우리가 상상하지 못했던 또 다른 형태의 위험을 안고 있기도 합니다.
* 참고 자료 : Careless Whisper: Speech-to-Text Hallucination Harms
Researchers say AI transcription tool used in hospitals invents things no one ever said | AP News