brunch

노트북LM이 만든 오디오 오버뷰

와! 이 퀄리티 무엇?! 이걸 라디오 방송에 쓰면 되겠지요?

by 이진희
챗GPT가 원고를 쓰고
TTS(Text to Sound)가 아나운싱 한다.


요즘 오디오 방송계가 하고 있는 여러 시도의 요체입니다. 프롬프트 엔지니어링, 일레븐랩스 등을 통한 학습, 사후 튜닝 등 사이사이 들어가는 작업을 엄청나게 훑어내면 거의 비슷한 맥락이지요. 작업해 본 분들의 평가는 '아직 실제 사람이 하는 것에 비해 비용과 시간 측면에서 효율적이지 않다'가 대다수입니다.


그런데 최근 노트북LM이 이 모든 비효율을 일순간에 해결해 냈더군요. 2025년 4월부터 한국어로도 가능해진 AI 오디오 오버뷰입니다. 유튜브나 책을 밀어 넣고 요약해서 듣는다는 경험담도 솔솔 들리네요.

저도 테스트를 해봤습니다. 회사업무나 특정 저작권에 걸리지 않는 소재를 찾던 찰나, 2023년에 번역 작업을 했던 책이 나와서 요걸로 돌려봤습니다.


https://www.yes24.com/product/goods/146960348

<다섯 개의 의자, 다섯 가지 선택>은 조직 내 커뮤니케이션에 관한 책입니다. 비교적 구어체로 이루어진 데다가 구조가 명확해서 노트북LM이 잘해 낼 거란 기대를 했습니다. 264페이지의 PDF를 밀어 넣고, 아래와 같이 맞춤설정을 했어요.

4분 정도 지난 후에 6분 51초짜리 WAV 파일이 나왔습니다.


'안녕하세요~'로 시작되는 이 오디오 파일 안에 정보오류나 환각은 전혀 없었습니다. 아무래도 LLM(Large Language Model)이 아니라 특정 텍스트를 기반으로 하는 RAG(Retrieval-Augmented Generation) 방식이기 때문이겠죠.


그리고 정말 다양한 활동 중에 두 개를 골라낸 인사이트도 훌륭했고, 마지막으로 청자들에게 던지는 질문들도 손색이 없었습니다. 발음이나 톤이 어색한 경우는 딱 다섯 번있었습니다. 연음과 포즈 문제라 일반인 분들이 듣기엔 귀에 걸리지 않을 수도 있겠어요.


이 파일을 동료들과도 모니터 했고, 반응은 아래와 같았어요.

우선 퀄리티 면에서 놀랍다.
그냥 읽는 게 아니라 둘이 주거니 받거니 구어체로 하는데 톤도 거의 튀지 않는다.
단순히 책에 있는 정보 외에 진행을 위한 추임새나 브릿지 멘트까지 어떻게 이렇게 자연스럽게 구현되는 걸까?
2인 출연료, 원고료, 스튜디오 녹음 진행비, 스튜디오라는 물리적 공간 등등 엄청나게 많은 비용과 시간이 줄어든 것 같다.
사람인 척하는 게 불편하다 (인공지능에서 흔히 등장하는 불편한 골짜기)


그래서 이걸 방송에 쓸 수 있을까요? 어디선가 누군가는 상용화하리라 봅니다. 그만큼 완성도나 비용시간 절약 측면에서 강점이 있으니까요. 하지만 저는 개인적으로, 또 적어도 송출되는 방송 자체로 사용하지는 않아야 한다고 생각합니다. (2025년 7월 현재) 이유는 아래와 같아요.


아래 그림은 미국의 행동과학연구소(NTL : National Training Laboratories)가 출처로 되어 있는 학습 피라미드(learning pyramid)입니다. 경험의 원뿔(cone of experience)이라고도 부르는데요. 보시면 무언가를 읽거나 들었을 때 우리가 기억할 수 있는 비율이 10~20%에 불과합니다. 시각적인 이미지나 비디오를 보거나 시연을 보았을 때 그나마 50%까지 다다릅니다. 진짜 학습은 참여적 학습방법(초록색 부분)일 때 이뤄집니다. 함께 토의하고 직접 연습하고 타인에게 자기가 이해한 것을 가르쳤을 때 온전히 자기 것이 되죠.

이 피라미드의 수치는 학습효율을 설명하기 위한 편의에 가깝습니다. 하지만 적어도 다양한 차원으로 직접 경험할 때 학습효과가 높다는 점에서는 이견이 없어보입니다.


요즘 책, 영화, 드라마를 온전히 다 보는 경우는 드뭅니다. 유튜브나 팟캐스트에서 요약본을 보거나 듣는 경우가 많죠. 실제 저도 책이나 영화 코너를 만들 때, '안 보고도 본 것처럼', '읽지 않았지만 읽은 것처럼' 느끼게 제작해 달라는 이야기를 많이 들었습니다.


노트북LM이 축약한 6분 51초의 파일을 듣고 <다섯 개의 의자, 다섯 가지 선택>을 이해했다고 착각하기 쉽습니다만 이 책을 번역한 저로서는 동의하기 어렵습니다. 이런 형태의 콘텐츠는 저 피라미드의 꼭대기에 얹어진 유리구슬 같다고 생각합니다. 빙산의 일각에 얹어진 얼음조각 하나랄까요? 완전 가짜는 아니지만 진짜의 겉의 겉의 겉의 겉이라 도무지 진짜라고 말하기 어려운 지경.


이 책을 PD와 작가가 직접 읽고, 그렇게 나온 원고를 가지고 두 진행자가 대화 나눴다면 적어도 네 사람이 내용에 대해 생각해 보고 더 잘 전달하기 위해 고민하는 계기가 됐을 겁니다. 하지만 그 과정을 노트북LM에게 일임함으로써 ‘정작 배우거나 달라진 사람'은 없다고 볼 수 있습니다. 중장기적으로 제작역량을 키울 기회가 없어질 테고요. 결과물을 듣는 사람의 입장은 또 다른 주제라 찬찬히 생각해 볼게요.


제작자 입장과 관련해 얼마 전 읽은 논문이 떠오르네요. MIT 미디어랩에서 한 연구이고, 206페이지가량인데요. 보스턴 지역의 18~39세 참가자 54명을 세 그룹으로 나누어 각각 1) 챗GPT, 2) 구글 검색, 그리고 3) 아무 보조 없이 SAT 에세이를 20분간 쓰게 했습니다. 연구팀은 참가자들이 글을 쓸 때 EEG(뇌파측정기)를 통해 뇌의 32개 영역에서 나타나는 활동을 기록했지요.


그 결과 챗GPT를 사용한 참가자들이 가장 낮은 수준의 뇌 활성도를 보였습니다. 그들은 연구가 진행되는 몇 달 동안 점점 더 게을러졌으며, 거의 복사 및 붙여 넣기에 의존했고 프롬프트도 '에세이 써 줘', '편집해 줘'로 수렴되었다고 합니다. 논문에선 '실제 기억망에서 아무런 통합이 이뤄지지 않은 상태'라고 표현합니다.


반면 아무 보조 없이 직접 글을 쓴 그룹은 뇌의 신경 연결성이 가장 높았고, 창의적 아이디어 형성, 기억력, 의미처리와 관련된 뇌파가 활발히 나타났습니다. 무엇보다 자신이 쓴 글에 대한 소유감과 만족감이 높았지요.

구글 검색이라는 수단을 동원해 글을 쓴 그룹의 반응도 주목할만합니다. 글에 대한 만족감이 높고 뇌 기능이 활발했으니까요. AI나 인터넷 검색을 어떤 단계에서 얼마나 사용해야 하는지 시사하는 바가 큽니다.


https://arxiv.org/abs/2506.08872


AI 툴의 결과물을 보거나 듣고 '이걸로 방송하면 되겠네? 써 보니까 퀄리티 좋던데'라고 말씀하시는 분들의 결정이 저는 매우 위태롭게 느껴집니다. 듀얼 브레인이 아니라 모두가 노 브레인이 되는 사태가 벌어질 것 같아서요.


더구나 제가 몸담은 방송사는 일정 정도의 공공재원에 기대어 운영되고 있습니다. 제가 느끼기에 진짜와 가짜가 뒤섞인 이 혼돈의 AI시대에, 적어도 저희는 중심을 잡아야 한다고 생각합니다. 무엇이 진실인지 끝까지 파고들고, 저 목소리는 진짜 사람이며, 내용은 마지막에라도 사람의 손을 거쳤다는 성실함과 신뢰가 점점 더 중요해질 테니까요.

그리하여 AI만능시대에 엔드 단에는 결코 AI를 쓰지 않겠다고 결연하게 '탈AI 선언'을 하면 어떨까요? 그게 오히려 힙한 세상이 되었습니다.


일단 저부터, 적어도 이 매거진에 담기는 글은 챗GPT를 사용하지 않고 글을 쓰려고 합니다. 논문이나 기사도 다 직접 읽고, 요약하고, 제 머리로 생각하고, 저의 언어로 만들어, 제 손끝으로 타이핑해서 뱉어내 보려고요. 노트북LM에 비해 엄청나게 비효율적이고 때로 오류가 있겠지요. 하지만 그 한 땀 한 땀이 뇌와 몸에 새겨져 오롯이 저의 것이 될 거라 믿습니다.

keyword
매거진의 이전글인공지능 표류기를 시작하며