라디오가 AI시대를 버텨낼 세 가지 이유
이 매거진을 시작하며 저의 정체성을 라디오PD와 양육자로 잡았는데요. 그래서 역시나 글이 왔다 갔다 합니다. AI라면 이렇지 않았을 겁니다.
지난 두 글이 인공지능 대신 인간지능을 키워내겠다는 양육자의 화두였다면, 이번 글은 라디오PD로서의 고민입니다. 요즘 다들 자문하는, '내 직업, 내가 몸담은 업계 괜찮을까?'에 대한 자답말이죠.
라디오에 필요하지만 제작국에서 하긴 애매한 모든 일을 합니다.
저희 팀 노션 대문에 적어둔 문구입니다. 거창한 비전이나 소명이라기보다 말 그대로, '우리는 잡부'라고 인정하는 셈입니다. 눈에 보이는 라디오PD의 일을 적어보자면 스텝들과 기획회의 하고, 큐시트를 쓰고, 생방을 하거나 스튜디오에서 녹음한 뒤 편집해서 넘기는 건데요. 저희는 위 업무는 기본이고 메타데이터, 디지털 콘텐츠, 유통 플랫폼에 대한 고민 등을 떠맡고 있습니다.
그래서인지 저희 팀에 오는 메일이나 전화는 ‘여기에 문의하는 게 맞나 모르겠는데…’로 시작합니다. 자칭 라디오의 다산콜센터. 브랜딩, 콘텐츠 마케팅, 저작권 등등 정말 많은 걸 공부(!)할 수 있지요. 작년엔 20년 동안 손보지 않아 중구난방으로 쓰이던 콩 캐릭터를 리뉴얼하고 디자인 가이드를 만들었어요.
상황이 이렇다 보니 AI 관련 업무도 저희 팀의 몫입니다. 작년엔 개인적으로 슬슬 써보던 AI를 올해 초부턴 본격적으로 파고 있습니다. 타사나 외부 솔루션을 면밀히 살펴보며 시스템 구축을 기획하고, 비용대비 효과를 평가해야 하니까요.
현재(2025년 8월) 기준, 제가 내린 잠정적인 결론은 "라디오는 (이렇게 하면) 괜찮을 것 같다."입니다. 아래 세 가지가 그 이유입니다.
1. 라디오는 인력과 비용절감이 극적이지 않다.
'Kalshi'라는 서비스의 광고를 보신 적 있나요? 아래 이미지인데요. 구글의 동영상 생성형 AI 툴인 'VEO 3'으로 100% 만들었습니다. 길이는 30초로, NBC 파이널 3차전 광고로 방영되었습니다.
이 광고는 PJ Ace라는 제작자가 만들었습니다. 뉴스레터를 통해 만든 과정을 자세히 밝혔는데요, 통상 40만 달러가 넘는 예산으로 2개월 정도 걸려서 만들어야 하는 영상을 2-3일 만에 2000달러의 비용으로 완료했다고 합니다.
예산이 최소 95% 절감된 셈(40만 -> 2000달러)입니다. 업계 관계자들은 최대 99.2%까지 절감되었다고 보고 있습니다.
시간도 중요하죠. 제작기간이 두 달에서 이틀로 줄었다는 건 단순히 수치로만 봐도 1/30이지만 날씨, 인력, 콘텐츠의 타이밍 등 다양한 변수를 감안하면 비용보다 더 극단의 효율을 보여줍니다.
그런데 라디오를 포함한 오디오콘텐츠는 소수 정예 저비용으로 만들어집니다. 고퀄의 라이브 콘텐츠가 아닌 이상 애초에 진입장벽이 낮기도 하지만, 반면 그만큼 AI로 줄일 수 있는 비용의 규모 자체가 작습니다. 닭과 달걀의 문제지만, 국내 오디오콘텐츠 광고시장이 제대로 형성되어 있지 않은 것도 제작비용을 못 늘리는 이유 중 하나지요.
실제로 노트북LM이나 일레븐랩스로 테스트할 때마다 이런 탄식이 자주 터져 나옵니다.
아, 이거 그냥 사람이 와서 다시 녹음하고 편집했으면 진작에 끝났어.
airing a fully AI-generated commercial during the NBA Finals for just $2,000. Created in 2–3
맞아요. 심지어 요즘은 스튜디오라는 물리적 공간이 아니어도 녹음하고 전송하고 편집할 수 있습니다. 다소 자조적이지만 AI로 아끼고 말고 할 예산 자체가 별로 없습니다. 하드웨어를 제외하면 제작비가 영상 대비 한 줌이고요. 구체적인 금액은 밝힐 순 없지만 제가 섭외할 때 보내는 문자나 메일엔 아래 구절이 꼭 들어갑니다.
2. 음성 관련 기술이 인간을 대체하기에 아직 충분치 않다.
대부분의 오디오 콘텐츠는 그저 텍스트를 음성으로 바꾸는 TTS로는 만들기 어렵습니다. 재난방송이나 사내 안내방송처럼 전형적인 패턴이 있는 것들이 완성도가 높은 편이지만 극히 일부입니다. 대부분은 감정을 살리고, 상대의 이야기에 반응해야 하는 것들이라서요.
그나마 구글에서 구현한 노트북LM의 오디오 프리뷰가 독보적입니다. 텍스트를 밀어 넣으면 거기에 대한 7분 내외의 크로스토크 오디오파일이 1분 안에 생성됩니다. RAG 방식이다 보니 환각현상(AI Hallucination)도 거의 없고요. TTS(Text to Sound) 퀄리티는 처음 들으면 소름 돋습니다. Google Research의 SoundStorm 프로젝트 덕분에 정말 사람이 말하는 것처럼 약간 주저하기도 하고, 추임새도 넣고, 때로 엄살도 떨 거든요. (*후기 : https://brunch.co.kr/@giraffesister/280)
그런데 말입니다.
제 기준으로 이 혼성 2인조의 크로스토크, 세 번 들으면 질립니다. 영어는 좀 낫습니다. 한국어와 영어 도합 서른 번쯤 해봤더니 처음엔 놀라웠던 맞장구도 대충 예상이 되네요.
이 정도 기술은 라디오처럼 매일 다량을 만드는 오디오콘텐츠 인프라로 사용하기엔 한계가 있습니다. 국내 솔루션도 클립의 분량조절과 감정표현의 완성도가 높지 않아 일일이 듣고 편집하거나 음악길이로 맞추는 등 그냥 제작하는 것보다 오히려 품이 더 드는 게 현실입니다. 'AI 음성에 인격을 부여할 것인가' 하는 윤리적이고 철학적인 문제는 차치하고 일단 아직 충분치 않아요.
음성 관련 기술이 앞으로 더 고도화될 것은 분명하지만, 유머나 라포... 자신의 경험 등 사람만이 가진 자질을 뛰어넘을 수 있을까요? 기술적으론 충분히 (그것도 빠른 시일 이내에) 가능하다고 봅니다. 다만 1번과 연결 지어보면 거기에 빅테크 기업들이 돈을 쓸지는 의문이에요. 영화 <Her> 에서와 같은 개인화 비서까지 만들 요량이면 하겠지요. 이 지점에서 3번으로 이어가 봅니다.
3. 맞춤형, 개인화의 반작용이 올 것이다.
AI는 '개인화'를 가속시킵니다. 검색으로 예를 들어볼게요. 우리는 주로 네이버 메인에서 검색해서 카페나 블로그의 결과물을 찾아봤습니다. 좀 더 전문적인 지식은 지식인 같은 커뮤니티 공간에서 검색하고 공유된 정보들을 함께 봤지요.
하지만 이제 각자 자신의 챗GPT에게 물어봅니다. 타인의 질문과 그 결과를 함께 나눠보지 않아요. 아래 기사의 그래프에서 보듯이요.
[출처:중앙일보] https://www.joongang.co.kr/article/25340154
그런데 개인화, 맞춤형이 계속되기만 할까요? 저는 그렇지 않을 거라고 봅니다. 우리는 늘 다른 사람은 어떻게 생각하는지, 무엇을 좋아하는지, 이 사회가 어떻게 돌아가는지 궁금해하는 존재거든요. 그래서 유튜브도 댓글을 보고, 후기를 보고, SNS를 하잖아요. (그조차 알고리즘의 가두리 안에서 맴돌지만)
자신의 취향과 지식 안에서만 수렴될 때, 그 결과물은 한계에 부딪힙니다. 모여서 같이 떠들고 나누고 깨지고 싸우면서 우리는 더 성장하죠. 무엇보다 그게 더 재밌습니다. AI와 단둘이 작업하다 보면 전 어느 순간 지루하던데 여러분은 어떠신가요?
알고리즘이 골라 준 게 아니라 우연히 발견한 무언가, 내가 좋아하는 사람이 하고 있는 의외의 것을 같이 하고 싶은 마음. 저는 사람들이 '함께 하는 고단하고 번거롭고 귀찮고 비효율적인 즐거움'을 그리워하는 때가 곧 올 거라고 믿습니다.
누군가와 같은 음악을 같이 듣고, 알고리즘은 결코 들려주지 않을 뜬금없는 삶의 이야기를 나누고, 지금 내가 있는 곳과는 전혀 다른 어딘가로 데려가는 역할. 어! 라디오가 제일 잘하는 거잖아요.
어떠세요? 업계 종사자 여러분 조금 마음이 놓이시나요? 라디오가 TV와 유튜브를 거쳐 AI 앞에서도 살아남을 거라 주장하고 있자니 허풍쟁이가 된 것 같기도 한데요. 위의 세 가지 근거가 와닿으시는지 궁금합니다. (이견을 환영해요. 댓글로 남겨주세요!)
그런데 제 잠정적인 결론엔 조건이 있었습니다. 바로 '이렇게 하면'인데요. 포맷, 형식, 인프라 등 라디오가 살아남기 위해선 고민해야 할 구석이 다분히 있습니다. 다음 글에서 '이렇게 하면'을 풀어놓아볼게요.