라디오 인터뷰 녹음을 AI 세 곳에 맡겼더니

Gemini 승리

by 송 재희

라디오 인터뷰 녹음을 AI 세 곳에 맡겼더니
— 결과가 놀라웠다


신간 소개를 위한 1시간짜리 라디오 인터뷰를 녹음한 후, 나는 Claude, Gemini, Kimi에 음성 전사를 맡겼다. 제대로 해낸 곳은 단 하나였다 — 그리고 그 교훈은 음질의 문제를 훨씬 넘어선다.


Screenshot 2026-03-20 at 6.25.02 AM.png


지난주, 나는 라디오코리아 스튜디오에서 신간 AI 개발 가이드를 주제로 1시간짜리 대화를 나눴다. 인터뷰는 내가 가장 열정을 쏟는 주제들을 두루 다뤘다. 엔지니어가 아닌 보통 사람들도 AI의 도움으로 실제 소프트웨어를 만들 수 있는 방법, 그리고 AI를 '아는 것'과 AI로 무언가를 '실제로 만드는 것' 사이의 간극이 왜 우리 시대의 핵심 역량 문제인지에 대해 이야기했다.


집으로 돌아오는 길, 내 휴대폰에는 그 대화의 60분짜리 녹음 파일이 담겨 있었다. 나는 이 내용을 블로그 포스트, 링크드인 아티클, 혹은 뉴스레터로 만들 수 있는 깔끔한 스크립트가 필요했다. 그래서 호기심 많은 실무자라면 당연히 할 법한 일을 했다. 오늘날 가장 유능한 AI 플랫폼 세 곳 — Claude, Gemini, Kimi — 에 파일을 업로드하고 각각에게 음성 전사를 요청했다.


그 결과는 AI가 여전히 어디서 실패하는지를 보여주는 생생한 교훈이었고, 아무리 강력한 도구라도 서로 대체 불가능하다는 사실을 다시금 일깨워주었다.


테스트: 하나의 음성 파일, 세 개의 플랫폼


녹음 파일은 표준적인 한국어 라디오 방송이었다. 진행자와 나는 라이브 인터뷰의 자연스러운 리듬과 겹침으로 편하게 대화했다. 스튜디오 수준의 완벽한 음질은 아니었지만, 충분히 쓸 만한 품질이었다. 내 책 제목과 내 이름 송재희가 반복적으로 등장했다.


나는 세 도구 모두에 동일한 파일을 올리고 간단한 지시만 내렸다: "이 음성을 전사해 주세요." 언어나 화자에 대한 별도의 힌트는 주지 않았다. 각 플랫폼이 별도의 안내 없이 실제 조건을 어떻게 처리하는지 보고 싶었다.


Claude: 빠르고 자신감 넘쳤지만 — 완전히 틀렸다


Claude는 빠르게 스크립트를 돌려줬다. 심지어 전문적으로 보이는 헤더까지 붙여서. 하지만 첫 줄을 읽는 순간, 뭔가 명백히 잘못되었다는 걸 알 수 있었다:



Claude — 출력 샘플

Screenshot 2026-03-20 at 6.28.55 AM.png



결과물은 한국어 글자들이었지만, 의미를 알 수 없는 말들이었다. 단어는 쪼개지고, 음절 구분은 틀렸으며, 뜻은 완전히 사라졌다. 겉으로는 한국어처럼 보였지만, 언어학적으로는 그냥 노이즈였다. 적어도 이 파일 형식과 음성 유형에 있어, Claude의 전사 기능은 이 작업을 전혀 처리하지 못했다.


Kimi: 다국어 충돌 사고


Kimi의 결과물은 어떤 의미에서는 더 나빴다. 더 완전하게 실패해서가 아니라, 더 혼란스럽게 실패했기 때문이다. 스크립트는 한국어, 중국어, 영어가 뒤섞인 패턴으로 출력되었다:



Kimi — 출력 샘플

Screenshot 2026-03-20 at 6.28.09 AM.png


자신감 있게 들리는 헤더("Chinese and English speakers discussing tech startups")가 상황을 더 악화시켰다. 이 도구는 단순히 실패한 것이 아니라, 틀린 확신을 가지고 실패하고 있었다.


"가장 위험한 AI 출력은 모른다고 인정하는 것이 아니다 — 완전한 자신감으로 답을 만들어내는 것이다."



Gemini: 명확한 승자

Gemini는 한마디로 정확한 스크립트를 내놓았다. 한국어 텍스트는 올바르게 분절되었고, 화자 전환도 제대로 표시되었으며, 내용은 내가 실제로 스튜디오에서 말한 것과 일치했다.


Gemini — 출력 샘플

Screenshot 2026-03-20 at 6.29.29 AM.png



대화의 흐름은 자연스러웠다. 화자 레이블은 일관되었다. 한국어 텍스트는 올바르게 작성되었고 문법적으로도 자연스러웠다. 한 가지 오류가 있었다. Gemini가 내 이름을 송재희 대신 송제인으로 옮긴 것이다. 작은 실수였지만 시사하는 바가 컸다.


세 도구 비교: 한눈에 보기


Screenshot 2026-03-20 at 6.30.17 AM.png

이 테스트가 내 인터뷰를 넘어 의미하는 것


이 테스트가 증명하는 바를 과장하지 않으려 한다. 음성 전사는 학습 데이터, 음성 인식 구조, 언어별 전처리 방식에 크게 의존하는 특수한 역량이다. Claude와 Kimi가 여기서 부진했다고 해서 전반적으로 열등한 도구라는 뜻은 아니다. Claude는 글쓰기, 추론, 코드 생성에서 여전히 탁월하다. Kimi는 다른 영역에서 나름의 강점이 있다.


하지만 이 경험은 내가 AI 개발 가이드에서 길게 다루는 핵심을 잘 보여준다: AI 도구들은 서로 대체 불가능하다. 모두 "AI"라는 이유로 이 도구들을 교환 가능한 것으로 취급하는 것은, 둘 다 '도구'라는 이유로 망치와 메스를 동일하게 보는 것과 같다.


이름 문제: AI의 한계를 들여다보는 창


Gemini의 단 하나의 오류 — 내 이름을 송재희 대신 송제인으로 전사한 것 — 는 겉으로 보이는 것보다 훨씬 많은 것을 말해준다. 이름은 AI 전사 시스템에게 가장 어려운 대상 중 하나다. 출현 빈도가 낮고, 문맥 의존도가 높으며, 발음만으로는 철자를 특정할 수 없는 경우가 많다.


바로 이런 오류가 인간 전사자라면 이렇게 표시할 부분이다: [이름 불확실 — 확인 필요]. 반면 AI 도구는 최선의 추측을 해서 사실인 양 제시하는 경향이 있다. 교훈은 AI 결과물을 불신하는 것이 아니라, 어디서 검증해야 하는지를 아는 것이다.


내 경우 수정은 간단했다. 스크립트에서 내 이름을 검색해 고쳤다. 5초간의 인간적 판단이 모델이 메우지 못한 간극을 채웠다. 이 하이브리드 워크플로 — AI가 무거운 짐을 지고, 인간의 주의가 민감한 지점을 살피는 것 — 가 바로 내가 가르치는 방법론이다.


비기술 사용자에게 이것이 의미하는 것


내 책은 소프트웨어 엔지니어가 아니지만 AI로 실제 무언가를 만들고 싶은 사람들을 위한 것이다. 핵심 메시지 중 하나는, AI 도구가 왜 실패하는지 이해할 필요는 없다는 것이다 — 언제 다른 도구를 써야 하는지를 알면 된다.


만약 내가 Claude의 결과에서 멈추고 그것을 내 음성 파일의 문제라고 가정했다면, 인터뷰를 다시 녹음하거나, 인간 전사자를 고용하거나, 그냥 포기했을지도 모른다. 대신 나는 처음 두 번의 실패를 정보로 받아들이고 세 번째 도구로 넘어갔다. 단 하나의 결과를 받아들이는 대신 여러 도구를 통해 반복하는 그 본능 — 이것은 배울 수 있는 기술이며, AI 시대의 실무자들이 개발할 수 있는 가장 가치 있는 역량 중 하나다.


AI 실무자를 위한 핵심 인사이트

어떤 AI 도구도 모든 작업에 탁월하지 않다 — 작업에 맞는 도구를 선택하라.

음성 전사, 특히 영어 이외의 언어는 플랫폼마다 결과가 크게 다르다.

자신감 있게 틀린 결과물은 솔직한 "모르겠다"보다 훨씬 위험하다.

하이브리드 접근법 — AI의 속도 + 인간의 판단으로 검증 — 이 어느 하나만보다 낫다.

한 도구의 실패는 작업의 실패가 아니다. 반복하라.

고유명사와 이름은 AI 전사본에서 고위험 구간이다. 반드시 검증하라.


더 넓은 맥락: AI 리터러시가 곧 역량이다


내 라디오 인터뷰는 바로 이 주제를 다뤘다. 내가 홍보하러 나간 책 — AI 개발 가이드: 코딩 없이 솔루션을 만들고 싶은 모든 분들을 위한 — 은 AI 리터러시가 단 하나의 도구를 올바르게 프롬프팅하는 방법을 아는 것이 아니라는 전제 위에 세워졌다. AI를 전문화된 역량들의 생태계로 이해하고, 그것들을 조합하는 방법을 알며, 도구들이 놓치는 것을 잡아낼 수 있는 인간의 판단력을 유지하는 것이 핵심이다.


이번 전사 실험은 책의 논지를 소규모로, 우연히 증명한 사례였다. 도구 세 개, 작업 하나, 극적으로 다른 결과. 이기는 실무자는 가장 많은 도구에 접근할 수 있는 사람이 아니다. 어떤 도구를 신뢰하고, 언제 검증하고, 언제 다음으로 넘어가야 하는지를 판단할 수 있는 사람이다.


Gemini는 내게 스크립트를 줬다. Claude는 당연시하지 말라는 교훈을 줬다. Kimi는 자신감 있는 표현이 정확성과 같지 않다는 것을 상기시켜줬다. 세 곳 모두, 각자의 방식으로 유용했다.


이것이 2026년 AI와 함께 일하는 현실이다. 그리고 내가 라디오에 나가서 이야기한 바로 그 내용이기도 하다.



송재희는 Seattle Partners LLC 전무이사이자 Vibe Coding Boot Camp 설립자입니다. 저서 AI 개발 가이드가 현재 출판되어 있습니다. AI 보조 개발, 데이터 아키텍처, 소프트웨어가 만들어지는 방식의 미래에 대해 글을 씁니다.


매거진의 이전글코드보다 문제를 보는 눈이 경쟁력