영어공부도 음성 AI랑 할 수 있다고? 일레븐랩스 - Elevenlabs
AI + 하드웨어 = 주식 상승
최근 한국을 찾은 MS CEO 사티아 나델라가 지드래곤의 홈스윗홈 뮤비를 보고 깜짝 놀랐다고 한다. 이 뮤비는 Open AI 동영상 생성 모델인 소라(SORA)로 제작되었는데, 처음부터 끝까지 AI로 만들어졌다고 한다.
https://www.joongang.co.kr/article/25341478
AI의 성장 속도는 가파르게 상승하고 있고, AI의 성장 속도와 비례하여 소위 MAG7(Nvidia, Microsoft, Meta, Apple, Amazon, Tesla and Alphabet)으로 대표되는 미국 주식 역시 5월을 기점으로 상승하고 있다.
그 이유는 가파르게 성장하는 AI 기술을 활용하여, 그들의 코어 비즈니스와 접목한 상품의 스케일업에 대한 기대감 때문이다.
구글과 메타는 AI 기술을 접목시킨 스마트 글래스를 개발중이며, Open AI는 전 애플 최고 디자인 책임인 조니 아이브가 설립한 AI 하드웨어 스타트업 IO를 인수하며 하드웨어 경쟁에도 본격적으로 참전하기 시작했다.
(조니 아이브는 작년에 IO를 설립하였으며, 1년만에 65억 달러, 약 한화 9조원에 회사를 엑싯한 셈이다)
이렇듯 MAG7으로 대표되는 대부분의 회사가 AI를 적극적으로 하드웨어와 융합시켜 미래 먹거리를 준비하고 있지만, 그 경쟁에서 조금 뒤진것처럼 보이는 애플의 전망은 그닥 밝지 않아보인다.
컨텐츠 크리에이터의 삶
Google IO 2025에서 나온 새로운 동영상 AI 기술을 적극적으로 이용해보기 위해 Veo3를 통한 영상을 만들어 보기도 하였고, 최근 유행하는 RunwayML을 활용하여 몇 개의 사진을 이어붙여 이미지를 생성해보기도 하였다. 또한 Capcut을 활용하여 스피치투텍스트(STT)기술을 잘 활용하고 있는 중이다.
이미지, 동영상, 텍스트는 이제 해결이 되었지만 아직 해결이 되지 않은 부분이 있으니,
그건 바로 음성이다.
왠지는 모르겠지만 목소리가 좋으면 계속해서 영상을 틀어놓고 싶어지는 경험을 다들 해보셨을 것이다. 이렇듯 좋은 목소리는 영상을 제작하는 사람에게는 강력한 무기가 된다.
개인적으로 목소리나 발음이 너무 이상해서 안 듣는 유튜버들이 있는데, 그 중 하나가 잇섭님이다.
잇섭님의 영상은 아무리 퀄이 좋아도 잘 안보게 되는데, 처음 볼 때부터 나에게는 목소리나 발음에서 이질감이 느껴져 보지 않았던 것 같다.
내 목소리가 어떻냐고 물어본다면, 사실 잘 모르겠다.
다만 목소리도 노력으로 어느정도 커버가 되는 것 같아서, 영상을 계속 찍으면서 목소리를 다듬는 연습도 조금씩 하고 있다.
(이렇게 컨텐츠 크리에이터를 하게 되면 자기 자신의 약점도 꾸준히 보완할 수 있는 계기가 된다?)
하지만 영상을 찍을 때마다 그때의 감정이 다르고, 분위기가 다르기 때문에 일정한 목소리를 내는 것은 힘든일이다.
숏츠의 경우 특히 목소리를 평소보다 톤업하고 빠르게 유지해야 하는데, 목소리가 업되기 힘든 날이 언제든 생기기는 마련이다.
그럼 이 문제를 어떻게 해결할 것이냐? 바로 음성 AI이다
일레븐랩스 - Elevenlabs
최근 가장 주목받는 음성 AI 회사는 단연 일레븐랩스이다.
ElevenLabs는 2022년에 설립된 미국 뉴욕 기반의 음성 AI 기술 기업으로, 전 구글 엔지니어 피오트르 댑코프스키(Piotr Dąbkowski)와 전 팔란티어 전략가 마티 스타니셰프스키(Mati Staniszewski)가 공동 창업한 회사이다.
2022년 설립 이후 2억 8천만 달러 규모의 투자를 완료하였으며, 기업가치는 33억 달러로 책정되어있다.
최근 Anthropic의 Claude AI가 음성모드를 추가하며 유저와 대화할 수 있는 기능을 만들었는데(추후 Anthropic에 대해서도 한번 다뤄보도록 하겠다), 이 음성모드를 제공하는 곳이 바로 일레븐랩스이다.
일레븐랩스의 서비스는 아래와 같이 이루어진다.
내가 현재 주로 쓰는 것은 1번 TTS 기능이다.
틱톡 및 유튜브 영상을 영어로 올리고 있는데, 발음 확인 겸 먼저 AI로 돌린 후 어떻게 읽는지 연습해본 후 녹음을 진행하고 있다.
홈페이지에 들어가게 되면 첫 화면은 위와 같이 나오는데, 내가 원하는 텍스트를 입력한 후 플레이를 누르면 음성이 나온다. 밑에 있는 사람들 중에서 한명을 고르면, 그 사람의 목소리가 출력되는데 본인 취향에 맞게 음성은 고르면 된다.
컨텐츠 크리에이터이기 이전에 영어 공부에 대해서는 나름 진심이기 때문에, 영어 공부할 때 특히 발음 공부가 항상 고민이었다.
한국에서 나고자란 우리 같은 사람들은 발음의 한계가 어느정도는 있을 수 밖에 없는 것 같다.
허나 일레븐랩스를 활용해서 나와 비슷한 톤앤매너를 가진 보이스를 선택해서 들어보게 되면 어떤 인토네이션으로 영어를 읽는 것이 좋은지 판단할 수 있다.
(다만 무료버전의 경우 텍스트 수 제한이 100자로 제한되니 텍스트가 길 경우 끊어서 플레이 하도록 하자)
모든 AI 기능들이 구독 서비스를 요구하는데, 나는 음성 AI는 아직은 유료로 구매하지 않고 있다.
왜냐하면 아직까지는 음성 클로닝 서비스를 쓰고 있지는 않기 때문이다.
2번 기능인 음성 클로닝을 쓸려면 돈을 내야한다.
비싼 돈은 아니지만, 아직까지는 내 목소리 연습도 할 겸 직접 녹음을 하고 있기 때문에 목소리 클로닝 기능은 사용하고 있지 않다.
무료 버전이라 할 지라도 위와 같이 App으로 들어갈 수 있는데, 이곳에 가면 자신의 보이스를 클론할 수 있는 기능을 확인할 수 있다.
밑에 Best for Korean 보이스가 있는데, 본인의 목소리가 자신없다면 샘플들을 사용해도 문제가 없을 것 같다.
마무리
아직은 내가 그렇게 바쁘지도 않고, 목소리를 조금 더 가다듬기 위한 연습이라고 생각하고 직접 녹음을 진행하고 있다.
또한 영어 공부 측면에서 봤을 때, 대본 스크립트를 짜고 그걸 외움으로써 어느 정도 영어 공부도 되기 때문에, 나의 경우 당분간 목소리 클로닝을 할 필요는 없을 것 같다는게 솔직한 의견이다.
하지만 영어 공부를 하는 사람은 꼭 한번 써보도록 하자.
개인적으로 추천하는 영어 공부 방법 중 하나는 유튜브에서 자신이 좋아하는 외국인 기업가나 배우/뮤지션 인터뷰를 보고 거기에 나온 문장들을 따라해보는 것이다.
하지만 음성 AI를 활용하여 본인이 직접 영작문을 해보고, 그걸 본인의 톤앤매너에 어울리는 목소리로 듣고 따라해본다면 더 큰 도움이 될 것이다.
물론 영작이 어색하다면, 우선 한번 해보고 챗지피티에 돌려서 자연스럽게 다듬어 달라고 하면 된다.
그럼 다음 시간에는 대본을 어떻게 AI를 활용하여 만들지에 대해서 이야기해보도록 하겠다.
AI 틱톡커이지만, 뭔가 AI 경제 블로그인 것 같은 느낌은 뭘까.