brunch

4.6 Whisper와 DeepL을 결합한 음성 번역

by 위키북스

요사이 유튜브를 통해 정보를 습득하는 사람이 점점 늘어가고 있으며, 특히 다음과 같은 이유로 이러한 경향은 앞으로 더욱 가속화될 것으로 예상됩니다.

● 접근성이 높다.

- 유튜브는 전 세계적으로 가장 많이 사용되는 동영상 플랫폼으로, 스마트폰, 태블릿, PC 등 다양한 기기에서 손쉽게 접근할 수 있습니다. 따라서 최신 정보에 대한 접근성을 높이는 데 유리합니다.


● 시각적 효과가 뛰어나다.

- 유튜브 영상은 텍스트나 사진보다 시각적 효과가 뛰어나기 때문에 정보 전달력이 높습니다. 특히, 그래픽, 애니메이션, 실사 영상 등 다양한 시각적 요소를 활용하여 정보를 효과적으로 전달할 수 있습니다.


● 다양한 콘텐츠가 제공된다.

- 유튜브에는 뉴스 전문 채널뿐만 아니라 다양한 분야의 크리에이터들이 다양한 주제의 영상을 제작해 올리고 있습니다. 따라서 최신 정보뿐만 아니라 다양한 분야의 정보를 습득할 수 있습니다.

구어는 텍스트보다 훨씬 더 높은 언어의 장벽이 있습니다. 구글에서 자동번역 기능을 제공하고 있지만, 내용을 이해하기에는 부족한 것이 현실입니다. 하지만 이제 Whisper를 통해서 자막을 생성하고 DeepL로 해당 자막을 번역해서 유튜브를 시청할 수 있습니다.



4.6.1 Whisper Mate로 음성 정보를 자막으로 만들기


OpenAI의 Whisper는 음성을 텍스트로 변환해주는 음성 인식 모델입니다. 이 모델은 대규모의 데이터셋을 기반으로 학습되어 오디오 파일을 텍스트로 변환할 수 있습니다. Whisper는 57개 언어로 오디오를 텍스트로 전환하고 번역 기능도 제공합니다. 이 모델은 대화형 AI 서비스나 자동 음성 텍스트 변환에 유용하게 활용됩니다.

다만, Whisper는 API 형태로 제공되고 있어서 일반 사용자가 이용하기는 쉽지 않습니다. 맥 컴퓨터에서는 Whisper Mate라는 프로그램을 통해 쉽게 자막을 생성할 수 있습니다. 이 책에서는 Whisper Mate를 통해 자막을 생성하는 방법에 대해서만 설명하겠습니다. 윈도우 사용자는 위키북스에서 출간한 도서를 통해서 자신만의 자막 생성 프로그램을 만들어보는 것을 추천합니다.


Whisper Mate 설치 및 기본 사용법


먼저 앱스토어에서 ‘whisper mate’로 검색하여 프로그램을 클릭해 설치합니다.

20231030_36806508_1.PNG 앱스토어에서 Whisper Mate 검색 후 설치



프로그램을 설치한 후 실행하면 다음과 같은 화면이 최초로 나옵니다. 우선 음성 인식을 진행하기 위해서 [모델] 아이콘을 클릭한 후 음성 인식 모델을 설치합니다.


20231030_36806508_2.PNG 음성 인식 모델 설치를 위해서 모델 아이콘 클릭



모델 아이콘을 클릭하면 다음과 같은 다양한 모델을 설치할 수 있는 화면이 나옵니다. 파일 크기가 큰 모델일수록 정확하게 음성 인식 작업을 진행하지만, 그만큼 작업 속도가 느려지기 때문에 우선은 ‘기본’ 모델과 ‘Base.En’ 두 가지 모델을 설치하겠습니다.


20231030_36806508_3.PNG 언어 인식 모델 설치



언어 모델을 다운로드한 후 바로 자막 추출 작업을 진행할 수도 있지만, 다운로드한 언어 모델을 사전 컴파일 작업을 통해 조금 더 빠르게 활용할 수도 있습니다. 최신 맥북을 가지고 있는 분이라면 사전 컴파일 작업을 통해 작업 속도가 얼마나 향상되는지 비교해 보기 바랍니다.

20231030_36806508_4.PNG 사전 컴파일 설정



Whisper Mate로 자막 추출하기


이제 기본적인 음성인식 환경을 갖추었습니다. 하지만 웹에 있는 유튜브 링크를 입력해서 자막을 추출하기 위해서는 추가 설정이 필요합니다. 화면 상단의 [설정] 아이콘을 클릭하고, 이어서 [플러그인] 아이콘을 클릭힙니다. 이때 [웹 페이지 비디오 다운로드]를 활성화하면 메뉴바에 [URL 추가] 아이콘이 나옵니다. 마지막으로 [지금 설정]에서 자막이 저장될 위치를 지정하면 유튜브 영상에서 자막을 추출할 수 있는 환경 설정이 마무리됩니다.


20231030_36806508_5.PNG 유튜브 자막 추출 환경 설정



그럼 이제 유튜브에서 자막을 추출해 보겠습니다. 다음은 ChatGPT Plugins에 대해서 설명하고 있는 8분짜리 유튜브 영상입니다.


20231030_36806508_6.PNG 자막을 추출하려는 유튜브 영상


* These 20 BEST CHATGPT PLUGINS Will Change Everything: https://youtu.be/lPfb0-j-0tU



먼저 상단의 [URL 추가] 아이콘을 클릭한 후 나타나는 창에 자막을 추출하려는 영상 주소를 붙여 넣기 합니다. 영상 주소를 붙여 넣기 한 후 [완료] 버튼을 누릅니다.


20231030_36806508_7.PNG 자막을 추출하려는 유튜브 영상의 URL을 붙여 넣기 한다



영상 주소를 붙여 넣기 한 후 [완료] 버튼을 누르면 다음 그림과 같이 붙여 넣기 한 주소가 목록에 추가됩니다. 추가된 라인의 모델 위로 마우스를 이동하면 [연필 모양]의 버튼이 생기고 이 버튼을 클릭하면 환경 설정 팝업 창이 나와서 언어 모델 등의 설정을 진행할 수 있습니다. 이 책에서는 기본 영어 모델인 Base.En으로 실습을 진행했습니다.


20231030_36806508_8.PNG 자막 추출 환경 설정



환경 설정을 완료하고 상태 열에 있는 드롭다운에서 다운로드 영상 품질을 선택합니다. 그 다음 [영상 다운로드] 아이콘을 클릭해서 영상을 다운로드 받습니다. 참고로 단순히 자막만 추출하려면 파일 크기가 작은 음성 파일을 다운로드해도 됩니다. 하지만 Whisper Mate에서는 영상과 자막을 함께 보는 기능을 제공하므로 해당 기능을 이용하려는 분은 어느 정도 품질이 보장되는 영상을 다운로드 받는 것을 추천합니다.


20231030_36806508_9.PNG 영상 품질 결정 후 영상 다운로드


선택한 품질에 따른 영상 다운로드가 마무리되면 가장 오른쪽 동작 상태의 아이콘이 [달리는 사람 모양의 아이콘(AI 변환 프로세스 시작)]으로 바뀝니다. 이 아이콘을 누르면 자막 추출 작업이 진행되고 추출이 완료되면 [영상 모양의 아이콘(변환 결과 미리보기 또는 자막 편집)]으로 바뀝니다.


20231030_36806508_10.PNG AI 변환 프로세스 시작 아이콘과 변환 결과 미리보기 및 자막 편집 아이콘


[영상 모양의 아이콘(변환 결과 미리보기 또는 자막 편집)]을 클릭하면 다음과 같이 추출된 자막과 영상을 한꺼번에 볼 수 있고 [내보내기 아이콘]을 클릭하면 SRT 형태의 파일로 추출도 가능합니다.


20231030_36806508_11.PNG Whisper Mate에서 바로 영상과 자막 확인



Whisper Mate에서 DeepL을 활용해서 바로 번역하기


Whisper Mate에서는 DeepL API 키 값을 등록해서 자막을 바로 번역해서 보거나 원문과 자막을 함께 보는 등의 기능을 제공합니다. 간단한 설정으로 자막을 번역하는 과정을 살펴보겠습니다. 우선 화면 오른쪽에 있는 [옵션] [번역 환경 설정]을 클릭합니다.


20231030_36806508_12.PNG DeepL API와의 연결을 위해서 번역 환경 설정



이어서 다음과 같은 화면이 나오면 이전 포스트 ≪4.5.2 DeepL API를 구글 스프레드시트에서 활용하기≫의 DeepL API 인증키 생성하기에서 생성한 API 키를 입력하고 [호스트]무료로 선택한 후 [DeepL 테스트 ] 버튼을 눌러서 정상 작동하는지 확인합니다.


20231030_36806508_13.PNG DeepL API 연결 테스트



DeepL API에 정상적으로 연결됐다면 화면 오른쪽에 있는 [옵션] [번역 제어 표시]를 클릭합니다.


20231030_36806508_14.PNG 번역 제어 표시 열기



번역하고자 하는 자막을 선택하거나 전체 자막을 번역하려면 자막 영역을 모두 선택(단축키 Ctrl + A)합니다. 상단의 번역 제어 표시에서 번역할 언어를 선택한 다음 [번역] 버튼을 누르면 자막이 번역됩니다.


20231030_36806508_15.PNG 번역할 언어 선택 후 번역하기



번역 제어 표시에서는 자막을 번역한 후 원본과 자막을 같이 화면에 보이게 하거나, 원본 혹은 번역된 자막만 보이게 할 수 있습니다. 마지막으로 화면에 보이는 번역 상태에 따라서 자막 파일을 생성해 내보내기 할 수도 있습니다.

20231030_36806508_16.PNG 자막 번역 후 다양한 설정 방법



4.6.2 유튜브 자막 프로그램 설치 및 실행


Whisper Mate에서 유튜브 자막을 생성한 후 해당 프로그램을 통해 유튜브를 시청할 수도 있지만, 다른 컴퓨터에서 유튜브를 시청하거나 친구에게 해당 유튜브 시청을 권하면서 자막을 보낼 수도 있습니다. 이러한 경우라면 유튜브 자막을 업로드할 수 있는 프로그램을 설치해서 자막과 함께 유튜브를 시청할 수 있습니다.

크롬 웹스토어(https://chrome.google.com/webstore/)에서 “Movie Subtitles”로 검색해서 다음의 크롬 확장 프로그램을 선택합니다.


20231030_36806508_17.PNG Movie Subtitles 크롬 확장 프로그램 검색



확장 프로그램을 선택하면 나오는 다음 화면에서 [Chrome에 추가]를 선택합니다.


20231030_36806508_18.PNG Movie Subtitles 확장 프로그램 설치



확장 프로그램이 추가되면 주소창 오른쪽에 있는 [확장 프로그램] 아이콘을 클릭했을 때 다음과 같이 Movie Subtitles가 추가된 모습을 볼 수 있습니다. 확장 프로그램을 주소창 오른쪽에 고정하고 싶다면 [압정 모양] 아이콘을 선택해둡니다.


20231030_36806508_19.PNG Movie Subtitle 확장 프로그램 설치



이제 영상 주소를 입력해서 동영상을 플레이하고 주소창 오른쪽에 있는 Movie Subtitles의 아이콘을 클릭합니다. 다음과 같은 창이 나오면 [Load SUBTITLE] 버튼을 클릭하고 번역한 자막을 업로드합니다.


20231030_36806508_20.PNG [LOAD SUBTITLE] 버튼을 클릭해서 자막을 업로드한 후 시청



이제 어느 컴퓨터에서나 한글 자막으로 영상을 볼 수 있게 됐습니다.


20231030_36806508_21.PNG 한글 자막이 추가된 모습





이외에도 생성형 AI를 제대로 활용하는 다양한 방법이 궁금하다면

생성형 AI 업무 혁신 2 도서를 참고해주세요 :)

uEgpruhjRPBbC1XfeZksXgF5u-k ≪생성형 AI 업무 혁신 2≫





pVmWsacxrNdWmuop_eSc4ljhH2o.png

AI로 인해 일을 하는 방법과 해야할 일이 바뀌고 있습니다.

위키북스에서는 “미래 소년 코난” 프로젝트를 통해서 조금씩 업무를 변화시키고 있으며, 그 과정을 글로 정리했습니다.

생성형 AI로 여러분의 고민을 해결하는 데 조금이나마 도움이 되길 기대합니다.

keyword
작가의 이전글4.5 다른 번역 도구와 교차 검증하기