Google의 AI 기술 중 하나인 STT (Speech-To-Text) 제품의 API를 발급받은 뒤
Python 코드를 활용하여 예제 파일 하나를 실행해보겠습니다.
실행 환경은 Ubuntu 20.04 LTS 버전입니다.
Python이 설치되어 있다는 가정 하에 진행하도록 하겠습니다.
혹시 python 설치가 되어있지 않다면, https://www.python.org/downloads/ 에서
설치 후 순서대로 진행하시길 바랍니다.
해당 API를 처음 활용하는 고객에게는 $300의 무료 크레딧이 제공됩니다.
추가로, 매달 60분 가량의 오디오 스크립트에 대해서 무료로 분석할 수 있게 제공을 한다고 합니다.
참고하셔서 활용하시길 바랍니다.
1. https://cloud.google.com/speech-to-text?hl=ko 에 접속한 뒤,
'무료로 사용해보기' 버튼을 클릭하세요.
2. 국가/조직을 선택한 뒤, 서비스 약관에 동의한 후 '계속' 버튼을 클릭하세요.
3. 정보를 입력한 뒤 '계속' 버튼을 클릭하세요.
4. 본인 인증이 가능한 휴대폰 번호와 해외 결제가 가능한 카드 정보를 입력한 뒤 '무료 평가판 시작하기' 버튼을 클릭하세요.
5. 마지막으로 몇가지 설문조사를 마친 뒤 '완료' 버튼을 클릭하세요.
6. 상단에 위치한 'My First Project'를 클릭한 뒤, '새 프로젝트' 버튼을 클릭하세요.
7. 원하는 프로젝트명을 입력한 뒤 '만들기' 버튼을 클릭하세요.
8. 바뀐 화면에서, 'API 사용 설정' 버튼을 클릭하세요.
클릭하고 나면 'CREATE TRANSCRIPTION'이라는 버튼이 생기는데 이어서 클릭해주세요.
9. 아래 화면대로 진행하여 새로운 Workspace를 생성하세요.
10. 검색창에 'speech to text api'를 검색한 뒤, 아래 목록을 선택합니다.
11. 아래 화면대로 진행하여 API key를 JSON 파일로 다운로드 받으세요.
여기까지 완료한 뒤, 이어서 gcloud CLI를 설치해야 합니다.
1. https://cloud.google.com/sdk/docs/install?hl=ko#linux에서 패키지 파일을 다운로드 받습니다.
2. 파일 압축을 풀어줍니다.
3. install을 합니다.
Do you want~? 질문이 나오면 전부 Y로 입력하여 install을 하세요.
4. gcloud initialization을 합니다.
init을 하게 되면, google 계정 선택 창이 나오게 되는데 api를 생성한 계정을 선택해주세요.
이때, zsh: commant not found: gcloud 라는 오류가 뜬다면
$ source ~/.zshrc
커맨드 입력 후 터미널을 껐다 켜주세요.
5. 좀 전에 생성했던 workspace에 해당하는 번호를 입력하세요.
지금까지 오류없이 따라오셨다면 환경 세팅은 전부 끝이 났습니다.
이제 예제 파일을 가지고 테스트를 해보겠습니다.
1. 우선 예제 파일을 버킷에 업로드 할겁니다.
Google Cloud 화면으로 다시 돌아와서 아래와 같은 순서로 버튼들을 클릭한 뒤,
예제로 사용할 파일을 업로드하세요.
1-1. 이때 파일은 audio file이어야 합니다. (mp3, flac 등 ...)
저는 mp4 파일을 업로드하여 코드를 실행했다가 계속해서 오류가 나서 한동안 헤맸습니다.
혹시 별도로 추출한 audio file이 없으신 분들은 https://online-audio-converter.com 여기서
video -> audio로 변환하시면 됩니다.
저는 flac 확장자로 변환을 했는데, 변환할 때 setting은 아래와 같이 했습니다.
(sample rate: 16000 Khz / Channels: 1)
2. pip를 활용하여 google-cloud-speech 패키지를 설치해주세요.
3. 아래의 코드로 예제 파일을 실행합니다.
gcs_uri는 1번에서 업로드했던 file의 경로 및 파일명을 입력해주시면 돕니다.
입력 파일의 config에 맞게 세팅한 뒤 파일을 실행하세요.
3-1. 혹시 버킷에 올린 파일이 아닌 본인의 local에서 파일을 불러와 실행을 하고 싶다면 아래와 같은 코드로 실행하시면 됩니다.
하지만 local에 올린 파일을 불러오는 데에는 용량 제한이 있기 때문에 이왕이면 버킷에 올려 실행을 하시는 걸 추천드립니다.
실행을 하시면 변환 된 text가 정상적으로 출력되는 것을 확인할 수 있습니다.
결과값을 가지고 입맛대로 사용하시면 됩니다.
문제가 있으면 댓글로 말씀 부탁드립니다
감사합니다 �