brunch

치지직 스트리밍에 실시간 자막을 붙이기

by mizan


"치지직 스트리밍을 보다 문득 생각했다. 실시간 자막이 있다면 훨씬 보기 편하지 않을까?"

이 생각을 출발점으로, Whisper 기반 실시간 STT(음성 인식) 시스템을 직접 파이썬으로 구현해보았다.
하지만 처음엔 속도도 느리고, 정확도도 떨어지고, GPU도 안 돌아가는 난관의 연속이었다.
결국 구조 자체를 뜯어고치고 GPU 환경도 재설정하며, 만족할만한 성능의 실시간 자막 시스템을 완성했다.



코드를 제작한 과정은 블로그에 기록해 두었다.


keyword
작가의 이전글남의 불행이 꿀잼일때도, 안타까울 때도 있는 이유