"치지직 스트리밍을 보다 문득 생각했다. 실시간 자막이 있다면 훨씬 보기 편하지 않을까?"
이 생각을 출발점으로, Whisper 기반 실시간 STT(음성 인식) 시스템을 직접 파이썬으로 구현해보았다.하지만 처음엔 속도도 느리고, 정확도도 떨어지고, GPU도 안 돌아가는 난관의 연속이었다.결국 구조 자체를 뜯어고치고 GPU 환경도 재설정하며, 만족할만한 성능의 실시간 자막 시스템을 완성했다.
코드를 제작한 과정은 블로그에 기록해 두었다.
"치지직 스트리밍을 보다 문득 생각했다. 실시간 자막이 있다면 훨씬 보기 편하지 않을까?"이 생각을 출발점으로, Whisper 기반 실시간 STT(음성 인식) 시스템을 직접 파이썬으로 구현해보았다.하지
https://arai.tistory.com/entry/%EC%B9%98%EC%A7%80%EC%A7%81-%EC%8A%A4%ED%8A%B8%EB%A6%AC%EB%B0%8D%EC%97%90-%EC%8B%A4%EC%8B%9C%EA%B0%84-%EC%9E%90%EB%A7%89%EC%9D%84-%EB%B6%99%EC%9D%B4%EA%B8%B0-Whisper-STT-%EC%BD%94%EB%93%9C-%EA%B0%9C%EC%84%A0%EA%B8%B0
美盞. 다양한 기술을 통해 세상을 바꾸는데 기여하고 싶은 기획자입니다.