인공지능아 고마워!
거두절미하고 프리미어 프로에는 오래전에 인공지능이 자동으로 오디오를 인식해 텍스트로 바꾸는 기능이 추가됐었다. 핵심이 바로 이 기능임. 텍스트 패널 > 트랜스크립트 ㄱㄱ 한국어 메뉴명은 뭔지 모르겠다. 암튼 언어를 뭘로 할 건지, 기준이 되는 오디오는 어떻게 설정할 건지 뜬다. 맞게 세팅해보자. 대체로는 한국어일 듯.
파일 길이 따라 다른데, 몇 분 정도 지나면 이렇게 생성이 된다. 정확도가 높은 편이지만, 그래도 바로 사용할 정도는 못 된다. 체감 92~3% 정도 되는 것 같음. 인공지능을 활용하는 서비스는 학습에 어떤 데이터를 썼는지가 제일 중요하기 때문에, 이럴 땐 국내 서비스를 섞어서 이용해주면 정확도가 좀 더 높다. 네이버에서 제공하는 클로바 노트가 바로 그것.
오디오 파일을 올리면 자기가 알아서 텍스트로 변환한다. 이 친구의 정확도는 대략 97~98% 정도 되는 느낌. 걍 느낌적 느낌이지만 거의 다 맞는 것 같더라고. 하여간에 이걸 긁어서 프리미어로 가져가 붙여주기를 해주면 되겠다. 이건 진짜...혁신임 ㅇㅇ 녹취를 풀어본 사람은 알겠지만 시간도 굉장히 오래 걸리고, 오타도 많이 나고, 맞춤법도 틀리기 십상이다. 하지만 기계가 내놓는 작업물은 맞춤법 틀릴 일이 드물다.
이 분야에선 전문적으로 녹취 푸는 일을 해주는 스크립터 분들이 계신다. 인공지능의 작업물은 이 분들의 작업물보다 정확도 측면에서 쪼금 아쉬울 수 있지만, 이미 대체 가능한 수준이 아닌가 싶음. 작업 속도가 비교가 안 된다. 사람이 99%의 결과물을 수시간 뒤에 준다면 기계는 97~8%의 정확도를 가진 결과물을 5분도 안 지나서 제공하니까. 어떻게 보면 진짜 무서운 세상이다.
이렇게 캡션을 생성하고 적용을 누르면 쫙- 깔린다.
오디오 타이밍 갖게 딱딱 깔아줌. 물론 조금 틀리는 부분들은 아직 있는데, 한 번 쭉 보면서 다듬으면 된다. 텍스트를 다 맞춘 뒤에 디자인 수정을 하고 일괄 적용을 누르면 기본 자막이 완성된다. 불과 2-3년 전만 해도 자막 깔 때는 포토샵에서 한장한장 생성하거나 수백개의 자막 레이어를 생성해 한장한장 프레임 맞춰가며 깔아야 했었다. 2~3분짜리 영상 자막작업하는데도 2~3시간 우습게 걸렸다. 녹취 풀고 맞춤법 검사를 하는 시간을 빼고도 말이다. 이걸 생각하면 정말 말이 안 되는 변화라고 할 수 있겠음. 체감상 작업 시간 10분의 1이하로 준다. 정말임.
겸사겸사 하나 더. 이것도 예전에 추가된 '리믹스 툴'이라는 기능이다. 이것도 굉장히 유용한데 사람들 잘 안쓰더라고. 예컨대 위의 사진처럼 브금을 저~기까진 깔고 싶은데 2~30초 짧아서 아쉬운 상황이라고 가정해보자. 보통 이럴 때는 음악에서 반복되는 부분을 잘라가지고 붙여서 늘리는 식으로 작업한다.(a-b-a-b-c-d 로 흘러가는 음악이면 a-b-a-b-a-b-a-b-c-d 로 늘리는 식) 사람이 오디오 듣고, 파형 체크하면서 반복되는 부분을 찾고 그걸 티 안나게 이어붙여야 했다. 하지만 이걸 기계가 한다면?
이렇게 선택하면 작업 커서가 바뀜
클립 끝을 잡고 쭉 땡기면 된다. 알아서 오디오를 분석해 반복되는 파형을 캐치하고, 해당 부분을 늘리는 식으로 작동한다고 이해하면 되겠음. 사진의 핑킹가위로 자른 듯한 부분이 기계가 손 댄 부분이다. 줄이는 것도 된다. 내가 여러 곡으로 테스트를 해봤는데, 사람 목소리 안 들어간 노래는 정말 편집한 티도 안난다. 목소리 들어간 건 조금 티가 나긴 하는데, 그것도 좀 대충 흘려듣고 있으면 잘 느껴지지 않음. 굉장히 부드럽게 이어버린다.
+
이 외에도 클로바더빙이나 타입캐스트 같은 보이스 서비스로 내레이션을 만들어 깔아버린달지(많이 자연스러워졌다. 써먹을 정도 된다고 봄. 올해 유튜브 오피셜로 크게 성장한 크리에이터 중 하나로 꼽힌 1분요리 뚝딱이형이 대표적임.
미드저니 같은 걸로 이미지를 생성해 쓴다거나 하는 것도 가능하겠고... 아직 기술이 덜 발전되긴 했으나, 구글이나 페이스북 같은 곳에선 인공지능으로 영상을 만들어버리기도 한다. 수년 안에 스톡 이미지-비디오 서비스에 심대한 타격이 한 번 오지 않을까 싶기도 함
++
아직 기계가 편집까진 할 수 없다 생각은 하는데, 아이고 모르겠다... 요새 유행하는 ChatGPT를 한 번 써봤는데, 그 수준에 입을 다물지 못했음. 과장 좀 보태서 아이언맨에 나오는 자비스/프라이데이가 그리 멀지 않았다는 생각이 들 정도다. 물론 챗GPT가 무슨 편집하는 프로그램은 아니지만, 수준이 여기까지 올라왔다면 편집이라고 정복이 안 되리라는 보장이 없다고 봄. 이미지, 비디오, 텍스트, 오디오를 다 듣고 판단할 수 있는데 편집이 안 될까. 물론 무드를 살리는 편집은 당장 기계가 하긴 어려운 영역이겠지만 정형화된 영역은 솔직히 모르겠다. 뉴스클립 같은 건 기계가 못 할 이유 없다고 봄. 콘텐츠 생산업에 종사하는 사람 중에서 자기가 만드는 결과물이 좀 단순한 쪽에 가깝다는 생각이 든다면 미래를 좀 빨리 준비해야 할 수도 있겠다. 고급 노동이 아니면 살아남기 힘들겠다 정말로.