brunch

You can make anything
by writing

C.S.Lewis

음성(음향)분석-잡음제거·목소리 증폭, 그 허와 실!

듣기 좋은 잡음제거는 있어도 선명한 잡음제거란 없습니다.

녹취분석을 하면서 받는 의뢰 중 잡음제거를 통해 대화 내용을 상세히 알고 싶다는 내용이 적지 않다.

결론부터 말하면,


Q. 잡음 제거, 어느 정도까지 되나요?
A. 경우에 따라 편차가 달라, 작업전에는 알 수 없습니다.


 Case by case, 이것이 원론적인 답변이지만,

업력으로는 20년, 녹음 경험으로는 30년 이상, 음질로 싸우면서 얻은 정답은,


인풋(Input-최초 녹음)이 안 좋은데, 아웃풋(Output)이 좋은 경우는 거의 없다.

특히, 대화 전달력을 향상 시킴에 있어서는 더욱더 그렇다.

그래서 발화체 신호 분석에 관심을 갖고 연구하게 된 것이다.


소리는 예술에서는 음악이고, 물리학적으로는 파동이며, 의학적으로는 청력이자 심리학적으로는 인지다.

이것이 녹음이 되면서, 전기 전자 기계 건축 구조 공학적 접근이 필요하다.

지금은 IT에 이어 AI까지 가세하여 분석 도구는 날로 확산, 발전되어 가고 있다.


그럼에도 불구하고, 녹음된 소리에서 내가 원하는 소리만 온전히 분리해서 듣는다는 것은 불가능하다.

소리는 지우는 것은 가능하지만 원칙적으로 '복원'이라는 것이 불가능하기 때문이다.

그 이유는 소리 역시 빛, 전파처럼 파동이라는 전달방법으로 가청주파수내의 진동만 우리 귀에 도달,

뇌가 인식하여 인지하게 되는데, 이 파동이라는 물리적 행위가 양자역학 중에 

가장 난해한 얽힘과 중첩의 속성과 어깨를 나란히 하기 때문이다.


다시 말해서, 이미 녹음된 소리는 더 이상 소리가 아닌 소리에너지의 얽힘과 중첩의 난해한 분자운동으로 

수음장치에 기록된 전자기적 데이터일 뿐이라는 것이다.

녹음된 소리는 더 이상 소리가 아닌, 데이터일 뿐이다.

우리가 눈으로 고양이를 볼 때, '고양이'다 라고 느끼는 인지능력은 보편적 경험칙에 따른

판단에 우선한다. 세계 공통이다. 미국사람이나 몽골사람이나 모두 동일하게 인식한다.

그러나 언어는 다르다. 말은 표현이다. 

동일한 언어조차 지역이 다르고 언어적 발화 습관이 다르며, 발화자의 감정상태가 상이하면,

자칫 다른 말로 잘못 인식한다. 

경우에 따라서는 발화자(말하는 이)의 의도와 달리 말이 헛 나오는 경우도 적지 않다.

이런 모든 경우의 수를 잡음제거나 소리 증폭을 통해 '복원'이라는 말로 희석하여 인식하는 것은

심하게 말하면, 언어도단이라고 말할 수 있다. 어쩔 수 없이 그렇게 대다수의 사람들은 인식하므로

필자도 해당 단어를 사용하면서 의뢰인과 소통하지만 마음은 편치 않다.


더군다나 영화나 드라마에서 대화내용이 버튼 하나만 누르면 바로 잡음제거가 되고 증폭이 되어

선명하게 들리는 장면이 나올 때면, 저렇게만 되면 얼마나 좋을까 하고 직업상 자괴감마저 느낀다.

그래서 전 세계에서 잡음제거 기능이 좋다고 하는 어지간한 프로그램들은 다 써봤다.

심지어 가격이 억 소리 나는 제품도 사용해봤다. 

결론은 대동소이했다.


즉 자주 비유하는 말이지만, 화질이 안 좋은 사진이나 영상을 확대하거나 큰 화면으로 본들,

안 좋은 화질만 크게 보일 뿐, 화질이 좋아지지 않는 것처럼, 음질도 이와 같음을 알아야 한다.

현재는 기술이 워낙 좋아져서 AI를 통한 이미지 픽셀 Predictive Coding(예측 부호화) 과정이

향상되어 시각적으로 볼 때 화질이 좋아진 것처럼, 그리고 자동차 번호판 같이 그 모양과 형태의 패턴이

일정한  경우는 인식이 가능할 정도로 향상되어가지만, 

앞서 비유한 바와 같이 소리는 양자역학에 준하는 중첩과 얽힘의 마스킹 현상이 있기 때문에

AI기술로 이것이 어느 정도 향상될지는 미지수다.


따라서 현재 음악은 여러 인지착오를 유발시키는 기술들을 사용해서 음질이 좋아진 것처럼

착각하게 만들 수는 있으나,

발화체는 온전한 신호가 갖추어져야 그 의미를 해석하고 전달받을 수 있기에

음질 향상의 느낌만으로 해결될 수 없는 작업인 만큼,

이것이 내가 원하는 대화 내용 인지로 착각하는 일은 없기를 바란다.


섣부른 잡음제거나 증폭은 오히려 엉뚱한 단어로 인식하게 만들기도 하고,
무의미한 소음을 다른 소리로 착각하게 만들기도 하기 때문에 조심해야 한다.
그렇지 않으면, 종국에 법정에서 자신의 오판으로 인한
 책임을 져야 할 수도 있기 때문이다.
발화 패턴 분석 예시 화면

https://brunch.co.kr/@2lab/101

그래서 소송 관련해서나 정보 및 수사기관에서 녹취파일 잡음제거와 목소리(음성)증폭을 의뢰하면,

우선 해당 발화자의 대화를 가장 잘 이해하고 있는 당시 대화에 함께 참여한 사람,

혹은 없다면 최소한 그 사람의 발화체를 잘 이해하는, 예를 들어 가족이나 아니면 방언을 사용하는

발화자라면, 그 지역 법원 앞에 있는 속기사 사무실에 가서라도 일단 들리는 음성은 다 기록한 뒤에

전체적인 맥락을 이해하고, 그중에서 안 들리는 음성 구간을 최소화하여 의뢰하라고 조언한다.

(단, 속기사에 의해서 작성된 속기록, 녹취서가 발화내용을 절대적으로 담보한다고 볼 수 없으므로, 의견 충돌시 쟁점화된 발화체에 대한 특수감정이 필요함을 참고바란다. 상기 '녹음, 녹취, 속기 차이점'글 링크 참조)

그렇지 않으면, 엄청난 분석 기간과 비용에 의뢰인도 힘들고 저도 힘들다고 말이다.

그 이유는, 정밀청취만으로 해결될 수 없는 신호분석의 발화체 성문 분석은

1초에 많으면 10음절의 초성, 중성, 종성, 자음, 모음 모두를 성문과 성흔으로 분석해야 하기 때문이다.

통상 분석시료는 44100Hz로 분석하므로, 1초에 4만4천일백개의 신호를 분석한다고 해도 과언이 아니다.

물론 오랜 경험과 발전하는 분석 툴로 쌀알 세듯이 분석하지는 않지만, 

그래도 귀로 듣고 눈으로 보면서 분석해야 하는 일인 만큼,

체력적으로도 피로도가 엄청나며, 연속해서 서너 시간 이상 작업은 불가하다.

그러다가는 환청, 착청, 오청에 시달릴 수도 있기 때문이다.

(청취 오류 현상에 대한 설명은 아래 링크 글 참조)

발화체 분석 과정 예시 화면

그러므로 다시 노파심에서 말하지만,

우리가 흔히 접하는 첩보영화나 수사물 드라마에서처럼 잘 들리지 않는 녹음된 소리를 마법처럼 선명하게 만드는 기술은 현재의 과학 기술로는 불가함을 자각하고, 소리는 녹음된 이상 소리가 아닌 데이터로 인식하고, 위에 알려준 대로 꼭! 필요한 부분만 전문가에게 감정 자문을 의뢰하기 바란다.


마지막으로 필자가 일하는 연구소에서 작성한 자주 묻는 질문란에 올려놓은 글을 링크 걸어놓으니,

진정 작업이 필요하신 분들은 한 번 읽어보시고, 깔끔하게 포기할 부분은 포기하고,

지푸라기라도 잡는 심정으로 의뢰가 필요하다면, 참고하기를 바란다

듣기 좋은 잡음제거는 있어도 선명한 잡음제거란 없습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari