brunch

You can make anything
by writing

C.S.Lewis

'아' 다르고 '어' 다른 것을 찾는 직업!

한 초등학생이 물었다. 선생님 여기(녹취분석연구소)는 뭐 하는 곳이에요?

남편의 죽음에 의문을 품고 녹음파일에 실체적 진실을 찾고자 분석실 스튜디오에 찾아온 의뢰인, 그리고 초롱초롱한 큰 눈망울을 한 꼬마 숙녀가 그녀의 손을 꼭 잡고 연구소 현관 앞에서 나를 바라봤다. 누가 봐도 서로 똑 닮은 모녀사이, 엄마는 화장실 위치를 물었고 자연스레 아이는 나의 안내로 대기실 소파에 앉았다. 그리고 대기실 바로 옆 은행 금고문 같은 곳(실제는 방음문)을 한 번 뚫어지게 보고는 나를 천진난만한 표정으로 바라보며 입을 열었다.

"선생님 여기(녹취분석연구소)는 뭐 하는 곳이에요?"

지금까지 초등학생에게 나의 일을 설명한 적이 한 번도 없었기에 순간 당황했다.


그래서 '브런치스토리'를 빌어 팔순을 넘긴 부모님도 헷갈려하는 나의 일을 초등학생도 이해할 수 있도록 설명해 보고자 한다. (그게 가능할지는 모르겠으나...)

작년 초 OTT방송 영화 소개 프로그램에서 나의 직업과 유사한 특이 직업을 가진 여성이 주인공(조이 크래비츠, 役앤젤라)으로 등장하는 영화[제목: 키미(KIMI), 연출 스티븐 소더버그]가 있다고 해서 섭외가 온 적이 있었다. 난 영화를 너무 좋아해서 직접 단편, 중편, 독립, 실험영화까지 시나리오를 쓰고, 제작, 연출까지 한 바가 있다. 네이버나 다음 포털 사이트에 내 이름을 검색하면 직업란에 '영화감독'이 있는 이유다. 그래서 섭외를 거절할 이유가 없었다. 만약 이 글을 제가 출연 섭외를 고사한 여타 방송작가님들이 보시면, 프로그램 골라서 출연하냐고 뭐라고 하실지 몰라 여담을 덧붙이자면, 대표적인 탐사보도 SBS'그것이 알고 싶다' 같은 경우도 섭외가 오면 혹자들은 전문가로서 너무나도 좋은 기회라고 무조건 묻지 마 출연을 권하지만, 난 나의 역할이 해당 프로그램이 추구하는 실체적 진실에 부합할 수 있는지만 보고 참여 결정을 한다. 그래서 여러 차례 자문 및 인터뷰 요청이 들어왔음에도 고사한 적도 적지 않다. 물론 도움이 되는 경우에는 주저 없이 응했다. 또한 방송사 인터뷰 요청도 하나의 책임 있는 분석 의뢰로 취급하기에 늘 최소한의 분석료를 요구한다. 그러니 혹여 출연 요청을 고사한 방송 프로그램 관계자분이 이 글을 보시면 필자의 취지를 이해해 주시기를 바란다.

(이에 관련된 글 링크 주소: https://brunch.co.kr/@2lab/130)

아무튼 다시 해당 영화 소개 방송 출연 얘기로 돌아가서... 거기서 진행자 MC분께서 소개를 부탁한다고 할 때, 난 "녹취분석하는 특수감정인 이철형입니다."라고 소개했었다.

'녹취분석'과 '특수감정' 모두 사실 초등학생은 물론이고, 일반 성인들도 생소한 단어다.

나 역시도 '녹취분석'이라는 말을 20여 년 전 이런 학문이나 연구가 거의 전무한 시절-(지금도 딱히 국내에서는 필자 이외에 아직 제대로 녹취분석에 대해 연구하는 사람은 보지 못했다. 왜 그럴까?! 궁금하신 분들은 필자의 또 다른 글 아래 https://brunch.co.kr/@2lab/245 참조)-'녹음분석'으로는 부족한 표현이라는 생각에 처음 사용했던 단어이기 때문이다.

'녹음분석'은 녹음된 소리 신호에 국한된 분석으로 느껴지기에, 그 녹음된 신호가 내포한 언어, 비언어, 그리고 물리적 소음의 역학관계까지 '내용분석'을 하지 않고서는 결코 그 녹음파일이 의미하는 상황을 온전히 프로파일링 할 수 없다고 생각해서, '신호분석'과 '내용분석'을 합친 '녹취분석'의 개념을 만들게 되었다.


현재는 '법과학, 녹취분석학개론'이라는 다이제스트 핸드북까지 출판하며, 누구나 손쉽게 녹취된 정보가 가지고 있는 여러 속성에 대해서 대략이나마 이해할 수 있도록 하였지만, 2000년대 초반 처음 녹취분석을 시작했을 때만 해도 나의 경험과 지식은 그럴 여유가 없었다.


돌이켜보면, 결핍이 갈망과 욕구를 빚어내는 원동력임을 절실히 느끼게 되는 지난날들이었다.

가장 학문적으로 발전되었다는 미국에서 조차 불과 4년 전인 2019년에서야 처음 '보이스 프로파일링'에 관한 개념이 어느 정도 정리된 책(Rita Singh, Profiling Humans from their Voice)이 나왔었다. 국내 번역본이 나오길 간절히 2~3년간 기다렸으나,  역시나 수요가 없으니 어찌 보면 당연하게도 출판되지 않아 직접 수십만 원의 거금을 들여 책 한 권을 해외 직구를 통해 비행기로 공수해서 구글신의 도움을 받아 나만의 번역본을 만들기에 이르렀다. 그러면서 볼 때마다 느끼는 것이지만 미국사람이나 한국사람(필자)이나 업무적으로 일하면서 느끼는 생각은 비슷하구나 느끼면서 공감할 때면, 내가 지금까지 한 여러 학문의 융복합적 연구가 잘못되지 않았음에 위로와 안도를 하게 된다.


특히, 이 책 저자가 보이스 프로파일링이라는 체계를 만드는 과정이 필자가 '녹취분석학'이라는 체계를 갖추는 과정과 유사한 점이 많고, 인공지능을 활용한 분석 업무의 확장 역시 상당히 공감되는 내용이 많음에 필자도 이미 수년 전부터 인공지능 기술을 접목한 여러 분석 시도와 연구를 게을리하지 않았음이 역시 옳은 판단이었음에 동지애까지 느낄 수 있었다. 만약 내 책이 나오기 전에 이 책을 봤었다면, 다이제스트북으로 만들 생각보다는 오히려 학문의 이론 정석집으로 더 깊고 넓게 다룰 욕심을 냈을 것 같다는 생각도 하게 되었다. 물론, 이 책의 저자인 리타 싱의 분석과 이론, 그리고 의견에 모두 동의하는 것은 아니다. 새로운 학문의 등장이 늘 그렇듯 그녀가 컴퓨터 공학자의 관점에서 접근한 부분은 일부 과도하게 편향된 데이터로 일반화시킨 것에 너무 고무된 것이 아닌지 우려되는 점과 아울러 인공지능 기술을 활용해 목소리만으로 구현할 수 있다고 설시하는 통계적 데이터에 근거한 몽타주에 관한 챕터 역시 다소 동의하기 어렵기도 한 내용도 있지만, 그럼에도 불구하고 400페이지에 달하는 보이스 프로파일링에 관한 과학적 전산학적 접근은 앞으로 필자의 연구에도 많은 도움이 되리라 기대하기에는 충분했다. 

또한 이제부터 이 학문은 '녹취분석학'이든, '보이스 프로파일링'이든 뭐라고 불리더라도, 법과학적으로 상당히 비약적인 발전을 하겠구나라는 생각에 이르렀다. 그 이유는 소리라는 것, 음성(목소리)이라는 것이, 비대면 비접촉 신호 데이터로써 4차 산업혁명에서 인공지능 기술을 통해 얻을 수 있는 오늘날의 정보 가치가 법과학적 관점에서 보더라도, 실체적 진실을 밝힘에 있어서 매우 중요한 증거임이 분명하기 때문이다.


초등학생도 이해하도록 녹취분석에 관한 일을 설명하겠다고 해놓고는 무슨 사설을 이렇게 또 늘어놓았는지 독자에게 송구스러우나, 아시다시피 글이라는 것이 남에게 읽히게 하기 위함이기도 하지만, 나 자신의 생각을 정리함에도 유용하므로, 쓰다 보니 이렇게 된 점 양해하여 주기를 바란다.


그럼, 이 글 큰제목처럼 '녹취분석'을 초등학생도, 팔순 어르신도 쉽게 이해할 수 있도록 한 마디로 축약하자면 '아'와 '어'가 다름을 확실하게 확인하는 일이라고 말할 수 있다. 더 혼란스럽기 전에 아래 설명과 사례를 읽어보면 보다 쉽게 이해할 수 있으리라 생각한다.


'아'와 '어'가 그럼 어떻게 다른 지부터 설명해 보겠다.


'아'와 '어'는 통사론적 관점에서 품사로 보자면, 간투사에 해당된다.

간투사는 품사의 하나로 말하는 이의 본능적인 놀람이나 느낌, 부름, 응답 따위를 나타내는 말의 부류이다.

감탄사, 감동사로 표현하기도 하지만, 20년 넘게 이 일을 한 사람으로서 간투사라는 표현이 가장 적확하다고 생각하기에 다소 생소할 수도 있겠지만, 간투사로 칭하겠다.


간투사 '아'는 우리가 누군가 혹은 무언가로부터 물리적 타격, 충격을 받거나, 아니면 뭔가 갑자기 떠오르거나 깨달을 때 주로 무의식적으로 내뱉는 음성 신호다. 


간투사 '어'는 우리가 어떤 사물이나 현상이 특이하거나 남다르다고 느낄 때, 혹은 깜빡 잊었던 일을 알게 되었을 때, 즉 예측과 다른 상황이 발생되었을 때, 이 역시 '아'와 유사하게 주로 무의식적으로 내뱉는 음성 생체 신호다.


그래서 녹취분석 과정에서 청취되는 소리 신호 중에 등장인물의 목소리로 발화된 신호가 '아'인지 '어'인지에 따라 각각 엇갈리는 주장의 진술 신빙성이 판가름 나기도 한다. 특히, 소리 신호가 지닌 음가(音價)를 분석하면 청취로는 판단하기 어려운 해당 신호가 어떤 발화체에 더 가까운지 추정할 수도 있기에 보다 당시 상황을 유추하는데 녹취분석은 매우 유용한 정보임은 분명하다. 


그러므로 '특수감정'은 이런 실체적 진실을 밝히기 위한 과정에서 각 분야 전문가의 분석 의견을 적시한 감정서를 작성하는 업무를 통칭하여 부르는 표현이다. 일반감정은 대부분 감정평가 금액 등으로 표현하지만, 특수감정은 해당 분야의 오랜 경험과 노하우가 축적된 전문가가 사건 증거 분석을 통해 결론을 도출함으로써 의견을 제시한다. 따라서 반드시 과학적 근거가 분석 과정에서 명시되어야 한다.


그럼, 필자의 경험 사례를 들어 설명해 보겠다.


한 사건 의뢰인이 억울함을 토로하며 찾아왔다.

의뢰인 진술에 의하면, 상대방 차량이 갑자기 방향을 틀어 차선을 침범하여 자신의 차량과 접촉 사고가 발생하였는데, 사고 후 해당 운전자가 잘잘못을 따지면서 자신의 블랙박스 메모리카드를 빼려고 차로 접근하여서 자신은 이를 막기 위해서 그 사람 목 뒷덜미를 잡아끌자 상대방은 '아'라는 발화신호가 녹음된 것을 빌미로, 의뢰인이 차량 사고 발생에 흥분하여 자신의 목을 앞에서 졸라서 '아'라고 신음소리를 낸 것이라고 진술함으로써, '아'라는 하나의 음성 생체신호를 가지고 서로 상반된 주장을 하기에, 어떤 진술에 더 신빙성이 있는지 분석 감정 의견을 요청하는 의뢰 내용이었다.

일반인들은 '아'라고 녹음된 음성 신호 하나만으로 이를 과학적으로 어떻게 판단할 수 있을지 의문이 들 수 있다. 하지만 필자는 이미 이런 분석을 여러 차례 해보았기에 비교적 쉽게 분석, 결론을 도출할 수 있었다.

이 분석의 키포인트는 앞에서 목을 졸랐을 때 발생되는 '아'라는 음성 발화신호와 뒤에서 목덜미를 당겼을 때 발생되는 '아' 음성 발화신호의 패턴을 분석하면 쉽게 알 수 있다.

물리적으로 성대가 발화될 때 작동되는 메커니즘이, 앞에서 손으로 목을 조르며 압박할 때와, 뒤에서 당겨서 고개가 젖히면서 압박될 때 나오는 신음 소리는 주파수 변화와 진폭 변이가 완전히 다른 패턴으로 표출되기 때문이다. 자세히 설명하려면 상당한 분량의 그래프와 설명이 첨부되어야 하므로 생략하겠으나, 이런 경우는 분명히 녹취분석이라는 특수감정을 통해 과학적으로 확인할 수가 있다.


또 다른 사건을 예로 들겠다.

해당 건은 형사재판 중인 법원 재판부가 필자에게 촉탁 감정한 사례이다.

여자가 일방적으로 폭행을 당했다는 피해 주장과 남성은 여자가 자신의 물건을 돌려주지 않아 뺏는 과정에서 오히려 폭행은 상대방이 했다는 주장 사이에서 112 신고 통화 녹음 과정 중 현장음이 녹음된 상황을 분석 의뢰하는 내용이었다.

당시 녹음파일에서 녹취된 여성 음성 신호 중 '아'라는 발화체가 간헐적으로 등장하는데, 이 부분이 자신이 남성에게 폭행당하는 부분이라고 주장했다. 하지만 남성은 여성이 자신의 물건을 들고 있는 채로 달라는 자신의 요구에 응하지 않자 어쩔 수 없이 본인은 손을 뻗어 그 물건을 낚아채려는 과정에서 여성이 '어' 혹은 '아' 하면서 자신에게 발길질을 했다는 주장을 펼쳤다.

분석결과 '아' 혹은 '어'라는 발화신호가 모두 검출되었고, 이 둘 모두 발화 신호 다음에 물리적 타격음이 있었음이 확인되었다. 1000분 1초까지 분석하기에 가능한 일이다. 우리가 불시에 공격을 받거나 맞으면 타격음과 동시 혹은 직후에 '아'라는 간투사가 청취되는 것이 일반적이다. 본 녹취 신호는 반대로 청취되므로 여성의 진술과 배치된다. 그럼에도 남성이 발로 찰 것을 예측한 상태에서 '아'라는 간투사가 먼저 발화되었을 가능성도 완전히 배제할 수는 없다. 하지만 모두 이런 패턴을 취한다는 것은 매우 이례적이며, 예측 가능한 폭행에 방어흔이 전혀 없다는 것, 그리고 다수 폭행임에도 진단서상에서 관찰되는 소위 멍(출혈반) 등이 없었던 점은 진술과 역시 배치되는 것으로, 이 모두 남성 진술에 신빙성을 더하게 되는 요소다. 또 여성의 진술대로 복부와 허벅지 등을 남성이 발로 반복 폭행했다면, '아' 뿐만 아니라 '헉', 혹은 괴성에 이르는 다양한 비명, 신음 소리가 청취 관찰되어야 함에도 화를 내는 여성의 목소리만 있을 뿐이다. 따라서 본 사건은 재판부에서도 여성의 진단서가 맞았다는 표현에 비해 미비하고, 폭행 타격음과 여성의 '아'음성 신호의 패턴이 한 치의 의심도 없이 남성이 여성을 일방적으로 폭행한 것으로 보기에는 미심쩍은 부분이 있어 특수감정을 촉탁한 것으로, 분석 결과도 역시 재판부의 의심대로 여성의 진술이 상당 부분 허위 과장 진술한 것으로 감정의견 되었다.


이렇듯 우리가 흔히 듣는 간투사인 '아', '어'의 짧은 외마디 목소리라도 실체적 진실을 밝히는 주요한 단서가 될 수 있다. 


마지막으로 AI인공지능에 대해서, 딱 한 마디로 인공지능의 핵심 딥러닝을 '어'라고 표현한 강의 링크를 덧붙이며, 마무리하도록 하겠다. 쉽게 지나칠 수 있는 '어'라는 말이 우리 뇌에서는 어떤 과정을 거쳐서 내뱉게 되는 신호인지 알게 되며, 이를 통해 인공지능 딥러닝까지 이해하는 과정이 매우 재미있다. 다소 어려운 앞부분의 베이스 정리 공식 설명은 점프하여 재생되도록 링크하였으니 참고 바란다. 해당 강의에 대한 자세한 정보는 해당 영상 유튜브 페이지에 있다.

https://youtu.be/efWSbITntR0?t=1020


위 동영상을 통해 잠시나마 어떤 학위나 학벌을 위해서 공부하는 것이 아니라, 나의 호기심을 해소하기 위해서 탐구하는 마음으로 학문의 즐거움을 느껴보았기를 바란다. 수년 전 위 강의를 유튜브를 통해 보고, 딥러닝에 대해서 한결 쉽게 이해할 수도, 그리고 남들에게 쉽게 이해시킬 수도 있어서 매우 유용했기에 추천한다. 


P.S) 비록 저는 처음 이글의 의도와 달리 그 어떤 것도 쉽게 설명하지 못한 것 같아 이 글을 읽는 분들께 송구한 마음을 전합니다.ㅠㅠ


※ 본 글에 언급된 의뢰 사건에 관한 필자의 경험 사례는 의뢰인의 보호를 위해 일부 정보를 각색 및 생략한 점을 밝힙니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari