인공지능 음성 공격에 대비하라!

보이스 피싱, 이제는 사람의 청음 능력으로 구분할 수 없는 한계가 온다.

May 3. 2019

예전에 한 개그 콩트에서 어설픈 중국동포의 목소리로 보이스 피싱하는 것을 소재로 우리를 웃게 한 기억이 있다. 그러나 점차 그 언어적 특성의 목소리로는 구분하기 어려울 정도로 검사, 공무원, 은행 직원, 수사관의 어조로 계속해서 보이스 피싱을 하며, 진화하고 있음을 우리는 익히 알고 있다.

지인 중에도 적지 않은 금액을 보이스 피싱 범죄로 피해 본 경우가 있어, 그 상황을 자세히 들을 수 있었는데, 한 번 그들의 논리에 빠지면, 다른 생각을 하지 못하므로, 전화를 끊고 나서야 비로소 자신이 당했다는 사실을 인지하게 된다고 했다.

현재는 관련 기관 등에서 여러 보완책과 보호 예방 장치를 제도적, 기술적으로 많이 마련해 놓고 있고, 유사 피해사례도 꾸준히 알리고 있어, 보이스 피싱 범죄 피해를 줄이고자 하는 다각적인 노력을 정부가 하고 있음을 우리는 은행만 가도 쉽게 알 수 있다.

이에 어느 정도 피해를 줄이는 효과는 있었다고 볼 수 있으나, 그럼에도 불구하고 여전히 보이스 피싱 피해는 완전히 사라지지 않고 있다.

그 이유는 범죄자들도 우리 대책에 발맞춰 제도적 허점을 파고들며, 기술적으로 진화하고 있기 때문이다.

특히 사람의 인지 착오는 언제 어느 순간, 누구에게나 경험할 수 있는 것이므로, 자칫 그 타이밍에 보이스 피싱 범죄자의 전화를 받는다면, 우연을 가장한 *아포페니아의 늪에 빠져들어 쉽게 당할 수 있기 때문이다.

* 아포페니아[ Apophenia ]

- 서로 무관한 현상들 사이에 의미, 규칙, 연관성을 찾아내서 믿는 현상을 가리키는 말.

보이스 피싱 범죄는 일종의 심리게임이자, 범죄자들에게는 확률게임이다.

심리적으로 곤궁(困窮-처지가 이러지도 저러지도 못하게 난처하고 딱함)한 상황에 빠지도록 대본을 만들어, 범죄자는 연기를 하고, 피해자는 그 대본에 짜인 스토리 역할에 빠지는 순간, 시쳇말로 낚이게 되는 것이기 때문이다. 그래서 피싱(Phishing)의 어원도 보면, 개인정보(private data)와 낚시(fishing)의 합성어로 만들어졌다. 피해자 개인정보를 파악해서 그들의 사정을 파고드는 것이다.

그런데 이 대본을 미리 사람들이 알면, 범죄자 입장에서는 수익을 올릴 확률이 낮아진다.

그래서 보이스 피싱 범죄자들은 끊임없이 새로운 대본을 만들어내려고 노력할 것이다.

최근 뉴스 보도를 통해 한 영화감독이 보이스 피싱 조직을 취재하다 스스로 범죄자가 된 사례를 본 기억이 있는데, 자세히는 모르겠으나 감독의 스토리 창작 능력이, 이 범죄에 상당히 필요했음을 그만큼 방증하는 사례가 아닐까 생각한다. 그래서 앞서 언급했듯이 국가기관에서도 이 피해사례를 언론이나, 은행 등을 통해 널리 꾸준히 알리려고 하는 것이다.

그런데 이제는 이런 노력이 소용이 없다면 어떨까?

다시 말해서, 잘 짜인 대본으로 속는 것이 아닌 실제 나의 배우자, 부모, 자식, 친구, 선후배 등의 지인 목소리로 보이스 피싱을 한다면 말이다.

이것이 현재의 기술로 어느 정도 가능해질 날이 멀지 않았다.

최근 2019년 4월 9일 자 전자신문 '네이버 클로바, 음성합성에 립리딩까지...구글 AI 넘어섰다'라는 제목의 기사를 통해 '네이버 AI 콜로키움(Colloquium-전문가 회의) 2019'에서 밝힌 내용에 따르면, 강연자가 500문장을 현장에서 자신의 목소리가 아닌, AI가 강연자의 목소리를 흉내 낸 음성으로 립싱크를 했음에도 아무도 참석자들이 알아채지 못했음을 밝히고 있다. 사실 이 관련 기술은 이미 수년 전 여러 업체를 통해 AI세미나에서 필자도 직접 체험한 기술이고, 현재 이 기술을 분석 연구 중이기도 하다. 1년 전만 해도 이 기술은 상당히 제한적이었으나, 이번 기사에서는 상당 부분 개선되고 진화되었음을 알 수 있다.

기본 원리는 이렇다.

한 사람의 음성을 일정 시간(현재 업체마다 다르나 네이버는 30분이라고 기사에서 언급함) 녹음한 뒤에, 그 사람의 목소리를 머신 러닝을 통해 해당 음성을 모델링하여, 이후 텍스트로 내용을 입력하거나 다른 사람 목소리로 말을 하면 바로 앞서 모델링한 사람의 목소리로 변환해서 말을 하도록 하는 기술이다.

즉, 이병헌이나 김태희의 목소리로 나에게 아침마다 새로운 나만의 메시지로 잠을 깨워줄 수도 있고, 반대로 잠자리에 들 때는 내가 원하는 맞춤 자장가를 불러줄 수도 있다는 말이다.

그러나 이는 긍정적인 부분이고, 만약 이 기술이 보이스 피싱 조직들에게 들어간다면, 정말 생각만 해도 끔찍하다. 보이스 피싱 범죄 피해만의 문제가 아니다. 여타 사기사건, 유언 등 녹취증거 조작, 가짜 뉴스 살포, 유괴 등등의 모든 범죄에 악용될 수 있는 엄청난 기술이다.

혹자들은 대화가 원활하려면 응답이 즉각적이어야 하나 이 기술은 그럴 수는 없지 않는가에 대해 회의적인 반응을 보이는 사람도 있을 수 있으나, 대화의 응답 발화체는 상당히 예측 가능하며, 제한적(예, 음, 응, 아니, 네 뭐 등)이고, 충분히 사전 준비된 추임새 발화체등을 통해 지연시킬 수 있을 뿐 아니라, 최근 화두가 되는 5G 기술은 이런 실시간 지연 응답에 대한 우려를 최소화시키기에 충분하므로 문제가 되지 않을 것으로 보인다.

오히려 이제는 발신번호나 목소리만으로 상대방을 식별하기보다는 군대에서 사용하는 암구호를, 사이트 비밀번호처럼 만들어 사용해야 하는 웃픈 현실이 발생되지 않을까 조심스럽게 예측해본다.

물론 이런 생각은 필자뿐 아니라 해당 기술 개발자들도 할 수 있는 만큼, 그 예방책이나 기술 유출 등에 따른 보안을 철저히 하겠지만, 우리는 여러 사례를 통해 인간이 만든 기술은 얼마든지 복제되고 변형되며, 해킹될 수 있음을 아는 만큼 우려하지 않을 수 없다.

필자도 해당 분야 전문가로서 다방면으로 기계학습을 통한 AI 모방 음성과 실제 사람의 음성을 기술적으로 구분할 수 있는 변별 인자를 찾고자 관심과 노력을 기울이고 있다. 하지만 그 변별 인자를 범죄자가 알아내는 순간, 앞서 언급한 바와 같이 대본을 만들고 공개되면 또다시 새로운 대본을 만드는 보이스 피싱 범죄자들처럼, 또 다른 허점을 파고들 것이 분명하기에, 우리들은 범죄자들보다 한 발 더 앞선 예측으로 선제적 조치를 취하지 않으면 안 될 것이다.

4차 산업혁명의 긍정적 에너지가 얼마든지 부정적 에너지와 함께 공존하고 있음을 우리는 알아야 한다.

앞으로 본 매거진을 통해 이런 기술발전의 이면, 음영을 전망하고, 예측해 보는 시간을 종종 갖도록 하겠다.

본 글에 혹여 오해의 소지가 있을 수 있기에 노파심에 마지막 한 마디 거들자면,

해당 기술이 문제가 아니라, 이 기술을 악용하는 자들이 문제인 만큼, 범죄 의지를 꺾을 수 있는 강력한 처벌, 그리고 범죄가 발생되지 않도록 하는 사회 분위기가 만들어지기를 바랄 뿐이다.

두서없는 글 끝까지 읽어주셔서 감사합니다.

참고로 저의 브런치 글들은 저 스스로도 자주 보면서 계속 고치고, 수정하고 있으니 이점 아울러 참고 바랍니다. <끝>

keyword

Brunch Book