"분명 아들 목소리였는데"
AI 보이스피싱

by Henry


AI 보이스피싱.jpg



엄마, 나야…

"분명 아들 목소리였는데…“


캐나다의 한 부모에게 변호사라고 주장하는 사람이 전화를 걸었다. 아들이 교통사고로 사람을 사망케 했다며, 곧 아들의 목소리를 들려주겠다고 했다.


"엄마, 나야… 나 사람을 죽였어. 정말 큰일 났어."


전화기 너머로 들려온 울먹이는 목소리는 분명히 아들의 것이었다. 공포에 질린 부모는 즉시 수천만 원을 송금했다. 하지만 이는 AI 기술을 악용한 새로운 형태의 보이스피싱이었다.


"분명 아들 소리였는데…"


부모의 말속에는 우리 시대의 새로운 공포가 담겨 있다. 가장 충격적인 것은 범인들이 단지 음성 사서함 메시지만으로 아들의 목소리를 완벽하게 재현했다는 점이다. 놀랍게도 30~35초 정도의 음성 샘플로 복제했다. 온라인에는 이런 음성 복제 프로그램들이 무료로 배포되고 있을 정도로 만연하다.


이제 우리는 낯선 사람과의 전화 통화조차 조심해야 하는 시대에 살고 있다. 상대방이 내 목소리를 몰래 녹음해 AI에 학습시키면, 그 목소리는 곧 '나'가 된다. 사람이 아무리 성대모사를 잘해도 완벽하게 흉내 내는 건 어렵다. 하지만 AI는 단순한 성대모사가 아니다. 아예 성대 자체를 복제해, 진짜와 구분을 불가능하게 한다.


끊기고 이어지는 디지털, 물결처럼 흐르는 아날로그

AI는 정교하게 사람의 목소리를 복제한다. 어떻게 이게 가능한지 이해하려면, 먼저 디지털 세계의 작동 원리를 알아야 한다.


‘디지털(digital)’이라는 말은 라틴어 digitus(손가락)에서 나왔다. 손가락으로 하나씩 세는 것처럼, 디지털은 정보를 하나하나 구분하여 처리하는 방식을 말한다. 정보를 '하나하나 구분해서 처리한다'는 말이 무슨 뜻일까? 이를 제대로 이해하려면 우리가 사는 현실 세계, 즉 '아날로그' 세상과 비교해 볼 필요가 있다.


밝은 햇살 아래 나뭇잎은 1초나 0.1초 단위로 흔들렸다가 멈췄다가 다시 흔들리는 식으로 움직이지 않는다. 아이의 웃음소리도 그렇다. 비 오는 날의 심란한 마음은 0.1초 혹은 0.01초 단위로 불연속적으로 작동하지 않는다. 세상의 모든 움직임은, 그것이 시작된 순간부터 끝날 때까지 끊김이 없이 부드럽게 이어진다. 이처럼 동작이나 감정이 ‘끊어졌다 이어졌다’를 반복하지 않는 세상, 우리는 그것을 ‘아날로그’라고 부른다.


하지만 컴퓨터는 우리가 사는 세상을 있는 그대로 느끼지 못한다. 컴퓨터는 연속적인 아날로그 정보를 아주 잘게 나눈 뒤, 0과 1이라는 숫자 신호로 저장하고 처리한다. 나뭇잎의 흔들림, 아이의 웃음소리, 심란한 마음마저, 잘게 쪼개 모두 0과 1의 숫자로 바꿔 해석한다. 이것이 바로 ‘디지털 신호’다. 마치 전구 스위치를 껐다(0), 켰다(1) 하는 방식으로 세상을 받아들이는 것, 그것이 디지털이다.


요즘 나는 박찬욱 감독의 영화 <헤어질 결심>의 OST, ‘안개’를 기타로 연주한다. 멜로디는 아름답고, 기타 연주를 위한 편곡도 무척 서정적이라 마음에 든다. 내가 이 곡을 연주하면, 멜로디의 파동이 공기를 타고 고막으로 전달된다. 이때 들리는 음은 초 단위, 혹은 그보다 더 미세한 단위로 멈췄다가 다시 들리는 식이 아니다. ‘안개’는 내가 연주하는 내내, 부드럽고 연속적인 파동으로 고막을 적신다.


하지만 컴퓨터는 약 4분 동안 이어지는 ‘안개’의 멜로디를 연속적인 파동 그대로 받아들일 수 없다. 먼저 ‘아날로그-디지털 변환기’(ADC, Analog-to-Digital Converter)라는 장치를 이용해, 이 부드러운 소리를 아주 잘게 쪼갠다. 내가 연주하는 음은 약 0.0000227초, 즉 1초를 44,100 등분한 짧은 순간 단위로 나뉜다. 이렇게 나뉜 각 순간의 진폭. 즉 소리의 세기는 숫자로 측정된다. 그리고 이 숫자들은 다시 0과 1의 조합으로 변환되어 컴퓨터에 저장된다. 그렇게 만들어진 것이 바로 ‘디지털 음원’이다.


8개의 전등 스위치가 만드는 무한한 세계

컴퓨터가 이해하는 세계는 단순하다. 전원이 켜졌는가(1), 아니면 꺼졌는가(0). 오직 이 두 가지 상태만으로 모든 정보를 처리한다. 이 하나하나의 상태를 우리는 '비트(bit)'라고 부른다. 전구 8개가 나란히 켜지거나 꺼지는 모습을 떠올려 보자. 그 조합은 총 256가지(2⁸)에 이른다. 이 8개의 비트, 즉 전구 8개의 조합을 묶은 것을 우리는 ‘1바이트(byte)’라고 한다.


1바이트는 영어 알파벳 한 글자, 또는 0부터 255까지의 숫자 하나를 표현할 수 있다. 하지만 한글 한 글자는 보통 2~3바이트가 필요하다(UTF-8 기준). 사진 한 장을 구성하는 픽셀 하나는 총 3바이트로 표현된다. CD 음질의 음악은 2바이트 단위(16비트)로 소리를 저장한다. 이처럼 표현하려는 대상이 문자, 숫자, 이미지, 음성인지에 따라 필요한 바이트 수는 달라진다.


내가 연주한 <안개>의 멜로디는 수백만 개의 2바이트 샘플로 이루어져 있다. 우리가 찍은 사진 한 장도 수백만 개의 3바이트 픽셀로 구성된다. 심지어 눈물 흘리게 만든 그 소설 한 편조차, 수만 개의 2~3바이트짜리 한글 글자들이 모여 만들어진 것이다. 결국 우리가 감탄하고, 울고 웃는 모든 디지털 콘텐츠는 수많은 바이트의 조합이다. 아름다운 음악, 눈부신 영상, 가슴을 울리는 문장들조차 컴퓨터에는 단지 0과 1의 숫자 배열일 뿐이다.


컴퓨터는 '대구신문'이라는 네 글자도 결국 0과 1의 조합으로 저장한다. 컴퓨터가 글자를 인식할 때 사용하는 표준 방식인 UTF-8 문자 인코딩에서는, 한글 한 글자가 보통 3바이트, 즉 24비트로 표현된다. 그 결과는 다음과 같다:


'대' → 11101011 10001100 10000000 (3바이트, 24비트)

'구' → 11101010 10110101 10101100 (3바이트, 24비트)

'신' → 11101100 10001011 10100000 (3바이트, 24비트)

'문' → 11101011 10101100 10111000 (3바이트, 24비트)


대-디지털 조합.jpg ‘대구신문’의 ‘대’를 구성하는 디지털 신호


예를 들어, ‘대’라는 글자의 디지털 신호는 세 줄로 구성된 8개의 전구, 총 24개의 켜짐(1)과 꺼짐(0)으로 표현된다. 바로 위에 보이는 그림은 이 ‘대’라는 글자의 디지털 패턴을 시각화한 것이다.


따라서 컴퓨터가 ‘대구신문’이라는 네 글자를 기억하려면, 각 글자당 3줄씩 총 12줄, 다시 말해 96개의 전구 조합이 필요하다. 이처럼 우리가 읽고 쓰는 모든 글자와 정보들은 결국 0과 1의 불빛으로 이루어진 세계 속에 살아 있는 셈이다.


가족 간 암호가 필요한 시대

우리의 목소리는 마이크를 통해 아날로그-디지털 변환기(ADC)를 거치며, 0과 1의 숫자 조합으로 바뀐다. 사람의 음성은 초 단위가 아닌, 1초를 수천에서 수만 등분한 아주 짧은 간격으로 진폭(소리의 세기)이 측정되고, 이 값들이 숫자로 변환되어 컴퓨터에 저장된다. 단 30초의 음성만으로도 수백만 개의 숫자가 생성되는 셈이다.


AI는 이렇게 디지털화된 음성 데이터 속에서 정밀한 패턴을 분석한다. 특정 단어를 발음할 때의 주파수 변화, 감정을 담을 때의 목소리 톤, 그리고 개인 고유의 말투나 발음 습관까지, 모든 것이 0과 1의 배열로 기록되고 학습된다. 사람의 목소리에는 각자 고유한 ‘디지털 지문’이 존재하는 셈이다.


AI는 이 디지털 지문만 확보하면, 내가 직접 말한 것처럼 말투와 감정까지 정교하게 흉내 낼 수 있다. 기쁨, 분노, 슬픔, 두려움 같은 감정의 미세한 떨림까지도 디지털 코드로 읽어내고 재현하는 것이다.


AI는 단순한 성대모사를 하는 것이 아니다. 이제는 아예 ‘성대’를 복제해, 진짜와 구분이 불가능한 수준에 이르렀다. 이제 우리는 낯선 사람과의 전화 통화조차 조심해야 하는 시대에 살고 있다. 상대방이 내 목소리를 몰래 녹음해 AI에 학습시킨다면, 그 목소리는 곧 '나'가 된다.


이제는 가족의 전화번호가 떠도 의심부터 해야 하는 세상이 되었다. 전화번호도 맞고, 목소리도 분명 아들의 것이다. 심지어 화상통화를 해도 얼굴까지 똑같다. 그런데 알고 보니 딥페이크 기술로 무장한 AI가 만든 가짜였다. 이쯤 되면 속수무책으로 당할 수밖에 없다.


기술은 본래 인간을 위한 도구다. AI도 마찬가지다. 문제는 기술 그 자체가 아니라, 그것을 어떻게 쓰느냐에 달려 있다. 이제 우리는 단순히 기술을 발전시키는 것에 머무르지 않고, 그 기술을 어떤 ‘가치’ 위에 올려놓을 것인지를 함께 고민해야 한다. AI가 사람을 흉내 내고, 속이는 능력을 갖출수록 더 그렇다.


그렇다면 당장 우리는 어떻게 해야 할까? 가족끼리 서로만 아는 암호나 호칭을 하나쯤 정해두어야 하지 않을까?


"응, 딸?" "네, 엄마"가 아니라

"딸. 나 튤립"

"엄마, 나 백합“


이처럼 누가 흉내 낼 수 없는, 우리만의 비밀이 필요한 시대인지도 모르겠다. 0과 1로 이루어진 디지털 세계에서, 아이러니하게도 우리에게 필요한 것은 가장 아날로그적인 것들 - 사랑, 신뢰, 그리고 진짜 가족만이 공유하는 따뜻한 기억들일지도 모른다.


keyword
목, 금, 토, 일 연재
이전 09화AI와 함께 만든 첫 번째 동화