프로젝트 헤일 메리의 통역 AI, 지금 기술로 가능할까

우리 집 강아지, 고양이랑 자유롭게 소통하는 미래

Mar 19. 2026

너무 즐겁게 읽고, 오디오북까지 찾아들었던「프로젝트 헤일 메리」를 어제 개봉 첫날 영화로 봤다. 줄거리는 외울 정도로 알고 있었지만, IMAX 화면으로 보는 건 또 다른 경험이었다.

오늘은 영화 스포일러가 아니라, 영화에 등장하는 여러 기술 중 내가 요즘 관심을 두고 있던 하나에 대해 이야기해볼까 한다. 바로 '언어 통역 AI'다.

우주선 내부. 거미 모양의 바위 껍데기를 두른 외계 생명체와 지구에서 온 생물학자 라일랜드 그레이스가 처음 마주 서 있다. 서로에 대해 아무것도 모른다. 상대방이 지각이 있는 존재인지조차 확신하지 못한다.

그레이스는 화이트보드에 숫자를 쓴다. 1, 2, 3.

그러자 그 외계 생명체(나중에 '로키'라는 이름을 얻게 될 친구)가 소리를 낸다. 음악처럼 높낮이가 있고, 리듬이 있다. 그레이스는 그 소리를 녹음한다. 노트북으로 패턴을 분석하고, 학습시키고, 영어 음성으로 변환하기 시작한다.

완전히 낯선 두 존재가 소리를 서로의 언어로 만들어가는 과정. 그리고 그 과정에서 등장하는 기술들 — 음성 학습, 패턴 인식, 실시간 번역 — 은 SF적 상상이 아니다. 지금 실제로 연구되고 있는 영역들이다.

출처: 영화 예고편 영상

출처: 영화 예고편 영상

로키는 어떻게 말하는가?

원작 소설에서 외계인 로키는 반향정위로 세상을 인식한다.

박쥐나 돌고래처럼 소리를 발사하고 그 반사음으로 주변 환경을 파악하는 방식이다.

소통할 때도 같은 원리다. 다양한 주파수의 음파를 조합해 의미를 만들어낸다.

영화는 이 설정에 한 가지 장치를 더한다.

주인공 그레이스의 노트북이 로키의 소리를 실시간으로 학습하고 영어로 변환하고, 동시에 그레이스의 말을 로키가 이해할 수 있는 음파로 바꾼다. 두 방향 동시통역이다.

(소설 원작에서는 로키의 기억력이 인간보다 훨씬 뛰어나서 그냥 외운다는 설정)

이 장치를 실제로 구현하려면 세 단계가 필요한데,

첫째, 소리를 인식해 패턴으로 분류하는 것 = 음성 인식(ASR)

둘째, 그 패턴에서 의미를 추출하는 것 = 언어 모델링

셋째, 그 의미를 다른 형태의 소리로 출력하는 것 = 음성 합성(TTS)이다.

지구에서 먼저 시작된 실험

2024년 5월, MIT와 비영리 단체 CETI(Cetacean Translation Initiative)는 놀라운 연구 결과를 발표했다. 수천 시간의 향유고래 소리를 AI로 분석한 결과, 고래의 소통 체계에서 음성 알파벳의 흔적을 발견했다는 것이다.

클릭 소리(고래가 짧은 딸깍딸깍 소리를 빠르게 연속으로 내는 방식)의 리듬, 속도, 지속시간을 다양하게 조합해 다른 의미를 만드는 방식이다. 연구진은 모음과 이중모음에 해당하는 구조까지 확인했다.

흥미로운 점은 연구 방식인데, 연구진은 고래에게 언어를 가르치지 않았다.

고래가 이미 쓰고 있는 소리를 대규모로 수집하고, AI로 패턴을 분석했다.

새소리 연구도 같은 방향으로 가고 있다.

2025년 8월 Google DeepMind가 공개한 Perch 2.0은 75종의 새소리로 훈련된 생체음향 AI 모델인데, 주목할 만한 점은 범용성이다. 육상 조류 소리만으로 훈련했지만, 훈련 데이터에 없는 해양 생물 소리에도 인식 성능을 발휘했다. AI가 특정 소리를 외우는 것이 아니라, 소리의 구조 자체를 학습했다는 의미.

두 연구가 가리키는 방향은 같다. AI는 이미 인간이 만들지 않은 소통 체계에서 구조를 찾아내기 시작했다.

그렇다면 이 기술들을 조합하면 실제로 로키 번역기를 만들 수 있을까? 한번 상상해 보자.

로키 번역기 설계도: 2026년 버전

지금 존재하는 기술만으로 이 시스템을 설계한다면, 아마 다음과 같은 순서일 것이다.

0일 차 — 소리 수집과 첫 분류

로키가 처음 소리를 낸 순간, 해야 할 일은 하나다. 최대한 많은 소리를 녹음하는 것.

Perch 2.0 같은 생체음향 모델은 소리를 주파수 스펙트럼으로 분해해 유사한 패턴끼리 자동으로 묶는다. 이 단계에서 알 수 있는 건 아직 '의미'가 아니라 '단어처럼 보이는 덩어리'들이다. 알파벳을 본 적 없는 사람이 텍스트를 보고 "비슷하게 생긴 것들이 있다"는 걸 처음 알아채는 것과 같다.

1주 차 — 수학으로 첫 연결

영화에서 그레이스가 1, 2, 3으로 시작하는 장면은 실제로 가장 합리적인 접근이다.

수학은 언어가 달라도 내용이 같다. 우주 어디서나 1+1=2이고, 소수(2, 3, 5, 7...)는 특별한 패턴을 갖는다. SETI(외계 지적 생명체 탐색) 연구자들이 오랫동안 "외계 생명체와 처음 소통한다면 수학부터"라고 주장해 온 이유다.

로키가 반응하기 시작하면 공유된 맥락이 생긴다. '3'이라는 개념에 로키의 특정 소리 패턴이 대응된다는 걸 확인하는 순간, 소리 클러스터에 처음으로 의미 레이블이 붙는다.

2-4주 차 — 파인튜닝: 이 단계에서 노트북만으로는 부족하다

레이블이 붙은 데이터가 쌓이기 시작하면, 이제 AI 모델을 로키의 언어에 맞게 조정할 수 있다.

Perch 2.0처럼 소리의 구조를 이미 이해하는 모델에 로키 데이터를 추가로 학습시키는 방식이다. 처음부터 새로 훈련하는 것보다 훨씬 빠르고 효율적이다.

여기서 솔직한 질문이 생긴다.

영화에서 그레이스가 쓰는 건 노트북처럼 보인다. 저 장치 하나로 이 계산이 가능할까?

현재 Apple M5 Pro가 탑재된 최신 MacBook Pro는 64GB 메모리 환경에서 700억 개 파라미터 모델을 초당 28 토큰 속도로 구동한다. 음성 인식(Whisper)과 TTS 출력은 이보다 훨씬 가벼운 작업이니 실시간 처리는 문제없다. 완성된 모델을 '사용'하는 단계는, 고성능 노트북 한 대로도 충분하다.

문제는 '학습' 단계인데, 파인튜닝은 인퍼런스보다 수십 배 많은 연산을 요구하고, 대형 오디오 모델을 조정하려면 NVIDIA A100급 GPU 여러 장이 필요하다. 영화 속 우주선이 노트북 화면만 보여줬다고 해서 그게 전부일 리 없다. 실제라면 선내 어딘가에 서버 랙이 있어야 한다.

이 우주선은 아스트로파지(Astrophage)라는 미생물을 연료로 써 사실상 에너지 제약이 없다. 영화 속 장치이지만, 덕분에 심우주 한복판 우주선 안에서 데이터센터급 연산을 돌리고 있다고 가정할 수 있다.

1-2개월 차 — 실시간 번역

학습이 어느 정도 완성되면 실제 번역이 가능해진다.

로키의 소리가 들어오면 학습된 모델이 패턴을 인식해 의미를 추정하고, ElevenLabs v3 같은 TTS가 그것을 영어 음성으로 출력한다. 반대 방향도 마찬가지다. 그레이스의 말이 로키의 주파수 패턴으로 변환된다.

영화 속에는 이 흐름과 딱 맞아떨어지는 장면이 있다. 그레이스가 번역기의 출력 목소리를 설정하면서, 후보 음성들을 하나씩 들어보다 다양한 이유로 거르고 최종 목소리를 고른다. 퍼펫티어 제임스 오르티스가 세트에서 직접 연기한 목소리가 가공 과정을 거쳐 번역기 출력음이 됐다. 설계도 속 3단계가 영화의 서사 안에서도 그대로 작동하는 셈이다.

마지막 조각, 그리고 그다음 질문

번역기를 완성해도 여전히 한 가지 문제가 남는다.

언어에는 소리 패턴 외에 맥락이 있다. 로키가 특정 주파수를 낼 때 경고를 하는지, 감사를 표현하는지, 단순히 배고프다는 건지 — 소리 데이터만으로는 알 수 없다. CETI 연구에서도 고래의 소리 구조를 발견했지만, 각 클러스터가 무엇을 의미하는지 파악하려면 연구진이 고래의 행동을 직접 관찰하며 하나하나 레이블을 붙여야 했다.

여기서 고래 연구와 영화 사이의 결정적인 차이가 드러난다.

고래는 자신이 연구 대상임을 모른다. 그러나 로키는 그레이스가 이해하지 못한다는 걸 안다.

그래서 반복한다. 단순화한다. 물체를 가리키며 소리를 낸다. 그레이스가 틀린 답을 냈을 때 수정해 준다. AI가 아무리 뛰어나도, 가르치려는 의지를 가진 대화 상대 없이는 맥락을 배울 수 없다.

로키는 번역기의 데이터 소스가 아니었다. 로키가 선생이었다.

이것이 로키 번역기 설계도에서 어떤 하드웨어 사양에도 적을 수 없는 항목이다.

지적 생명체의 협력 의지. 지구에서 고래나 새를 연구할 때 이 조건이 없기 때문에, 같은 기술을 써도 훨씬 느리고 어렵다.

그렇다면 협력 의지가 있으면서도 말하는 방식이 다른 존재가 이미 우리 곁에 있다면 어떨까.

AI 기술이 더 발전하고, 행동 데이터가 충분히 쌓이고, 소리 패턴에서 맥락이 통계적으로 떠오르는 지점이 오면 — 그 소통이 가능해질 수 있다.

집 앞에서 기다리다 현관문이 열리는 순간 온몸으로 뛰어오는 강아지. 아침마다 이유 없이 이마를 들이밀어오는 고양이. 이들은 수천 년 동안 인간 곁에서 무언가를 표현해 왔다. 이해받고 싶은 의지도, 소통하려는 시도도 분명히 있다. 다만 우리가 아직 그 언어를 읽는 법을 모를 뿐이다.

인간끼리의 통번역은 이미 AI가 거의 완성했다. 다음 목표가 동물이라고 해도 그리 먼 이야기가 아닐 수 있다.

다만 한 가지 작은 상상을 덧붙이자면, 언어가 통한다는 게 반드시 더 친밀해진다는 뜻은 아니다.

어쩌면 그날부터 강아지는 산책이 왜 이렇게 짧냐고 항의할 것이고, 고양이는 자기 밥그릇이 왜 항상 절반밖에 안 채워져 있냐고 따질지도 모른다. 수천 년 동안 쌓아온 오해가 한꺼번에 풀리는 날, 우리는 더 가까워질까, 아니면 처음으로 제대로 싸우게 될까?

AI에 관련된 각종 정보를 제공하는 웹사이트를 열었습니다.

https://www.knowai.space/

AI에 대해 제대로 알고 싶은 사람들이 모여, 함께 알아가는 공간을 만들어보려 합니다.

거창한 답보다 솔직한 질문이 더 많은 곳. 그래도 괜찮다고 생각하는 사람들이 만들었습니다.

들러주세요. 궁금한 것, 불안한 것, 그냥 말 걸고 싶은 것. 무엇이든 환영합니다.

keyword

매거진의 이전글AI는 모를 때 더 당당하게 말한다. 그 이유와 대처법자본 0원에 가까운 창업이 가능해진 시대매거진의 다음글