brunch

라이킷 8 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 안영회 습작 Oct 16. 2024

비디오, 3D, 사운드, 음성 생성과 노래 합성 모델

내 삶을 차리는 독서의 시작

지난 글에 이어 <AI 미래> 3장 '일상을 파고드는 생성 인공지능'의 나머지 읽고 밑줄 친 내용을 토대로 생각을 쓴 글입니다.

비디오 생성 모델과 3D 생성 모델

개인적으로는 경험하지 못한 동영상 생성 모델에 대한 이야기입니다.

동영상을 생성하는 모델은 원리만 보면 이미지 생성 모델의 시간적인 확장으로 볼 수 있다. 동영상은 결국 움직임을 프레임 단위로 담고 있는 일련의 이미지들이기 때문이다. <중략> 2024년 2월, 오픈AI가 소라라는 동영상 생성 모델을 선보이면서 세상을 깜짝 놀라게 만들었다. <중략> 동영상을 잘 생성하기 위해 생성 모델의 끝판왕인 디퓨전 모델과 트랜스포머가 함께 협동하는 셈이다.

이어서 3D 생성 모델에 대한 내용입니다.

텍스트 프롬프트를 입력하거나 2D 이미지를 주면 3D 물체의 메시Mesh와 질감Texture를 생성해 주는 생성 모델들도 여럿 나와 있다. <중략> 전체적으로 보면 이 분야가 가장 뒤처져 있다. 이렇게 뒤처진 이유는 다른 데이터에 비해서 학습에 필요한 3D 데이터를 충분히 얻기가 어렵기 때문이다.

여기서 메시는 점, 선, 면을 이용해 만들어진 3차원 면을 말합니다.

산업발전 초기에 항상 발견되는 미신

다음 다발말[1]을 읽을 때는 그 옛날 '알파고 현상(?)'이 떠올랐습니다.

사람이 인공지능을 도와주는 방식을 일시적인 것으로 볼 수도 있다. 장차 생성 인공지능이 더 발전해 사람이 하던 몫까지 잘하게 된다면 굳이 사람의 손은 필요 없어지게 될 거라 예상하는 것이다. 사람이 하던 일의 수준이나 영역이 기존에 하던 그대로라면 이런 예상이 적중한 미래일 것이다.

기억이 흐릿해 관련 기록을 찾느라 <AI의 시대: 무엇을 해야 하나?>를 펼쳤습니다. 거기서 지금 느낀 느낌과 비슷한 느낌을 기록한 글을 발견했습니다.

산업발전 초기에는 항상 미신이 존재했다. 이는 점차 개선되리라 믿는다. 진짜 문제는 다음 문장에 담겨 있다. IT지식은 전문가들이 알아서 할 일이야. 그건 개발자가 할 일이지라는 생각으로 치부하기엔 소프트웨어의 파급효과는 너무나도 크다. 멀리 볼 것 없이 클릭 장사의 폐해 속에 망가지는 언론환경은 소프트웨어에 대한 무지와 무능력이 큰 작용을 했다.

사람들의 우려와 달리 실제 변화 양상은 저자의 주장과 비슷하리라 동의합니다.

하지만 그렇게 되지 않을 것이다. 새로운 도구나 기술이 등장하면 기존에 하던 일을 쉽게 하거나 자동화하는 것에 그치지 않고 그걸 발판으로 새로운 일에 도전하기 마련이다. <중략> 인공지능이 단지 기존에 인간이 하던 일을 대체하는 수준으로 그치는 게 아니라 인공지능과 협력해야만 할 수 있는, 정말 어렵고 새로운 일들을 개척하는 경우가 활발해질 것으로 예상한다.

저는 이러한 기하급수적 변화 양상을 사회 진화라고 여깁니다.

사운드 계열 모델

이번에는 사운드 생성 모델에 대한 설명입니다.

음성이 사람의 목소리와 말소리라면 사운드는 발소리, 타자 치는 소리 등 귀로 들을 수 있는 모든 소리를 의미한다. 인공지능이 소리 데이터를 저장할 때는 먼저 마이크를 통해서 공기의 떨림을 읽어 들이고, 공기의 압력을 시간 단위마다 16비트 값으로 저장한다. 시간을 기준으로 변하는 공기의 압력을 기록하는 것이다. <중략> 사운드의 경우는 낮은 음질로 저장을 하더라도 8Khz이다. 이는 소리의 값을 초당 8,000번 기록하는 것에 해당한다. <중략> 짧은 1초의 소리라도 이미지 1축의 픽셀보다 8배나 촘촘한 정밀도다. 만일 소리가 5초 길이라면 4만 번에 해당한다. 그리고 음성 인식이 아닌 소리를 '생성'하는 경우라면 이보다 높은 CD 음질의 1/2인 22Khz를 기준을 한다. 초당 2만 2,000번에 해당하는 값이다. 이미지의 공간 해상도에 비해 소리의 시간 해상도가 더 촘촘하다는 걸 알 수 있다.

공간 해상도와 시간 해상도란 생소한 표현을 들으면서 저도 모르게 알고 있는 개념과 연결시키려고 노력하는 두뇌 활동을 눈치챕니다. 그 결과 벡터 DB가 이들을 추상화시킨 형태를 보관하는 것이라는 짐작을 하게 만듭니다. 계속 밑줄 친 내용을 보겠습니다.

소리는 기본적으로 공기의 떨림, 즉 진동이기 때문에 동일한 패턴의 진동이 시간에 따라 반복하는 특성을 가진다. 우리가 소리를 듣는다고 생각하는 것은 공기의 압력이 커지고 작아지는 진동을 느끼는 것이다. 이러한 진동의 패턴이 얼마나 자주 반복되는지 나타낸 것을 '진동수' 혹은 '주파수'라고 한다. 1초에 진동의 패턴이 몇 번 반복되는지를 나타내는 값이다. 진동수야말로 소리 그 자체라고 할 수 있다. 그래서 소리 데이터는 이런 진동수를 잘 파악할 수 있는 형태로 저장해야 다룰 때 유용하다.

앞서와 비슷한 이치로 이번에는 '진동수가 소리 그 자체'라는 표현에 마음이 갑니다. 인코딩하고 디코딩하는 기준이 바로 진동수여야 하는 거군요.

스펙트로그램Spectrogram

덕분에 새로운 용어를 하나 배웁니다. 나중에 기억할 수 있을지는 모르지만요.

진동수별로 소리의 강도를 기록하는 형식의 소리 데이터를 스펙트로그램Spectrogram이라고 한다. <중략> 스펙트로그램은 가로축이 시간이고 세로축이 진동수(혹은 주파수)인 일종의 2D 이미지이다. <중략> 소리를 이미지로 나타냈기 때문에, 스펙트로그램에도 이미지를 처리할 때 사용했던 방법들을 거의 같은 방식으로 적용할 수 있다.

그리고, 추상과 응용의 힘을 확인합니다.

스펙트로그램을 음파로 변환하는 일을 담당하는 기능을 보코더Vocoder라고 한다. 보코더는 사운드 생성 모델의 마지막을 담당하기 때문에 최종적인 음질이 이 보코더의 성능에 크게 좌우된다고 할 수 있다. 음의 세밀한 특성을 잘 재현할 수 있는 좋은 보코더를 사용하는 것도 사운드 생성 모델의 중요한 요소이다.

음성 생성 모델과 노래 합성 모델

이번에는 경험해 본 모델이 등장하네요.

목소리는 인간의 발성 기관을 통해서 나오는 모든 소리라면 말소리는 그중에서도 말이 되는 소리이다. 그런데 사람이 하는 말은 단지 텍스트를 나타내는 소리를 발음하는 것으로 그치지 않는다. 사람들은 저마다 독특한 음색을 가지고, 말할 때의 운율이나 강세 등이 다 달라 저마다 고유한 말투가 있다. 그래서 음성 인식보다 텍스트 음성 변환이 더 어려운 일이다.

열흘 전의 사건 덕분에 제 경험과 책 내용을 연결할 수 있습니다. 더불어 왜 작명이 고급 음성 모드라고 하는지도 알 듯합니다. 요즘 저는 사투리도 시키고, 아이들이 좋아하는 운율과 강세를 시도하거든요. 최근에는 저녁 8시 이후에 아이스크림을 못 먹게 하는 아내가 정한 규칙을 상시키기기 위해 8시를 '아, 이스크림 시간'으로 메모리 요청했는데, 아직 챗GPT4o가 정확하게 발음을 하지 못합니다.