brunch

You can make anything
by writing

C.S.Lewis

by 박현무 Mar 11. 2024

인공지능이 만드는 시뮬레이션 세상

동영상 생성모델 소라(Sora)

최근 2월 Open AI에서 인공지능 모델 소라(Sora)를 공개하면서 다시 한번 세상을 놀라게 했습니다. 소라는 텍스트만으로 동영상을 생성할 수 있는 모델으로, 소라가 생성한 동영상을 한번이라도 보신 분들은 입이 저절로 벌어졌을 것입니다. 진짜 같다는 수준을 넘어 사실과 구분이 되지 않습니다. 개인적으로 저에게는 기술발전의 속도가 기대되는 것을 넘어 두렵게 느껴지는 순간이였습니다. 


소라(Sora)가 생성한 동영상 속 사람과 선글라스에 비친 도쿄 길거리


제가 소라를 보고 놀랐던 이유는 높은 수준의 동영상 결과물도 있지만, 그보다는 소라가 동영상을 생성하는 방식에서 경외감이 들었습니다. 우리가 흔히 말하는 '동영상'이란 사진 혹은 이미지를 연속적으로 보여주면서 마치 움직이는 것처럼 보이는 것을 말합니다. 이 때 초당 몇 장의 프레임을(FPS) 보여주는지에 따라서 동영상의 수준이 정해집니다. 따라서 카메라로 사진을 찍는다면 한 장의 프레임이면 충분하지만, 동영상을 찍는다면 여러 장의 프레임이 필요합니다. 


지난 2년동안 이미지 생성모델이 빠르게 발전하는 것을 지켜보면서 동영상 생성모델에 대한 기대감이 마음 속에 자리잡고 있었습니다. 그리고 당연히 실제로 동영상을 만드는 방식처럼 인공지능 또한 여러 이미지 프레임을 생성하여 이어 붙이는 방식으로 동영상을 만들 것이라 생각했습니다. 하지만 Open AI 블로그에 따르면 소라는 '물리법칙을 이해하는 인공지능으로 현실세계를 시뮬레이션'하여 동영상을 생성합니다. 즉, 디테일을 하나하나 고려하여 프레임별로 이미지를 생성하고 이어 붙이는 것이 아니라, 하나의 작은 시뮬레이션 세상을 만든다는 것입니다. 따라서 소라가 생성한 동영상은 마치 현실세계처럼 인터렉션(real-world interaction)이 가능하다고 Open AI는 주장합니다. 


Open AI의 주장이 만약 제가 이해한 바가 맞고 사실이라면, 우리가 지금까지의, 그리고 앞으로의 세상을 정의하고 받아들이는 방식이 급진적으로 바뀔 것입니다. 왜냐하면 현실세계를 시뮬레이션 한다는 의미는 단순히 더 진짜 같은 동영상 생성이 가능하다는 것을 넘어 진짜와 가짜의 구분이 사라진다고 볼 수 있기 때문입니다. 예를 들어 시뮬레이션으로 현실세계를 똑같이 구현하고 심지어 인터렉션까지 가능하다면, 비록 인공지능으로 해당 세상을 생성했다라고 할지어라도 그것을 '가짜'라고 말할 수 없습니다. 오히려 사람들은 무엇이든 원하는대로 만들어낼 수 있는 시뮬레이션 세상을 더 진짜라고 받아들일지도 모릅니다. 


앞으로도 우리가 지금 살고 있는 물리적 현실세계를 진짜라고 받아들일 것 같은 이유는 생명이 있기 때문입니다. 배고프면 식사를 해야하고, 아프면 치료를 받아야 합니다. 설령 SF 영화처럼 뇌를 컴퓨터로 옮겨 살아간다 하더라도 단순히 기억이 복제된 아바타가 생길 뿐, 나라는 생명의 주체가 디지털 세상에 살아갈 수는 없을 것입니다. 그러나 그 외의 경험들을 시뮬레이션 세상이 압도하기 시작한다면, 지금의 현실세계는 '진짜'라는 의미를 잃고, 마치 우리가 컴퓨터를 충전하는 것처럼, 단순히 생명을 부지하고 접속가능한 상태를 유지하기 위해 존재할지도 모릅니다. 


물론 현실세계와 똑같은 4차원 세상을 구현하는 것은 동영상을 시뮬레이션하는 것과는 차원이 다른 이야기입니다. 하지만 인공지능은 누구도 예측하지 못한 속도로 발전하고 있으며, 충분한 시간과 자금이 주어진다면 미래에 어디까지 가능할지는 정말 모르는 일입니다. 무엇보다 가능하지 않더라도 상관없을 것입니다. 왜냐하면 이미 우리는 2D 스크린만으로도 온라인에서 무엇이든 원하는대로 소비하며 시간을 점점 더 많이 보내고 있으니까요. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari