PM스쿨_학습일지 10
2024.03.12
오늘 남길 기록을 통해 함께 공유하고자 하는 것은 새로운 기술, 특별히 과학기술 발전의 속도를 가속토록 하는 AI에 대한 인간의 태도는 어떠해야 하는가?이다. 아래의 노션링크는 이와 같은 논의를 공유하는 이유가 된 오늘의 학습 내용 중 일부이다. 사고의 공유를 조금 더 원하는 독자분들께선 링크를 통해 아티클을 함께 읽는다면 더욱 도움이 될 것이라고 생각한다.
https://zany-kiss-254.notion.site/OpenAI-Sora-450 f29341 db942799992 daeb0 b67 fb56? pvs=4
OpenAI는 대규모 언어 모델(Large Language Model, LLM)을 프롬프트라는 시스템으로 구현하여 AI가 인간과 대화할 수 있는 인공지능 출시하여 세간을 놀라게 했다. 이번엔, 그 임팩트가 ChatGPT의 출시 때 보다 더욱 크다고 느껴진다. 특별히, Text-to-Video라고 불리는 방법론은 이용자가 텍스트를 통해 인공지능에게 비디오로 변환해 줄 것을 요청하는 것을 의미한다. OpenAI 이전에 구글 등에서 먼저 시도하였으나, 결과물로 구현되는 영상의 퀄리티가 기대한 것보다 낮게 현출 되어 'Sora' 역시 기대감이 낮았다.
하지만, OpenAI에서 제공한 참고 자료의 영상의 퀄리티와 현재 소송의 상대측인 타임스의 평가가 그 판을 뒤집었다고 평가하고 싶다. 특히, 참고 영상은 프롬프트에 작성된 글을 쭉 읽은 후, 머릿속으로 상상한 것 그 이상의 영상미와 구현 정도를 보여줬다. 특히, 3D animation으로 구현된 small, round, fluffy creature는 마치 환상의 디즈니(DISNEY)에서 혹은 픽사(PIXAR)의 주인공과 같은 모습을 보여주었다.
Text-to-Video의 구현 방식을 살펴보면, Sora의 방식이 탁월함을 알 수 있다. ChatGPT가 성공한 덕택일까? 언어 모델이 다양한 형태의 텍스트를 '토큰'의 형태로 변환한 방식을 Sora에선 다양한 형태의 비디오와 이미지 같은 시각적 데이터를 '패치'의 형태로 더 작게 단위를 나누어 작업을 수행했다. 영상과 이미지의 특성상 과도하게 발생할 수 있는 용량의 문제는 차원(grid)을 줄이는 방식과 필요한 정보만을 전달하는 압축방식으로 해결하였고, 영상의 질을 위하여는 diffusion transformer(확산 변환기)를 통해 번짐을 최소화하고 선명한 영상으로 예측하여 변환하도록 했다.
과학의 질문은 인문학의 질문에 선행한다. 인문학은 과학의 토대를 갖추어야 온전해진다.
- 문과 남자의 과학 공부(유시민) 中 나는 무엇인가
아티클의 필자인 이재훈 님이 마무리를 통해 언급했듯 AI의 확장성으로 인해 영상 콘텐츠에 발생하는 비용을 축소하는 큰 장점을 얻었으나, 비용의 축소에 큰 이유가 되는 인건비의 감소로 인해 결국 영상 업계에 종사하는 많은 이들의 일자리를 위협하게 되었다. 이러한 문제를 다루기 위해선 인간의 본질을 철학적으로 논의할 필요가 있다. 먼저는 AI가 인간의 노동을 대체하는 것이 인간에게 어떤 의미인가? 그리고, AI에 의해 대체되는 인간의 활동들이 인간에게 미치는 영향은 무엇인가? 노동이 결여된 인간의 양상을 상상할 수 있는가? 방법론적으로는 결국, 인간은 어떻게 해야 하는가? AI를 어떻게 대해야 할까? 등의 질문들이 그것이다.
모든 질문에 답변하는 것은 따로 AI 혹은 과학과 철학이라는 콘텐츠로 작성하도록 하겠다. 다만, 오늘 기록하고자 하는 바는 AI로 나타난 과학이 인문학(철학)을 다루는 토대라는 점을 확실히 하고, 결코 위협의 대상만이 아니라는 것을 알리고 싶다. AI의 효율성, 정확성, 탁월성으로 인해 특별히 Sora의 사례에선 영상 업계의 종사자들이 일자리를 잃는 위협을 받게 될 것이라는 부정적인 전망이 있다.
일자리를 잃는 것은 개인의 경제적 영위 수단의 단절을 의미하므로 생계 등에 관한 우려에서 발생하는 부정적 견해일 것이다. 안타깝게도 AI가 그 모든 것을 대체할 것이라는 두려움에서 혹은 착각에서 근간한 오류 중 하나이다. Sora의 등장으로 영상 업계의 패러다임이 변경되는 것은 사실일 것이다. 영상을 쉽게 현출 할 수 있으므로 그 접근성이 전문성 있는 이들만이 자유롭게 다루는 것이 아니라, 일반인도 다룰 시 있게 되는 것이다. 그에 따라, 수요와 발전의 정도가 영상이라는 영역에서도 급증하게 되는 것이며 결국 또 다른 역할, 새로운 매체, 영상 이상의 것들이 새롭게 발생하게 된다. 그에 따라, 또 다른 전문인력이 발생하게 되며 일자리 자체가 AI에 의해 대체된다는 것은 기우이다. 생존과 적응의 단계가 그러했다.
Sora가 아무리 영상을 텍스트에 의해 산출할 수 있다고 하나, 무엇은 가능하고 무엇은 가능하지 않은지의 기준을 제시하는 것. 프롬프트에 적절한 텍스트를 작성하는 것은 결국 인간의 영역이다. 그 역시 언젠가 심화된 인공지능이 대체할 것이라고 생각하는가? 우리는 그렇다면 그 후에 또 다른 철학적 논의를 거쳐야 할 것이다. 과학은 발전하며 인문학에 계속해서 질문을 던진다. 새로운 토대를 계속해서 제시한다. 인간으로서 스스로의 역할을 노동하는 것 자체에 국한하여 스스로가 대체될 것을 고민하고 있는가? 계속해서 끊임없이 생각하고 AI와 충돌하며 과학이 다루지 못하는 인간의 본질을 제시해야 할 것이다.