AI, 누가 쉽대 ?
"Text-to-Video, 글만 쓰면 영상이 뚝딱 나오겠네!"
이런 환상을 가지고 시작했다가 사흘째 멘붕에 빠져 있다. 경부고속도로와 송전망을 연결한 1분 숏폼을 만들려는데, AI는 내 의도와 완전히 다른 걸 계속 만들어낸다.
"1960년대 한국 경부고속도로 건설 현장"이라고 입력했더니 베트남 도로가 나왔다. "Korean highway construction"로 바꿔도 여전히 동남아시아 어딘가의 풍경이다. 더 짜증 나는 건 태극기를 그려달라고 했는데 오성홍기가 나온다는 점이다. 미드저니든 소라든 한국을 제대로 인식하지 못한다.
프롬프트를 아무리 구체적으로 써도 마찬가지다. "South Korea, Gyeongbu Expressway, 1960s construction, Korean workers wearing traditional white clothing"이라고 디테일하게 써봐도 결과물은 엉뚱하다. 클링과 런웨이로 넘어가면 더 심각해진다. 한국 송전탑을 그려달라고 했는데 중국식 철탑이 나오고, 현대적인 스마트그리드 이미지를 원했는데 1990년대 컴퓨터 그래픽 수준이 나온다.
가장 황당한 건 연결성이다. 경부고속도로에서 송전망으로 이어지는 서사를 만들려고 했는데, 각 장면이 완전히 다른 나라 이야기처럼 보인다. 캡컷으로 편집하면서 "이게 정말 한국 이야기인가?" 싶은 의구심만 든다.
결국 깨달은 건 Text-to-Video가 전혀 뚝딱이 아니라는 사실이다. AI는 한국의 맥락과 역사를 제대로 이해하지 못한다. 아무리 기술이 발전해도 창작자의 의도를 정확히 구현하려면 수십 번의 시행착오를 거쳐야 한다. 글 한 줄로 영상을 만드는 시대는 아직 오지 않았다. 내가 어떻게든 만들고 만다.
오늘까지 만든 내용