나의 첫 AI 애니메이션 제작기

산고의 과정을 거쳐 탄생한 나의 첫 AI 애니메이션을 만들면서 느낀점들

by 인생시즌투
Screenshot 2025-05-31 at 9.09.36 PM.png

드디어 AI를 사용한 첫 번째 shorts 애니메이션이 완성되었다. 유튜브 비디오에서 봤을 때는 그렇게 어려워 보이지 않았다. 늘 그렇듯, 남이 한 건 다 쉬워 보이는 법이다. 직접 얻어 터지기 전까지는. "Everybody has a plan until they get punched in the mouth"라고 하지 않던가!

튜토리얼들이 넘쳐나니 세세한 제작 방법은 스킵하고, 대신 왜 이걸 직접 만든 의도와, 그 과정에서 내가 겪은 어려움은 무엇인지, 그리고 그걸 해결하면서 배운 것들에 대해 적어보려고 한다.


왜 굳이?

이유는 간단하다. 직접 해보지 않으면 제대로 배우기 힘들다. 제대로 알지 못하면 이 기술의 진짜 가능성과 현재의 제약사항, 그리고 향후 발전 방향을 파악하는 게 불가능하다. 돈이 되는 기회는 늘 이런 진짜 문제들에 대한 깊은 이해와 그 방향성에 대한 통찰이 가져다주게 마련이다.

원래 세 가지 영역을 직접 해볼 생각이었다: AI agent workflow, AI content creation, 그리고 vibe coding. 그중 content creation을 제일 먼저 해보기로 했다.

거기도 나름의 이유가 있다. 사업을 함에 있어 특히 AI 시대에는 functional한 부분의 기술적 능력의 중요성은 AI 때문에(혹은 덕분에) 시간이 갈수록 줄어들거나 다른 기술로 대체될 가능성이 높다고 봤다. 하지만 content creation 능력은 AI시대에 어쩌면 인간의 개입이 더 중요해질 수 있는 영역이라고 생각했다.

Coding은 한번 돌려보니, 장난감 같은 거야 만들 수는 있겠지만 복잡성이 올라가면 결국은 개발의 전문성이 있는 사람들이 해야 하는 영역이라 생각했다. 그래서 coding은 high level 이해만 하고, 대신 agent workflow로 operation 쪽을 complement하는 쪽으로 파보는 것이 낫겠다고 판단했다. 그래서 coding은 일단 맛만 슬쩍 보고 넘어갔고, content creation을 먼저 시작했다.


제작 과정: 이론 vs. 현실

제작 프로세스는 이론적으로 아래와 같다.


제작 프로세스

1. Concept 잡기: 타겟 집단이 누구인가? 그들에게 어떤 가치를 제공할 것인가? 어떤 이야기를 어떻게 풀어갈 것인가?

2. Design guide: 타겟 집단에 맞는 그릇은 무엇인가? 스토리 포맷(2D vs. 3D), 캐릭터 디자인, color

3. Episode별 주제 잡기

4. 스크립트 쓰기(chatGPT)

5. Image prompt(chatGPT)

6. Image gen (iterate)

7. Video prompt(chatGPT)

8. Video gen (iterate)

9. Audio/TTS (ElevenLabs)

10. Editing (CapCut)


늘 그렇듯, 이론과 현실은 다르다. 큰 틀의 process만 봐도 길고 복잡한데, 개별 과정에서는 새로운 툴들에 익숙해지는데 필요한 시간이 있고, 예상치 못한 문제들이 항상 생기고, 다음 단계로 넘어가야만 파악이 되는 앞단계의 문제점들(아래 2D vs. 3D가 좋은 예이다)이 있어서 처음 시도에 생각보다 많은 노력이 필요했다. 이론상으로는 1→2→3→4→...→10으로 갈 것 같지만 현실은 1→2→1→2→3→2→3→2→3→4→3→4→5→3→4→5→6→4→5→6→7... 이런 식이 되는 것이다.


처음 방향성(concept과 디자인 방향성)을 잡는게 제일 어렵고 시간이 많이 걸린다. 때로는 다음 단계로 가봐야 문제점들이 파악되는 경우들이 많아서 우선은 계속 시도해봐야한다. 거꾸로 얘기하면 누구를 대상으로 어떤 스토리를 풀어내고 싶은지가 명확하면 나머지는 상대적으로 수월해지고 시행착오가 줄수 있다.


실제 내 경우는, 타겟 집단이 달리기에 어느 정도 경험이 있는 직장인이다. 좀 더 정확히는 달리기 시작하고 100마일 이상 달려보았고 대회에 한두번 나가봤는데 부상등의 이유로 실력이 늘지 않고 정체되어 있는 이들이다. 이들은 보통 파편화되고 서로 충돌하는 조언들로 혼란을 겪는 경우가 많고 중요한 정보들의 정확히 인지하지 못하는 문제를 갖고 있다. 체계적인 학습을 하면 좋겠지만 바쁜 현실속에서 코칭을 직접 받거나 전문가의 도움을 받기에 제약이 있어서 이들에게 상황에 적절한 팁을 이해하기 쉽고 재밌고 전달하면 가치가 있을것으로 생각했다. 이 리서치도 AI도움을 많이 받았다. 타겟 집단을 정의하고 문제를 파악하고 정리하는데 엄청난 도움이 되었는데 "AI를 활용한 target segment 유저 리서치" 방법론도 나름 만들어 보았다. (이건 또 나중에 별로도 정리해보겠다)


스토리의 방향성 이렇다. 세명의 캐릭터들의 interaction을 통해서 정보를 재미있으면서 유용하게 소비하게 하는것이었다. 타겟 집단이 스스로와 동일시할수 있는 주인공 이름은 Runder. 직장인이고 하프와 풀마라톤을 한번 뛰어본 경험이 있는데 잦은 부상과 늘지 않는 실력으로 고민하고 있다. Runder를 도와주는 코치 혹은 running buddy인 Pingu. Black cairn terrier인데 친근하면서도 상황에 적절한 도움을 준다. Ostrich는 달리기에 재능은 있지만 고집스럽고 잘못된 정보를 믿는 귀여운 악역이다.


Character Design은 사람들이 기본적으로 호감을 갖는 동물 캐릭터를 만들고 싶었다. 하지만 진짜 주인공은 달리기의 자세나 부상같은 부분들을 제대로 표현해내야하기 때문에 사람으로 가기로 했다. Running buddy는 달리기 좋아하는 우리집 강아지 Pingu 캐릭터를 허락없이 가져다 썼다. ㅋ 그리고 Frozen의 Olaf같은 좌충우돌 캐릭터가 있으면 좋겠다는 생각을 했다. 다만 달리기와 연관이 있어야 하니 Ostrich가 좋겠다고 생각했다. 이런 생각들을 가지고 ChatGPT와 상의하면서 캐릭터를 만들었다. 하나 재밌었던건 다들 러닝화를 신겨주고 싶었는데 브랜드 이름을 넣고 만들었더니 처음에는 잘 만드는데 장면마다 그 로고나 디테일이 계속 틀어지는 바람에 브랜드나 로고 없는 걸로 결국은 바꿧다. 개성을 위해 Ostrich에게만 red headband를 줬는데 이건 일관되게 잘 그려주길래 그대로 갔다.


많은 정보를 지속적으로 주어야하기 때문에 episode형태로 풀어나가되 큰 milestone, 즉 다음 마라톤 준비 혹은 부상 극복하기등 굵은 이야기의 흐름을 가져가면서 성장의 서사를 풀어나가려고 한다.


이야기의 포맷은 고민이 많았다. 현재 소셜에 올라오는 컨텐츠는 거의다 코치들이 실제 영상을 찍어서 정보나 동기부여를 제공하는 형태이다. 가설은, 일반적으로 comic혹은 animation 형태가 쉽게 받아들여지 있는데 이 영역에서도 먹힐 가능성이 있다고 보았다. 그리고 아직 제대로 시도된 흔적도 많지 않아서 마켓을 선점할수도 있겠다는 생각을 했다. 물론, 해봐야만 알수 있다. 애니메이션으로 가되 이걸 2D로 갈지 3D로 갈지 고민이었다. 결국 이 부분이 예상치 못했던 제일 큰 장애물이 되고야 말았다.


최악의 시행착오: 2D vs. 3D 선택

2D로 갈까 3D로 갈까 고민을 하다가, 각각 장단점들이 있지만 빨리 프로세스를 도는 것을 목표로 잡아 간단하게 2D로 먼저 하고 process가 익숙해지면 3D로 도전하자고 나름 합리적인 결정을 했다.

그래서 3→4→5→6→7→8→9→10까지 발을 들여놓았는데... video 퀄리티가 엉망이다. Kling 1.6이 문제인가 하고 2.0도 써보고, standard가 아니라 VIP로도 써보고, 캐릭터가 두 개 이상이라 그런 건가 해서 스크립트 단계에서 shot당 캐릭터를 하나만 들어가게도 바꿔보고, text overlay를 빼도 보고... 별짓을 다 해봤는데 artifacts가 너무 심해서 도저히 영상이 될 것 같지가 않았다.

왜 그럴까 하다가 문득 유튜브에 있는 AI 영상들이 대부분 3D였던 게 맘에 걸려서, 혹시나 3D가 AI 입장에서 더 쉬울 수도 있을까 하고 ChatGPT에게 물어보았다. 그랬더니... 역시나 그렇다는 답이 온다. ㅜㅜ

사실 2D vs. 3D 결정할 때 하나 물어보긴 했다. 어떤 게 더 computing이 많이 드는지. 당연하게도 3D가 많이 든대서 2D로 결정한 것도 있었다. 이때 그냥 2D vs. 3D 결정할 때 뭘 고려하면 좋을지 물어만 봤더라면... 역시 애매하게 아는 게 문제다.

그래서 결국 며칠의 작업이 헛수고가 되었다. 멘붕이 와서 하루 쉬고(그날 n8n을 팠다. 거기도 골칫거리가 있더라. 그건 나중에) 다시 3D로 도전했다.



3D로 재도전: 실패는 실패가 아니다.

2D로 거의 한 사이클을 다 돌아봤기 때문에 다행히 이번엔 시행착오가 많이 줄어서 하루 만에 완성했다. 여기서도 임기응변이 많이 필요하긴 했다. 예를 들어, 두 캐릭터가 화면에 있고 그중 한 캐릭터가 말을 하게 만들라고 하면 아무리 구체적으로 이놈이라고 찍어줘도 지가 맘에 드는(?) 놈에게 대사를 넘기는 거다. (이건 다른 경험 있는 사람들 얘기도 궁금하다. 내 경우는 말하는 캐릭터가 동물이고 듣는 게 사람이어서 그렇지 않을까 하는 의심만 있다)

이게 해결이 안 되는데 credit만 자꾸 쓰고 있어서 결국 캐릭터 하나만 등장하는 것으로 변경! 그랬더니 잘 된다.

그런데 막상 CapCut에서 편집을 하려고 보니 장면과 장면의 연결이 너무 부자연스러운 걸 넘어 맥락이 전혀 맞지 않는다. 스크립트로 다시 돌아가서 수정. 그리고 다 연결해 붙여놓고 나서 그래도 아쉬운 부분들을 찾아서 다시 제작하거나 수정해서 완성했다.


첫 시청자의 혹평과 나의 변명

아들 수업받는 동안 차에서 기다리면서 완성을 했는데, 아들 나오자마자 보여줬다. 반응이 시원찮다.

"이런 걸 누가 보느냐. AI가 만든 거 티가 난다. 재밌어야 볼 텐데 재미없다. 요즘 애들은 이런 거 안 볼 거 같다. 이런 건 왜 만든 거냐..." 혹평이 쏟아진다. 살짝 서운하긴 했으나 맞는 지적이다.


차분히 설명을 해준다. 뭐든 처음 만든 것들은 후지게 마련이다. 그래도 만들고 보여주고 해야 실력이 늘지 않겠냐. 내가 봐도 맘에 안 든다. 하지만 한번 완성해보는게 의미가 있고, 그 보잘것없는 첫 번째가 있어야 더 나아진 두 번째 세 번째가 있는 거 아니겠냐. 그리고, 아무리 잘 만들어도 모든 사람이 좋아할 수는 없다. 처음엔 좋아하는 1명을 찾고 그게 두 명, 열 명 이렇게 늘어나겠지. 그리고 싫어하는 사람이 있어도 좋아하는 사람만 있다면 상관없지 않을까...


변명 같기도 하지만 이런 얘기를 듣고 또 생각해볼 기회가 될 수도 있을 거 같고 자기검열의 함정에 빠지지 않기 위해 다시 한번 되새겨 본다. 뭔가 대단한것을 만든것처럼 거창하게 적어봤지만, 우리 아들 피드백처럼 막상 보면 별거 아니라 실망을 할지도 모르겠다. 아무튼 이렇게 첫 번째 영상이 완성되었고, 링크는 여기에 있다. [영상 링크]


keyword
작가의 이전글나는 왜 이럴까?