brunch

라이킷 댓글 10 공유 671 브런치 글을 SNS에 공유해보세요

You can make anything
by writing

- C.S.Lewis -

생활 속 데이터 과학 이야기
by 최규민 Jan 17. 2016

스타워즈 TATOOINE행성의 비밀

스타워즈 영화대본으로 인물/배경 관계 분석해 보기

이글은 2016년 1월 '스타워즈7 깨어난 포스'를 보고 영감을 얻어 작성된 글입니다.


 지난 연말 3살난 아들래미를 어린이집에 보내고 와이프와 스타워즈 Episode 7(깨어난포스)을 봤는데, 이게 3년만에 처음으로 여유롭게 와이프와 함께 본 영화였다. 이 영화를 계기로 (연말이라 여유도 생겨)밤마다 스타워즈 Episode 1~6까지 차례로 섭렵하고 뭔가 허전함을 달래기 위해 시작한 것이 스타워즈 영화대본 분석이다. 그리고 그즈음  2015 BJ대상 데이터 비주얼라이제이션 작업을 했던 터라(무한한 삽질과 에너지를 쏟았지만 망테크가 된 ^^;) 뭔가 데이터를 탐색하고 이뿌게 꾸며 보고 싶은 욕구가 타오르던  찰나였다.



우선 시작하기에 앞서, 개인적으로  스타워즈 스토리는 범우주적 스케일의 스카이워크 집안 3세대의 막장 이야기가 아닌가 하는 생각이다. 그래서 이 포스팅의 분석은 스카이워커 1세대 이야기인 프리퀄 트릴로지(Episode 1~3)와 스카이워커 2세대 이야기인 오리지널 트릴로지(Episode 4~6)의 대비 점을 영화 배경과 인물의 관계 중심으로 분석해 보고자 한다.  혹시  스타워즈 인물 간의 관계를 잘 모르시는 분은 아래  가계도를 참고하셈~

잠시 모르는 분을 위해(저도 몰랐다능~),  
트릴로지 : 영화나 소설에서 3부작을 의미하고,  
프리퀄 : 영화 소설에서 기준이 되는 작품보다 시간상 앞서는 작품을 의미함
오리지널 트릴로지 : Episode 4,5,6
프리퀄 트릴로지 : Episode 1,2,3
시퀄 트릴로지 : Episode 7,8,9


 Episode 1~3 = 아나킨(다스베이더)-파드메 이야기 (스카이워커 1세대)
 Episode 4~6 = 루크-레아공주(+ 한솔로) 이야기 ( 스카이워크 2세대, 아나킴,파드메 자녀)
 Episode 7~9 = 레이-카이로렌의  이야기  ( 스카이워크 3세대, 레아-한솔로 자녀 그리고 ?? )
소스 : 노컷뉴스(http://m.nocutnews.co.kr/Story/starwars/)


먼저 데이터 랭글링 작업, 영화 대본은 IMSDB 사이트에서 제공하는 스타워즈 Episode 1~6까지 대본 문서를 사용하였다. 이 대본에서 "Scene_no(장면번호), place(배경), actor(배우), script(대사)"의 항목을 추출하는 데이터 파싱, 클린징, 필터링 작업  수행했다.  ( 어떻게 6개의 Episode의 텍스트 포맷이 모두 다를 수 있는지 짜증이 쪼매 났다. )

영화대본을 정제한 데이터셋

그럼 이제 추출된 데이터  셋으로부터 분석을 해 보자

- 스타워즈 6편 대본의 기본 통계.   

 대사가 있는  인물 수 =  295 명
 총 장면(Scene) 수 =  872개
 전체 대사(script) 수 =  5,595 개
 배우당 평균 대사(script) 수 =  19 개
 배경 장소 수 =  196 곳

영화 장면수는 최초에 만들어진 Episode 4가 압도적으로 가장 많음을 볼 수 있으며, 주/조연급  등장인물수는 Episode(시간순)의 종반으로 갈수록 줄어드는 경향이 있는데 이는 파드메, 콰이콘, 오비완, 조연급등 맡은 배역들을 지속적으로 죽이기 때문인 듯하다.

Episode별 영화 장면, 인물, 배경수

- 인물들의 타임라인


인물들의 출연/대사 빈도를 통해 보면 프리퀄 트릴로지(Ep.1~3)에서는 스카이워커 1세대인 ANAKIN, PADME 그리고 OBI-WAN, PADME, YODA가 오리지널 트릴로지(Ep.4~6)에서는 스카이워크 2세대(ANAKIN+PADME의 쌍둥이 남매)인 Luke, Leia, Han(Solo)가 이야기의 중심임을 볼 수 있다.

- 배경 타임라인

 영화 배경의 타임라인을 보면 CG 기술이 없었던 오리지널 트릴로지(1977년~)는  Darth Star나 Palcon호와 같은 군함 내부나 비행기의 조정석을 배경으로 하는 장면의 빈도가 높은 것을 볼 수 있고, 반면에 CG 활용이 가능했던 프리퀄 트릴로지(1999년~)는 CORUSCANT(은하공화국 수도행성)의 미래 도시, MOS ESPA(TATOOINE행성 수도)의 많은 관중과 자동차 경주 장면이 많음을 확인할 수 있다. 그리고 스타워즈에서 스카이워커 집안의 포스 최강자들(아나킨, 루크, 심지어 7편의 레이까지,(수정)레이는 자쿠행성이네요)의 유소년 기를 모두 길러낸 TATOOINE행성은 Episode 전반에 걸쳐 사용되는 유일한 배경임을  확인할 수 있다. 실제로 이 TATOOINE  촬영지인 튀니지의 마트마타는 스타워즈 덕후들이 방문하는 성지로 여겨지고 있다.

비밀 1. TATOOINE 행성은 Episode 전반에 걸쳐 사용되는 유일한 배경



- 영화 인물, 배경의 Sankey Chart

일반적으로 인물/배경 모두 오리지널과 프리퀄 트릴로지 중 한쪽에 편향되어 분포가 이루어지는데, TATOOINE행성은 적절히 2개의 트릴로지 모두에 분포되어 있음을 볼 수 있다. (차트에서는 Original에 좀 더 치우쳐 보이지만, MOS ESPA가 TATOOINE행성의 수도임을 감안하면 비슷한 비율로 중요도가 있다고 보여진다.)

 비밀 2. TATOOINE행성은 치우침 없이 두 트롤리지에서 비슷한 중요도를 가짐


- 영화 배경의 Interier(실내), Exterier(실외) 비율

- 인물 간 유사도 Matrix

  인물의 장면별 대사수를 특징 Vector로 사용하여 인물들 간의 유사도 matrix을 측정하고, 계층적 군집화 방식으로 비슷한 인물끼리 묶어 보았다.(동일 장면에 함께 많이 나올수록 인물 간에 유사도가 높고 뭉친다)

예상했던 것보다 더 명확히 각 트릴로지가 분리되고, 오리지널 트릴로지에 등장하는 luke, leia, han, threepio (왼쪽 상단)가 강한 유사도로 군집화되고, 중심부터 오른쪽 하단까지 프리퀄 트릴로지의 배우들이 소소히 성향별로 군집화됨을 볼 수 있다.

- 배 경간 유사도 Matrix

배경 또한 인물 군집화와 유사하게 왼쪽 상단에 오리지널 트릴로지가 오른쪽 하단에는 프리퀄 트릴로지가 군집화 됨을 볼 수 있다. 그런데!! 이 두 유사도 Matrix가 모두 오라지날 트릴로지에 비해 프리퀄 트릴로지의 인물수/배경수가 많고 복잡함을 알 수 있다. 이는 추측컨데 CG를 사용할 수 있음에 따라 독립적인 배경의 개수가 늘고 이 배경별 유니크한 인물들이 생겨남 즉 배경이  늘어나면 등장 인물도 늘고 그에 따른 복잡도가  늘어나는 것이 아닐까? 하고 추측해본다. 극단적인 예로 영화 그래비티의 배경은 우주,  우주선뿐인 배경이고 등장인물도 2명만이 있어 아주 단순한 관계를 보인다.


- 인물-배경 네트워크 분석

인물과 배경의 연결성을 알아보기 위해 네트워크에서도 위의 인물/배경 유사도 Matrix와 유사하게 아래 네트워크에서도 오리지널 트릴로지(왼편)와 프리퀄 트릴로지(오른편)의 인물 배우 간의 연결고리가 적고, 프리퀄 트릴로지의 네트워크 복잡도가 높은 성향이 동일하게 나타남을 볼 수 있다. 그리고 이 네트워크를 유심히 보면(그냥 봐도) TATOOINE 행성은 각각의 트릴로지를 연결하는 매개체 역할을 훌령히 수행함을 알 수 있다.

비밀 3 TATOOINE행성은 각각의 트릴로지의 연결 매개체 역할함


전체 Episode의 네트워크


그래프 네트워크에서 Node들의 매개 정도의 중심성을 측정하는 Betweeness Centrality(매개 중심성)를 보면 인물 쪽에는 OBI-WAN, 배경 쪽에서는 TATOOINE 행성이 가장 높음을 볼 수 있다.

Betweenness Centrality는 네트워크의 모든 노드들간의 최단경로의 경우의 수에서 측정하는 Node를 얼마나 많이 경유하는가를 통해 매개체로써 중심성(Centrality)을 판단하는 방식이다.  
Network Betweenness Centrality
오리지날 트릴로지( Ep 4~6 ) 네트워크
프리퀄 트릴로지( Ep 1~3 ) 네트워크


 이번 분석 작업을 하면서 스타워즈의 다양한 내용과 관계에 대하여 알게 되었고 그중에서 TATOOINE행성이 왜? 스타워즈의 시작과 끝을 장식했는지 알게 해 준 분석이었다. 이번에 개봉한 Episode 7부터 시작하는 시퀄 트릴로지 또한 TATOOINE행성에서 시작하는 것인 만큼 이러한 성향은 계속될 것으로 보이고 Episode 9편의 마지막 화면이 TATOOINE행성이 될 것인지 또한 궁금하다. (수정합니다.)Episode 7에서 레이가 자란 행성은 TATOOINE과 비슷한 사막행성인  자쿠행성이네요.. 

단순히 처음에는 잉여력이 있어 요즘 핫한 스타워즈에 대하여 데이터 측면으로 만 접근을 하게 되었는데, 점점 데이터 분석을 하면 할수록 스타워즈라는 심오한 세계관에 매료되는 나로 인해 분석의 결과와 더불어 과정의 솔솔한 재미를 느끼게 해 준 데이터 분석이었다. ~~


위 분석의 과정이 궁금하신 분은  이 파이썬 노트북을  참고하시길 바랍니다.


참고 자료

Starwars Social Network :  Evelina Gabasova's blog
Viloline Chart  : Seaborn : Python Statistical Data Visualization
Sankey Chart  : Flow/Share Data Visualiztion 설명
Network Graph : Python Complex Network Lib
Network Centrality : Network Centrality 설명


magazine 생활 속 데이터 과학 이야기
최규민(오픈윙스)의 데이터 세상
댓글

    매거진 선택

    키워드 선택 0 / 3 0
    브런치는 최신 브라우저에서 최적화 되어있습니다. IE chrome safari