brunch

매거진 Spark+Python

You can make anything
by writing

C.S.Lewis

by 보나벤투라 Nov 14. 2017

관람자별 성별 파생 특징 탐색

http://files.grouplens.org/datasets/movielens/ml-100k.zip

실습 데이터 : 사용자들이 영화에 대해 매긴 점수와 관련된 100k 데이터 집합

[root@client_server ~]# vi $SPARK_HOME/conf/spark-env.sh

export PYSPARK_DRIVER_PYTHON=/root/anaconda3/envs/py35/bin/ipython3

[root@client_server ~]# $SPARK_HOME/bin/pyspark --master spark://master:7077

pyspark를 아이 파이썬 콘솔 기능으로 사용 가능!



이전 병합하여 파생 특징으로 구성하였던 데이터 프레임 'group'을 그대로 사용하겠습니다.

# 구성된 파생 특징

1. 관람자별 성별 평점 평균

2. 관람자별 성별 평점 분산(호불호 정도)

3. 관람자별 성별 관심도(절대 관람 횟수)

  위 파생 특징들을 탐색하여, 1) 어떤 의미를 추출할 수 있으며 또한 2) 그것을 마케팅적으로 어떻게 활용할 수 있을지 '간단한 사고 실험을 진행해보는 것'을 이번 포스트의 목적으로 두겠습니다.


>> group.sort_values("size",ascending=False).head(10)

파생특징을 통해 영화 관람자들의 다양한 특성을 탐색해볼 수 있다.
관람자별 특성 파악하기

>> sns.jointplot(x="size",y="var",data=group,color="g")

>> plt.show()

>> sns.jointplot(x="size",y="mean",data=group,color="r")

>> plt.show()

>> sns.jointplot(x="var",y="mean",data=group,color="b")

>> plt.show()

- 영화 관람횟수가 많아질수록 평점부여의 큰 변동은 점점 드물게 되며, 평균 평점 또한 3~4에 주로 분포한다.

- 전체적으로, 관람자의 영화에 대한 호불호(평점 기복)가 많이 심하지 않으며 3~4점의 평점을 준다.

[꼬리 분석질문] "성별에 대해선 어떤 특징들을 보일까?" 


성별 관람자 특성 파악하기

>> import seaborn as sns

>> import matplotlib.pyplot as plt

>> ax=sns.boxplot(x="gender",y="var",data=group,palette="Set2")

>> plt.setp(ax.artists,alpha=0.6)

>> sns.stripplot(x="gender",y="var",data=group,jitter=True,palette="Set2",alpha=0.7)

>> plt.show()


>> ax=sns.boxplot(x="gender",y="mean",data=group,palette="Set2")

>> plt.setp(ax.artists,alpha=0.6)

>> sns.stripplot(x="gender",y="mean",data=group,jitter=True,palette="Set2",alpha=0.7)

>> plt.show()


>> ax=sns.boxplot(x="gender",y="size",data=group,palette="Set2")

>> plt.setp(ax.artists,alpha=0.6)

>> sns.stripplot(x="gender",y="size",data=group,jitter=True,palette="Set2",alpha=0.7)

>> plt.show()



- 성별로 평점을 주는 데 있어 호불호 정도가 얼마나 심한지? (성별 평점 부여의 변동 정도)

: 두 성별의 수준은 비슷하지만, IQR(사분 범위)를 참고할 때 더 많은 남성이 분산 1에 더 쏠려있다. 즉, 영화에 대한 평점 부여에 있어, 남성은 여성보다 평소에 주던 평점을 준다고 할 수 있다.


- 성별로 평점을 주는 데 있어 그 기준이 얼마나 엄격한지? (성별 평점 부여의 주요 수준)

: 성별에 관계없이 주로 3~4점의 평점을 부여하나, IQR을 참고할 때, 여성이 더 넓게 분포되어 있다. 즉, 영화 만족도에 대한 기준 자체는 여성이 조금 더 높다고 할 수 있다.


- 영화의 평점을 매겼던 관람자의 성별 수 차이가 얼마나 심한지?

: 성별 영화에 대한 관심도(절대 관람 횟수)는 남자가 여자보다 많다. 반대로 생각해보면, '평점을 부여하도록 영화가 각 성별에게 주는 임팩트는 동일하지만' 여성은 남성에 비해 '평점을 부여할 만큼' 큰 임팩트를 느끼지 못했다고도 생각할 수 있다.

[꼬리 분석질문] "남성들은 특히, 어떤 장르에 더 많은 관심을 보였을까?" 


탐색을 통해 얻은 최종 결과
  정리해보면, 남성은 여성에 비해 영화로부터 더 많은 영향을 받고 만족도에 대한 기준 자체도 그리 엄격하지 않아 주로 보통 이상의 평점을 부여하고 있습니다.
  많은 영화 관객들을 끌어들이기 위해, 어떤 마케팅을 실시하면 더 좋을까요? 저는 ROI의 관점으로, '남성을 타겟팅' 한 공격적인 마케팅(자극적인 영화 내용 또는 광고)을 실시하기를 고려해 봅니다. 처음부터 여성을 타깃으로 삼기보다, '영화로부터 남성 관객이 강력한 인상을 받을 마케팅'을 유도할 때 다수의 남성 관객들의 버즈마케팅 효과를 확보할 수 있을 테며 이로부터 여성 관객까지 확보할 수 있는 효과를 기대할 수 있기 때문입니다.


*위 과정들은 하나의 사고 실험으로 'EDA를 통해 어떤 의미추출과 이를 비즈니스적으로 어떻게 적용할 수 있을지' 논리적 과정을 보여주기 위한 목적이며 저만의 해석임을 명심해주시길 바랍니다. 또한 '꼬리 분석질문'에 따라 더 많은 탐색을 시도할 수 있고 이에 따라 마케팅에 적용할 수 있는 유의미한 특징들은 더 세부적인 형태를 띠게 될 것입니다.



매거진의 이전글 데이터 병합 & 피처 엔지니어링(파생 특징)

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari