brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jan 02. 2023

27. AWS-미디어-TVING-데이터분석, 개인화추천

개인화 추천 서비스 

데이터 사이언티스트와 데이터 엔지니어가 하는 일에 대해 잘 알 수 있다.

데이터 쪽 공부하는 분들이 현실 업무를 알아볼 수 있는 내용.

Data Scientist

TVING



<1> 미디어 시장의 소비자의 기대와 비즈니스 요구

<2> 머신러닝 워크 플로우

<3> 실습




<1> 미디어 시장의 소비자의 기대와 비즈니스 요구


1

소비자의 기대?

엔터테인먼트와 교육

언제 어디서나 어떤 디바이스로

개인에게 맞춤


2

비즈니스 요구?

운영비용을 낮추고

시장 변화에 맞추고

사용가능한 비즈니스 데이터가 필요함- 폭발적인 데이터 볼륨, 트래픽 불규칙, 데이터 다양성, AI/ML기술 활용이 필수로 요구됨.


3

with AWS

비즈니스 요구?


운영비용을 낮추고  = 사용량에 따른 요금

시장 변화에 맞추고 => 신속한 구축

사용가능한 비즈니스 데이터가 필요함

폭발적인 데이터 볼륨 = S3

트래픽 불규칙 = EKS , Auto Scaling

데이터 다양성 = Redshift

AI/ML기술 활용이 필수로 요구됨. = SageMaker




<2> 머신러닝 워크 플로우


1

비즈니스 문제 정의

데이터 탐색 & 준비

모델 학습 & 튜닝

모델 평가 & 검증

모델 배포

모니터링 & 디버깅

:

데이터 탐색 & 준비

모델 학습 & 튜닝

모델 평가 & 검증

모델 배포

모니터링 & 디버깅


2

Data Scientist

Data Engineer



3

데이터 탐색 & 준비?


본격적인 검증 전에 가설들에 활용될 데이터 체크


데이터 존재 여부, 요청 가능성?

데이터 예상 되는 품질?

검증 가능하기에 충분한 데이터의 양?


다양한 원천 = 다양한 담당자, 문서


4

데이터 탐색 & 준비?


데이터 엔지니어, 데이터 사이언티스트 - 데이터 허브-------데이터 탐색----Redshift----S3---SageMaker Studio


5

데이터 사이언티스트는 메타데이터 탐색 플랫폼인 데이터 허브를 통해 적합한 데이터가 있는지 데이터를 탐색.

적합한 데이터를 참으면, 데이터 엔지니어와 함께 해당 데이터를 추출한다.


6

추출 데이터는 S3로 적재, SageMaker Stuido 사용.


7

데이터 사이언티스트는  문제 해결에 필요한 데이터 요구사항을 알고 있음.

데이터 엔지니어는 조직에서 생산하는 데이터의 종류와 특성을 알고 있음.



8

모델 개발?

시청 로그 데이터 전환 아키텍처


MSK----EKS -----------Apach NiFI----Apache Spark Batch---S3---Redshift Spectum---Redshift----S3---SageMaker Studio



9

모델 배포?

일관성 있는 정책 필요.


아키텍처


데이터 사이언티스트---SageMaker Studio--Code Commit ----Jenkins----ECR----EKS 처리 ----- Redshift / SageMaker Training job / S3


클라이언트 (스마트폰)------API Gateway-----------람다-----------다이나모디비----EKS 처리 




<3> 실습



https://brunch.co.kr/@topasvga/1765


https://brunch.co.kr/@topasvga/1766


https://brunch.co.kr/@topasvga/1770




https://brunch.co.kr/@topasvga/2882



감사합니다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari