개인화 추천 서비스
데이터 사이언티스트와 데이터 엔지니어가 하는 일에 대해 잘 알 수 있다.
데이터 쪽 공부하는 분들이 현실 업무를 알아볼 수 있는 내용.
Data Scientist
TVING
<1> 미디어 시장의 소비자의 기대와 비즈니스 요구
<2> 머신러닝 워크 플로우
<3> 실습
<1> 미디어 시장의 소비자의 기대와 비즈니스 요구
1
소비자의 기대?
엔터테인먼트와 교육
언제 어디서나 어떤 디바이스로
개인에게 맞춤
2
비즈니스 요구?
운영비용을 낮추고
시장 변화에 맞추고
사용가능한 비즈니스 데이터가 필요함- 폭발적인 데이터 볼륨, 트래픽 불규칙, 데이터 다양성, AI/ML기술 활용이 필수로 요구됨.
3
with AWS
비즈니스 요구?
운영비용을 낮추고 = 사용량에 따른 요금
시장 변화에 맞추고 => 신속한 구축
사용가능한 비즈니스 데이터가 필요함
폭발적인 데이터 볼륨 = S3
트래픽 불규칙 = EKS , Auto Scaling
데이터 다양성 = Redshift
AI/ML기술 활용이 필수로 요구됨. = SageMaker
<2> 머신러닝 워크 플로우
1
비즈니스 문제 정의
데이터 탐색 & 준비
모델 학습 & 튜닝
모델 평가 & 검증
모델 배포
모니터링 & 디버깅
:
데이터 탐색 & 준비
모델 학습 & 튜닝
모델 평가 & 검증
모델 배포
모니터링 & 디버깅
2
Data Scientist
Data Engineer
3
데이터 탐색 & 준비?
본격적인 검증 전에 가설들에 활용될 데이터 체크
데이터 존재 여부, 요청 가능성?
데이터 예상 되는 품질?
검증 가능하기에 충분한 데이터의 양?
다양한 원천 = 다양한 담당자, 문서
4
데이터 탐색 & 준비?
데이터 엔지니어, 데이터 사이언티스트 - 데이터 허브-------데이터 탐색----Redshift----S3---SageMaker Studio
5
데이터 사이언티스트는 메타데이터 탐색 플랫폼인 데이터 허브를 통해 적합한 데이터가 있는지 데이터를 탐색.
적합한 데이터를 참으면, 데이터 엔지니어와 함께 해당 데이터를 추출한다.
6
추출 데이터는 S3로 적재, SageMaker Stuido 사용.
7
데이터 사이언티스트는 문제 해결에 필요한 데이터 요구사항을 알고 있음.
데이터 엔지니어는 조직에서 생산하는 데이터의 종류와 특성을 알고 있음.
8
모델 개발?
시청 로그 데이터 전환 아키텍처
MSK----EKS -----------Apach NiFI----Apache Spark Batch---S3---Redshift Spectum---Redshift----S3---SageMaker Studio
9
모델 배포?
일관성 있는 정책 필요.
아키텍처
데이터 사이언티스트---SageMaker Studio--Code Commit ----Jenkins----ECR----EKS 처리 ----- Redshift / SageMaker Training job / S3
클라이언트 (스마트폰)------API Gateway-----------람다-----------다이나모디비----EKS 처리
<3> 실습
https://brunch.co.kr/@topasvga/1765
https://brunch.co.kr/@topasvga/1766
https://brunch.co.kr/@topasvga/1770
https://brunch.co.kr/@topasvga/2882
감사합니다.