AWS 온라인 세미나중 데이터 관련 세션을 듣고 요약해 정리한다.
데이터 엔지니어가 되려고 하는 분들에게 도움이 될 거 같아 요약해 본다.
<1> 데이터를 준비하는 과정?
<2> 데이터 준비에 보내는 시간이 80%이다.
<3> 데이터 준비의 어려움?
<4> AWS Glue DataBrew 서비스?
<5> 비즈니스 보고서를 위한 데이터 분석은?
<6> 머신러닝을 위한 데이터 전처리법?
<7> 2020 리 인벤트 신규 서비스 정리 - 한국 블로그
<8> 2020 리 인벤트 전체 목록
<9> AWS Data analytics specialty 자격 취득 후기가 있어 공유드립니다
<10> AWS 빅데이터 몰아보기
<1> 데이터를 준비하는 과정?
1
Exteraction & load
추출과 로딩
Spark 클러스터 알아야 한다.
EMR 알아야 한다.
파이썬 코드, 스칼라 코드로
2
cleaning & normalization
일반화
코드를 기반으로 한다.
3
Orchestatng at Scale
스케일이 커져감에 따라 오케스트레이션 필요하다.
<2> 데이터 준비에 보내는 시간이 80%이다.
1
데이터 엔지니어 4 파트
Data Engineer -> ETL Developers -> Data Analysts -> Data Scientists
업무 순서?
1
Data engineers - 데이터 파이프라인 구축, 웹서버 설계도 한다. 데이터를 받아 처리하는 서버가 필요하다. 가공을 해야 한다.
2
Etl developers - 데이터를 처리하는 것들에 대해 이해도 해야 한다. 글로벌 서비스를 한다고 할 때 한 곳에서 해야 할지? 국가별로 할지? 정해야 한다.
3
Data analysts - 한 곳에서 보고 싶다? 요청
4
Data scientists
<3> 데이터 준비의 어려움?
1
Python 또는 Scala와 같은 언어로 데이터를 변환하는 코드를 작성해야 함.
2
코드로 작업하기 때문에 엔지니어가 필요하다.
SQL을 짜는 거라 엔지니어링 역량으로 파이프라인을 구축하는 거랑 다르다.
3
VPC 내 S3와 저장소 권한을 관리하는 것을 이해한다.
클라우드 엔지니어 역량이 있어야 한다.
4
데이터를 보기 위해 위 작업을 반복해야 함.
<4> AWS Glue DataBrew 서비스?
데이터 분석가와 데이터 과학자를 위한 도구
일반적으로 큰 회사가 아니면 data engineer 가 필요하지 않다.
개발자나 분석가가 바로바로 준비한다.
<5> 비즈니스 보고서를 위한 데이터 분석은?
파일-------- s3 --------------------------------------------------Glue DataBrew - ------s3 ------- 아테나
데이터 카탈 로드 데이터 소스
s3
redshift
rds
<6> 머신러닝을 위한 데이터 전처리법?
S3 ----------- AWS Glue DataBrew (주피터 노트) -- S3-----model training (주피터 노트) --------
<7> 2020 리 인벤트 신규 서비스 정리 - 한국 블로그
<8> 2020 리 인벤트 전체 목록
<9> AWS Data analytics specialty 자격 취득 후기가 있어 공유드립니다
<10> AWS 빅데이터 몰아보기
감사합니다.