brunch

7탄-AWS 빅데이터 시작 1/1

by Master Seo

AWS 온라인 세미나중 데이터 관련 세션을 듣고 요약해 정리한다.

데이터 엔지니어가 되려고 하는 분들에게 도움이 될 거 같아 요약해 본다.



<1> 데이터를 준비하는 과정?

<2> 데이터 준비에 보내는 시간이 80%이다.

<3> 데이터 준비의 어려움?

<4> AWS Glue DataBrew 서비스?

<5> 비즈니스 보고서를 위한 데이터 분석은?

<6> 머신러닝을 위한 데이터 전처리법?

<7> 2020 리 인벤트 신규 서비스 정리 - 한국 블로그

<8> 2020 리 인벤트 전체 목록

<9> AWS Data analytics specialty 자격 취득 후기가 있어 공유드립니다

<10> AWS 빅데이터 몰아보기



<1> 데이터를 준비하는 과정?


1

Exteraction & load

추출과 로딩

Spark 클러스터 알아야 한다.

EMR 알아야 한다.

파이썬 코드, 스칼라 코드로


2

cleaning & normalization

일반화

코드를 기반으로 한다.


3

Orchestatng at Scale

스케일이 커져감에 따라 오케스트레이션 필요하다.





<2> 데이터 준비에 보내는 시간이 80%이다.


1

데이터 엔지니어 4 파트

Data Engineer -> ETL Developers -> Data Analysts -> Data Scientists



업무 순서?

1

Data engineers - 데이터 파이프라인 구축, 웹서버 설계도 한다. 데이터를 받아 처리하는 서버가 필요하다. 가공을 해야 한다.


2

Etl developers - 데이터를 처리하는 것들에 대해 이해도 해야 한다. 글로벌 서비스를 한다고 할 때 한 곳에서 해야 할지? 국가별로 할지? 정해야 한다.


3

Data analysts - 한 곳에서 보고 싶다? 요청


4

Data scientists




<3> 데이터 준비의 어려움?


1

Python 또는 Scala와 같은 언어로 데이터를 변환하는 코드를 작성해야 함.


2

코드로 작업하기 때문에 엔지니어가 필요하다.

SQL을 짜는 거라 엔지니어링 역량으로 파이프라인을 구축하는 거랑 다르다.


3

VPC 내 S3와 저장소 권한을 관리하는 것을 이해한다.

클라우드 엔지니어 역량이 있어야 한다.


4

데이터를 보기 위해 위 작업을 반복해야 함.




<4> AWS Glue DataBrew 서비스?


데이터 분석가와 데이터 과학자를 위한 도구


일반적으로 큰 회사가 아니면 data engineer 가 필요하지 않다.

개발자나 분석가가 바로바로 준비한다.




<5> 비즈니스 보고서를 위한 데이터 분석은?


파일-------- s3 --------------------------------------------------Glue DataBrew - ------s3 ------- 아테나

데이터 카탈 로드 데이터 소스

s3

redshift

rds




<6> 머신러닝을 위한 데이터 전처리법?


S3 ----------- AWS Glue DataBrew (주피터 노트) -- S3-----model training (주피터 노트) --------




<7> 2020 리 인벤트 신규 서비스 정리 - 한국 블로그


https://aws.amazon.com/ko/blogs/korea/aws-reinvent-announcements-2020/



<8> 2020 리 인벤트 전체 목록


https://aws.amazon.com/ko/new/reinvent/




<9> AWS Data analytics specialty 자격 취득 후기가 있어 공유드립니다


https://www.facebook.com/groups/awskrug/permalink/3186274651474537/




<10> AWS 빅데이터 몰아보기


https://brunch.co.kr/@topasvga/2698



감사합니다.

keyword
매거진의 이전글 7탄-데이터-시각화 7/7