brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jan 21. 2021

 7탄-AWS 빅데이터 시작 1/1

AWS 온라인 세미나중  데이터 관련 세션을 듣고  요약해 정리한다.

데이터 엔지니어가 되려고 하는 분들에게 도움이 될 거 같아 요약해 본다.



<1>  데이터를 준비하는 과정?

<2>  데이터 준비에 보내는 시간이 80%이다.

<3>  데이터 준비의 어려움?

<4>  AWS Glue   DataBrew  서비스?

<5>  비즈니스 보고서를 위한 데이터 분석은?

<6>  머신러닝을 위한 데이터 전처리법?

<7>  2020 리 인벤트 신규 서비스 정리 - 한국 블로그

<8>  2020 리 인벤트 전체 목록

<9> AWS  Data analytics specialty 자격 취득 후기가 있어 공유드립니다

<10> AWS 빅데이터  몰아보기



<1>  데이터를 준비하는 과정?


1

Exteraction & load

추출과 로딩

Spark  클러스터 알아야 한다.

EMR  알아야 한다.

파이썬 코드, 스칼라 코드로


2

cleaning &   normalization

일반화

코드를 기반으로 한다.


3

Orchestatng at  Scale

스케일이 커져감에 따라 오케스트레이션 필요하다.





<2>  데이터 준비에 보내는 시간이 80%이다.


1

데이터 엔지니어 4 파트

Data Engineer  -> ETL  Developers  -> Data Analysts  ->  Data Scientists



업무 순서?

1

Data engineers  - 데이터 파이프라인 구축, 웹서버 설계도 한다. 데이터를 받아 처리하는 서버가 필요하다. 가공을 해야 한다.


2

Etl developers  - 데이터를 처리하는 것들에 대해 이해도 해야 한다. 글로벌 서비스를 한다고 할 때 한 곳에서 해야 할지? 국가별로 할지? 정해야 한다.


3

Data analysts   - 한 곳에서 보고 싶다?  요청


4

Data scientists




<3> 데이터 준비의 어려움?


1

Python  또는 Scala와 같은 언어로 데이터를 변환하는 코드를 작성해야 함.


2

코드로 작업하기 때문에 엔지니어가 필요하다.

SQL을 짜는 거라  엔지니어링 역량으로 파이프라인을 구축하는 거랑 다르다.


3

VPC 내 S3와 저장소 권한을 관리하는 것을 이해한다. 

클라우드 엔지니어 역량이 있어야 한다.


4

데이터를 보기 위해 위 작업을 반복해야 함.




<4>  AWS Glue   DataBrew  서비스?


데이터 분석가와 데이터 과학자를 위한 도구


일반적으로 큰 회사가 아니면 data engineer  가 필요하지 않다.

개발자나 분석가가 바로바로 준비한다.




<5>  비즈니스 보고서를 위한 데이터 분석은?


파일-------- s3 --------------------------------------------------Glue DataBrew  - ------s3 ------- 아테나    

                  데이터 카탈 로드 데이터 소스

                    s3

                    redshift

                    rds




<6>  머신러닝을 위한 데이터 전처리법?


S3 ----------- AWS Glue DataBrew  (주피터 노트) -- S3-----model training  (주피터 노트) --------




<7>  2020 리 인벤트 신규 서비스 정리 - 한국 블로그


https://aws.amazon.com/ko/blogs/korea/aws-reinvent-announcements-2020/



<8>  2020 리 인벤트 전체 목록


https://aws.amazon.com/ko/new/reinvent/




<9> AWS  Data analytics specialty 자격 취득 후기가 있어 공유드립니다


https://www.facebook.com/groups/awskrug/permalink/3186274651474537/




<10> AWS 빅데이터  몰아보기


https://brunch.co.kr/@topasvga/2698



감사합니다.

매거진의 이전글 7탄-데이터-시각화 7/7
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari