brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Nov 10. 2020

7탄-데이터-Spark, Glue 5/7

<1> Spark 사용

<2> Glue



<1> Spark 사용


1

Mapreduce 보다 빠르다.

배치, 대화식 및 스트리밍 어플지원


충분히 메모리 공간이 있어야 한다.

스트링 대치 용은 아니다.  

배치 기반으로 동작하는 것이다.


3

EMR에 Spark를


S3와 직접 연동 가능함.

// 그림


4

cloudwatch에서 Spark 모니터링 지표를 제공한다.


5

구성

S3 --- EMR ---------Redshift ---- ML (S3버킷)------대시보드



<2> Glue


1

Glue

관리형 ETL 서비스 제공


2

추천 변환 로드  ETL------> DW에 로드해 놓으면 ------ 대시보드 시각화.


추천 변환 로드 가 가장 시간이 많이 걸린다.


3

소스------ EMR ------- 람다 ------- DW


소스------EMR단 : 검증/정리 --- 변환 ------로드 ---------- DW


4

서버리스

서버 관리 불필요하다는 것.

그 시점에 필요한 컴퓨팅 리소스가 켜지고 사용하는것을 의미한다.


5

Glue

완전 관리형 데이터 카탈로그 및 추출,변환,로드  ETL서비스

서버리스 사용


6

Glue 구성요소  3가지

데이터 카탈로그 ----- ETL 엔진 --- 작업 오케스트레이션


7

데이터 카탈로그


8

ETL 엔진


9

개발 엔드 포인트를 제공한다.


10

작업 오케스트레이션


11

지표 및 알람 모니터링


12

아키텍처


데이터 원본 ------ ETL 엔진 -------- 데이터 대상


데이터 스토어는  무엇인가?

데이터 원본이자 대상이다.

데이터 카달로그에 있는 원본과 대상이다.


별도 저장소는 아니다.


13

구성도

redshift, s3, rds, ec2 db --------- glue ------------- 아테나, reshshift,emr



다음과정

https://brunch.co.kr/@topasvga/1319



https://brunch.co.kr/@topasvga/2698


감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari