7탄-데이터-Spark, Glue 5/7

by Master Seo

Nov 10. 2020

<1> Spark 사용

<2> Glue

<1> Spark 사용

1 Mapreduce 보다 빠르다.

배치, 대화식 및 스트리밍 어플지원

충분히 메모리 공간이 있어야 한다.

스트링 대치 용은 아니다.

배치 기반으로 동작하는 것이다.

3 EMR에 Spark를

S3와 직접 연동 가능함.

// 그림

4 cloudwatch에서 Spark 모니터링 지표를 제공한다.

5 구성

S3 --- EMR ---------Redshift ---- ML (S3버킷)------대시보드

<2> Glue

1 Glue

관리형 ETL 서비스 제공

2

3 소스------ EMR ------- 람다 ------- DW

소스------EMR단 : 검증/정리 --- 변환 ------로드 ---------- DW

4 서버리스

서버 관리 불필요하다는 것.

그 시점에 필요한 컴퓨팅 리소스가 켜지고 사용하는것을 의미한다.

5 Glue

완전 관리형 데이터 카탈로그 및 추출,변환,로드 ETL서비스

서버리스 사용

6 Glue 구성요소 3가지

데이터 카탈로그 ----- ETL 엔진 --- 작업 오케스트레이션

7 데이터 카탈로그

8 ETL 엔진

9 개발 엔드 포인트를 제공한다.

10 작업 오케스트레이션

11 지표 및 알람 모니터링

12 아키텍처

데이터 원본 ------ ETL 엔진 -------- 데이터 대상

데이터 스토어는 무엇인가?

데이터 원본이자 대상이다.

데이터 카달로그에 있는 원본과 대상이다.

별도 저장소는 아니다.

13 구성도

redshift, s3, rds, ec2 db --------- glue ------------- 아테나, reshshift,emr

다음과정

https://brunch.co.kr/@topasvga/1319

479. 데이터-Redshift 6/7

<1> Redshift 알아보기 <2> EMR , Redshfit 실습 <1> Redshift 알아보기 데이터베이스와 데이터 웨어 하우스의 차이 1 DW사용시 분석작업과 트랜잭션 작업이 리소스 경합을 일으키지 않습니다. 2 트위터, 페이

https://brunch.co.kr/@topasvga/1319

https://brunch.co.kr/@topasvga/2698

7탄. AWS로 빅데이터 시작

https://brunch.co.kr/@topasvga/1310 https://brunch.co.kr/@topasvga/1311 https://brunch.co.kr/@topasvga/1312 https://brunch.co.kr/@topasvga/1317 https://brunch.co.kr/@topasvga/1318 https://brunch.

https://brunch.co.kr/@topasvga/2698

감사합니다.

keyword

매거진의 이전글7탄-데이터-아테나와 EMR 4/7 7탄-데이터-Redshift 6/7매거진의 다음글

7탄-데이터-Spark, Glue 5/7

<1> Spark 사용

<2> Glue

<1> Spark 사용

1

Mapreduce 보다 빠르다.

배치, 대화식 및 스트리밍 어플지원

충분히 메모리 공간이 있어야 한다.

스트링 대치 용은 아니다.

배치 기반으로 동작하는 것이다.

3

EMR에 Spark를

S3와 직접 연동 가능함.

// 그림

4

cloudwatch에서 Spark 모니터링 지표를 제공한다.

5

구성

S3 --- EMR ---------Redshift ---- ML (S3버킷)------대시보드

<2> Glue

1

Glue

관리형 ETL 서비스 제공

2

추천 변환 로드 ETL------> DW에 로드해 놓으면 ------ 대시보드 시각화.

추천 변환 로드 가 가장 시간이 많이 걸린다.

3

소스------ EMR ------- 람다 ------- DW

소스------EMR단 : 검증/정리 --- 변환 ------로드 ---------- DW

4

서버리스

서버 관리 불필요하다는 것.

그 시점에 필요한 컴퓨팅 리소스가 켜지고 사용하는것을 의미한다.

5

Glue

완전 관리형 데이터 카탈로그 및 추출,변환,로드 ETL서비스

서버리스 사용

6

Glue 구성요소 3가지

데이터 카탈로그 ----- ETL 엔진 --- 작업 오케스트레이션

7

데이터 카탈로그

8

ETL 엔진

9

개발 엔드 포인트를 제공한다.

10

작업 오케스트레이션

11

지표 및 알람 모니터링

12

아키텍처

데이터 원본 ------ ETL 엔진 -------- 데이터 대상

데이터 스토어는 무엇인가?

데이터 원본이자 대상이다.

데이터 카달로그에 있는 원본과 대상이다.

별도 저장소는 아니다.

13

구성도

redshift, s3, rds, ec2 db --------- glue ------------- 아테나, reshshift,emr

다음과정

https://brunch.co.kr/@topasvga/1319

https://brunch.co.kr/@topasvga/2698

감사합니다.