brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jul 04. 2022

6탄-1. 김대리는 어떻게 서버 없이 대용량의 데이터

서버 리스 분석 서비스 정리!

서버리스 데이터 레이크

Amazon EMR Serverless  (Preview 단계)

Amazon Redshift Serverless (Preview 단계)



<1>  S3를 서버리스 데이터 레이크로

<2> Amazone EMR  서버리스 (Preview 단계)

<3> Amazon  Redshift Serverless  (Preview 단계)

<4> 개인 정리



<1>  S3를 서버리스 데이터 레이크로


1

데이터 웨어 하우징 , 분석, 머신러닝 데이터를  S3  Data Lake에 저장한다.


2

데이터 분석  기본 구성은?

데이터 레이크 --------- 글루 ----------- 아테나----------- 퀵 사이트 


3

글루 사용은?

S3에 있는 데이터를 탐색하고 데이터 스키마를 파악 , 카탈로그로 관리


4

아테나 사용은?

s3에 SQL 쿼리를 던져 분석한다.


5

퀵 사이트 사용은?

BI 대시보드를 구성한다.

조직에 인사이트를 제공한다.

아테나를 연결하여 S3의 데이터를 시각화

기간 필터링, 다양한 차트, 대시보드 공유와 알람




<2> Amazone EMR  서버리스 (Preview 단계)



1

EMR 은 최신의 런타임을 사용하는 것으로 속도가 빨라진다.

EMR 6.3  , EMR 6.4


2

사용한 워커 리소스만큼 비용을 지불한다.

처음 10개 워커 사용 + 다음 10분간 40개 워커 사용 비용


과금은?

1분 단위

사용한 vCPU개수+메모리량+스토리지 사용량


3

데이터 분석  기본 구성에   EMR Serverless , Redshift Serverless를 추가해보자



<3> Amazon  Redshift Serverless  (Preview 단계)


1

Amazon  Redshift?

데이터 분석에 집중할 수 있는 데이터 웨어 하우스입니다.

연합 쿼리 = 페더레이션 쿼리를 지원하기 때문에 데이터베이스에 저장된 데이터에 대해서 쿼리를 수행, 뷰를 생성 가능.

글루 데이터 카탈로그의 데이터베이스를 참조하여  S3 데이터 레이크에 적재된 데이터들에 대해서 쿼리를 분석할 수 있다.

시각화 가능


2

Amazon  Redshift Serverless?

클러스터를 생성하거나 관리할 필요가 없다.

실행한 쿼리에 맞는 컴퓨팅 리소스가 할당된다.


특징?

레드 쉬프트 관리형 스토리지 , S3 데이터 레이크, 데이터베이스에 저장된 데이터에 대해 쿼리를 수행할 수 있다.

이때 수행되는 쿼리에 맞게 자동으로 컴퓨팅 리소스가 할당된다.


3

사용해보기~ 3가지


S3 URI 지정하고 iam role을 지정하자.

쿼리 하자


6

스키마를 만들고, 데이터 카탈로그에 저장된 데이터를 가져온다.


7

데이터베이스에 연결하기 위해 external 스키마를 사용하자.

데이터베이스 이름, 포트 uri를 적는다.  부하를 주지 않기 위해 리드 온리를 지정한다.

iam role과 ARN을 지정한다.


8

데이터 공유?

서버리스 엔드포인트를 통해 실시간으로 안전하게 공유한다.


9

비용?

컴퓨팅과 스토리지 분리되어 있다.

컴퓨팅은   Redshift Porcessing Unit ( RPU)

RPU 단위를 통해   초당 사용한  RPU 사용량에 대해 시간 단위로 과금

S3   데이터 레이크에 대한 쿼리도 RPU 단위로 과금


10

최대 처리량과 최대 사용량을 제한할 수 있다.!

일/주/월별    RPU 최대 사용량 제한 가능

알람 또는 쿼티 중지



<4> 개인 정리


아키 렉처 정리?


데이터 레이크 S3 ------  글루------- 아테나 ------ 쿽사이트

데이터 레이크 S3  ----    글루 --------- 레드쉬프트 서버리스 ---------- 퀵 사이트

데이터 레이크 S3  ----    글루 ---------  EMR  서버 리스




https://brunch.co.kr/@topasvga/2439



감사합니다.

매거진의 이전글 6탄-2. 실전! 대용량 데이터를 이용한 초거대 모델
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari