서버 리스 분석 서비스 정리!
서버리스 데이터 레이크
Amazon EMR Serverless (Preview 단계)
Amazon Redshift Serverless (Preview 단계)
<1> S3를 서버리스 데이터 레이크로
<2> Amazone EMR 서버리스 (Preview 단계)
<3> Amazon Redshift Serverless (Preview 단계)
<4> 개인 정리
<1> S3를 서버리스 데이터 레이크로
1
데이터 웨어 하우징 , 분석, 머신러닝 데이터를 S3 Data Lake에 저장한다.
2
데이터 분석 기본 구성은?
데이터 레이크 --------- 글루 ----------- 아테나----------- 퀵 사이트
3
글루 사용은?
S3에 있는 데이터를 탐색하고 데이터 스키마를 파악 , 카탈로그로 관리
4
아테나 사용은?
s3에 SQL 쿼리를 던져 분석한다.
5
퀵 사이트 사용은?
BI 대시보드를 구성한다.
조직에 인사이트를 제공한다.
아테나를 연결하여 S3의 데이터를 시각화
기간 필터링, 다양한 차트, 대시보드 공유와 알람
<2> Amazone EMR 서버리스 (Preview 단계)
1
EMR 은 최신의 런타임을 사용하는 것으로 속도가 빨라진다.
EMR 6.3 , EMR 6.4
2
사용한 워커 리소스만큼 비용을 지불한다.
처음 10개 워커 사용 + 다음 10분간 40개 워커 사용 비용
과금은?
1분 단위
사용한 vCPU개수+메모리량+스토리지 사용량
3
데이터 분석 기본 구성에 EMR Serverless , Redshift Serverless를 추가해보자
<3> Amazon Redshift Serverless (Preview 단계)
1
Amazon Redshift?
데이터 분석에 집중할 수 있는 데이터 웨어 하우스입니다.
연합 쿼리 = 페더레이션 쿼리를 지원하기 때문에 데이터베이스에 저장된 데이터에 대해서 쿼리를 수행, 뷰를 생성 가능.
글루 데이터 카탈로그의 데이터베이스를 참조하여 S3 데이터 레이크에 적재된 데이터들에 대해서 쿼리를 분석할 수 있다.
시각화 가능
2
Amazon Redshift Serverless?
클러스터를 생성하거나 관리할 필요가 없다.
실행한 쿼리에 맞는 컴퓨팅 리소스가 할당된다.
특징?
레드 쉬프트 관리형 스토리지 , S3 데이터 레이크, 데이터베이스에 저장된 데이터에 대해 쿼리를 수행할 수 있다.
이때 수행되는 쿼리에 맞게 자동으로 컴퓨팅 리소스가 할당된다.
3
사용해보기~ 3가지
S3 URI 지정하고 iam role을 지정하자.
쿼리 하자
6
스키마를 만들고, 데이터 카탈로그에 저장된 데이터를 가져온다.
7
데이터베이스에 연결하기 위해 external 스키마를 사용하자.
데이터베이스 이름, 포트 uri를 적는다. 부하를 주지 않기 위해 리드 온리를 지정한다.
iam role과 ARN을 지정한다.
8
데이터 공유?
서버리스 엔드포인트를 통해 실시간으로 안전하게 공유한다.
9
비용?
컴퓨팅과 스토리지 분리되어 있다.
컴퓨팅은 Redshift Porcessing Unit ( RPU)
RPU 단위를 통해 초당 사용한 RPU 사용량에 대해 시간 단위로 과금
S3 데이터 레이크에 대한 쿼리도 RPU 단위로 과금
10
최대 처리량과 최대 사용량을 제한할 수 있다.!
일/주/월별 RPU 최대 사용량 제한 가능
알람 또는 쿼티 중지
<4> 개인 정리
아키 렉처 정리?
데이터 레이크 S3 ------ 글루------- 아테나 ------ 쿽사이트
데이터 레이크 S3 ---- 글루 --------- 레드쉬프트 서버리스 ---------- 퀵 사이트
데이터 레이크 S3 ---- 글루 --------- EMR 서버 리스
https://brunch.co.kr/@topasvga/2439
감사합니다.