6탄-1. 김대리는 어떻게 서버 없이 대용량의 데이터

by Master Seo

Jul 4. 2022

서버 리스 분석 서비스 정리!

서버리스 데이터 레이크

Amazon EMR Serverless (Preview 단계)

Amazon Redshift Serverless (Preview 단계)

<1> S3를 서버리스 데이터 레이크로

<2> Amazone EMR 서버리스 (Preview 단계)

<3> Amazon Redshift Serverless (Preview 단계)

<4> 개인 정리

<1> S3를 서버리스 데이터 레이크로

데이터 웨어 하우징 , 분석, 머신러닝 데이터를 S3 Data Lake에 저장한다.

데이터 분석 기본 구성은?

데이터 레이크 --------- 글루 ----------- 아테나----------- 퀵 사이트

글루 사용은?

S3에 있는 데이터를 탐색하고 데이터 스키마를 파악 , 카탈로그로 관리

아테나 사용은?

s3에 SQL 쿼리를 던져 분석한다.

퀵 사이트 사용은?

BI 대시보드를 구성한다.

조직에 인사이트를 제공한다.

아테나를 연결하여 S3의 데이터를 시각화

기간 필터링, 다양한 차트, 대시보드 공유와 알람

<2> Amazone EMR 서버리스 (Preview 단계)

EMR 은 최신의 런타임을 사용하는 것으로 속도가 빨라진다.

EMR 6.3 , EMR 6.4

사용한 워커 리소스만큼 비용을 지불한다.

처음 10개 워커 사용 + 다음 10분간 40개 워커 사용 비용

과금은?

1분 단위

사용한 vCPU개수+메모리량+스토리지 사용량

데이터 분석 기본 구성에 EMR Serverless , Redshift Serverless를 추가해보자

<3> Amazon Redshift Serverless (Preview 단계)

Amazon Redshift?

데이터 분석에 집중할 수 있는 데이터 웨어 하우스입니다.

연합 쿼리 = 페더레이션 쿼리를 지원하기 때문에 데이터베이스에 저장된 데이터에 대해서 쿼리를 수행, 뷰를 생성 가능.

글루 데이터 카탈로그의 데이터베이스를 참조하여 S3 데이터 레이크에 적재된 데이터들에 대해서 쿼리를 분석할 수 있다.

시각화 가능

Amazon Redshift Serverless?

클러스터를 생성하거나 관리할 필요가 없다.

실행한 쿼리에 맞는 컴퓨팅 리소스가 할당된다.

특징?

레드 쉬프트 관리형 스토리지 , S3 데이터 레이크, 데이터베이스에 저장된 데이터에 대해 쿼리를 수행할 수 있다.

이때 수행되는 쿼리에 맞게 자동으로 컴퓨팅 리소스가 할당된다.

사용해보기~ 3가지

S3 URI 지정하고 iam role을 지정하자.

쿼리 하자

스키마를 만들고, 데이터 카탈로그에 저장된 데이터를 가져온다.

데이터베이스에 연결하기 위해 external 스키마를 사용하자.

데이터베이스 이름, 포트 uri를 적는다. 부하를 주지 않기 위해 리드 온리를 지정한다.

iam role과 ARN을 지정한다.

데이터 공유?

서버리스 엔드포인트를 통해 실시간으로 안전하게 공유한다.

비용?

컴퓨팅과 스토리지 분리되어 있다.

컴퓨팅은 Redshift Porcessing Unit ( RPU)

RPU 단위를 통해 초당 사용한 RPU 사용량에 대해 시간 단위로 과금

S3 데이터 레이크에 대한 쿼리도 RPU 단위로 과금

최대 처리량과 최대 사용량을 제한할 수 있다.!

일/주/월별 RPU 최대 사용량 제한 가능

알람 또는 쿼티 중지

<4> 개인 정리

아키 렉처 정리?

데이터 레이크 S3 ------ 글루------- 아테나 ------ 쿽사이트

데이터 레이크 S3 ---- 글루 --------- 레드쉬프트 서버리스 ---------- 퀵 사이트

데이터 레이크 S3 ---- 글루 --------- EMR 서버 리스

https://brunch.co.kr/@topasvga/2439

6탄-(요약)AWS Summit Korea-2022

2022년 5월 | 텍스트로 빠르게 보자~ <10> 네트워크 부분 볼래요~ <20> EKS 부분부터 볼래요~ <30> 마이그레이션 부분 볼래요~ <40> 보안 부분 볼래요~ <50> 금융권 볼래요~ <60> 데이터 부분 볼래요~ <70> 기

https://brunch.co.kr/@topasvga/2439

감사합니다.

keyword

매거진의 이전글6탄-2. 실전! 대용량 데이터를 이용한 초거대 모델6탄-2. Data Lake를 넘어 Data Mesh로매거진의 다음글