26탄-9. Redshift 신기능

by Master Seo

Feb 1. 2023

<1> Redshift?

<2> Redshift Streaming Ingrestion 기능

<3> Redshift Streaming Ingrestion 테스트 순서

<4> 아키텍처 간소화

<5> Auto-copy from Amazon S3(Preview)

<6> Auto-copy from Amazon S3(Preview) 테스트 순서

<7> Redshift Multi-AZ (Preview)

<8> 보안 관련 Dynamic data masking (Preview)

<9> Redshift intergration for Apach Spark

<10> AWS Backup에 Redshift 가 추가

<11> Aurora zero-ETL intergraton with Amazon Redshift (Limited previrew)

<1> Redshift?

완전 관리형 페타 바이트급 Data Warehouse 서비스

컴퓨팅과 스토리지가 분리된 아키텍처이며 Auto Scaling 기능, 확장성.

<2> Redshift Streaming Ingrestion 기능

스티리밍 수집 기능

Kinesis Data Streams , Amazon MSK에서 Redshift Materialized view로 초당 수 백 MB의 데이터를 수집하고 수 초내 쿼리 할 수 있다.

Streaming Ingrestion 기능 사용을 위해서 스트리밍 객체를 참조하는 MV생성이 필요하다.

MV , Materialized View란 하나 이상의 테이블에 대한 SQL 쿼리를 기반으로 사전 계산된 결과 집합이 포함되는 view입니다.

<3> Redshift Streaming Ingrestion 테스트 순서

Kinesis Data Streams 생성

Redshift 클러스터 생성

Kinesis 외부 스키마 생성

해당 스키마를 참조하는 MV생성

스트리밍 데이터를 읽을 Materialized View 생성

Cloud9에서 스티리밍 데이터를 생성하고, Kinesis Data Streams에 전송

데이터 쿼리하여 Redshift에서 스트리밍 데이터 확인하자

<4> 아키텍처 간소화

OLD Pipeline

Kinesis Data Streams --------Kinesis Firehose -------S3--------COPY---Redshift

New Pipeline

Kinesis Data Streams ---------Redshift

<5> Auto-copy from Amazon S3(Preview)

COPY명령어를 통해 S3, EMR 또는 remote host에 있는 데이터를 Redshift 내 테이블로 로드할 수 있습니다.

Auto-copy 명령어는 Redshift 가 특정 S3패스에 파일이 추가되면 탐지하고 명령어가 실행됩니다.

2022년 2월 현재 사용 가능한 리전은 미국, 일본, 아일랜드로 한정된다.

<6> Auto-copy from Amazon S3(Preview) 테스트 순서

레드쉬프트에 타깃 테이블 스카마 생성

S3에 CSV포맷으로 업로드

데이터 확인

COPY명령어로 S3 내 데이터 로드

레드쉬프트 테이블 내에서 올라간 것 확인

Auto-copy를 위한 job 생성

레드쉬프트 데이터 삭제

다시, S3에 파일 업로드

job이 자동으로 s3 경로 내 파일 인식하여 업데이트.

<7> Redshift Multi-AZ (Preview)

Redshift Multi-AZ 활성화

Redshift 클러스터 생성 시 Multi-AZ YES로 생성하면 된다.

Redshift Multi-AZ 활성화 확인

어떤 쪽이 프라이머리인즈 확인한다.

장애 테스트를 위한 Inject Failure 실행.

Inject Failure 클릭하여, 하나의 가용 영역에 장애를 발생시켜 본다.

프라이머리가 넘어간 것을 확인한다.

<8> 보안 관련 Dynamic data masking (Preview)

Dynamic data masking (DDM)을 활용하면 Redshift 내 민감한 데이터가 쿼리시 보이는 방식을 제어할 수 있다.

2022년 2월 현재 사용 가능한 리전은 미국, 일본, 아일랜드로 한정된다.

테스트 순서 ?

Redshift에 테스트 데이터 입력

마스킹 정책 생성

마스킹 정책 적용

마스킹 정책 리스트 확인

확인 - 마스킹된 것을 확인한다.

<9> Redshift intergration for Apach Spark

Redshift 아파치 스파크 통합

아파치 스파크는 빅데이터 워크로드에 사용되는 오픈 소스 분산 처리 시스템입니다.

Redshift에서 손쉽게 Spark애플리케이션을 빌드하고 실행 가능.

모든 리전에 사용 가능.

EMR6.9 , Glue4.0을 지원한다.

<10> AWS Backup에 Redshift 가 추가

Backup에 Redshift 가 추가 됨.

Redshift에 대한 백업을 자동화 가능함

<11> Aurora zero-ETL intergraton with Amazon Redshift (Limited previrew)

Aurora zero-ETL 통합 기능을 통해 Aurora 내 데이터를 몇 초 이내에 Redshift에서 쿼리 할 수 있다.

Redshift에서 Autora내 PB급 데이터를 준 실시간 분석 및 ML용도로 활용가능하다.

2023년 2월 현재 버라이전 리전만 사용가능하다.

다음 과정

https://brunch.co.kr/@topasvga/2992

10. 빨라진 Lambda SnapStart

<1> 람다? <2> 람다 한계? <3> 람다의 생명 주기 <4> Lambda SnapStart 활성화 <1> 람다? 1 서버리스 컴퓨팅 서비스 2 이미지--------- S3 ------- 이벤트발생에 대한 트리거로 람다 실행-----(사이즈 변환)----

https://brunch.co.kr/@topasvga/2992

감사합니다.

keyword

매거진의 이전글26탄-8. 개인정보 안전 CloudWatch logs26탄-10. 빨라진 Lambda SnapStart매거진의 다음글