brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Feb 01. 2023

26탄-9. Redshift 신기능

<1> Redshift?

<2> Redshift Streaming Ingrestion 기능

<3> Redshift Streaming Ingrestion 테스트 순서

<4> 아키텍처 간소화

<5> Auto-copy from Amazon S3(Preview)

<6> Auto-copy from Amazon S3(Preview) 테스트 순서

<7> Redshift Multi-AZ (Preview)

<8> 보안 관련  Dynamic data masking  (Preview)

<9> Redshift intergration for Apach Spark

<10> AWS Backup에  Redshift 가 추가 

<11> Aurora zero-ETL intergraton with Amazon Redshift (Limited previrew)




<1> Redshift?


완전 관리형 페타 바이트급  Data Warehouse 서비스

컴퓨팅과 스토리지가 분리된 아키텍처이며 Auto Scaling 기능, 확장성.



<2> Redshift Streaming Ingrestion 기능


1

스티리밍 수집 기능


2

Kinesis Data Streams , Amazon MSK에서 Redshift Materialized view로 초당 수 백 MB의 데이터를 수집하고 수 초내 쿼리 할 수 있다.


3

Streaming Ingrestion 기능 사용을 위해서 스트리밍 객체를 참조하는 MV생성이 필요하다.

MV , Materialized View란 하나 이상의 테이블에 대한 SQL 쿼리를 기반으로 사전 계산된 결과 집합이 포함되는 view입니다.



<3> Redshift Streaming Ingrestion 테스트 순서


1

Kinesis Data Streams 생성


2

 Redshift 클러스터 생성


3

Kinesis 외부 스키마 생성


4

해당 스키마를 참조하는 MV생성

스트리밍 데이터를 읽을 Materialized View 생성


5

Cloud9에서 스티리밍 데이터를 생성하고, Kinesis Data Streams에 전송


6

데이터 쿼리하여 Redshift에서 스트리밍 데이터 확인하자




<4> 아키텍처 간소화


1

OLD Pipeline  

Kinesis Data Streams --------Kinesis Firehose -------S3--------COPY---Redshift


2

New Pipeline

Kinesis Data Streams ---------Redshift




<5> Auto-copy from Amazon S3(Preview)


1

COPY명령어를 통해 S3, EMR 또는 remote host에 있는 데이터를 Redshift 내 테이블로 로드할 수 있습니다.


2

Auto-copy 명령어는 Redshift 가 특정 S3패스에 파일이 추가되면 탐지하고 명령어가 실행됩니다.


3

2022년 2월 현재 사용 가능한 리전은 미국, 일본, 아일랜드로 한정된다.




<6> Auto-copy from Amazon S3(Preview) 테스트 순서


1

레드쉬프트에 타깃 테이블 스카마 생성


2

S3에 CSV포맷으로 업로드


3

데이터 확인


3

COPY명령어로  S3 내 데이터 로드


4

레드쉬프트 테이블 내에서 올라간 것 확인


5

Auto-copy를 위한 job 생성


6

레드쉬프트 데이터 삭제

다시, S3에  파일 업로드 


7

job이 자동으로 s3 경로 내 파일 인식하여 업데이트.




<7> Redshift Multi-AZ (Preview)


1

Redshift Multi-AZ  활성화 

Redshift  클러스터 생성 시 Multi-AZ  YES로 생성하면 된다.


2

Redshift Multi-AZ  활성화  확인

어떤 쪽이 프라이머리인즈 확인한다.


3

장애 테스트를 위한 Inject Failure 실행.

Inject Failure 클릭하여, 하나의 가용 영역에 장애를 발생시켜 본다.


4

프라이머리가 넘어간 것을 확인한다.




<8> 보안 관련  Dynamic data masking  (Preview)


1

 Dynamic data masking (DDM)을 활용하면 Redshift 내 민감한 데이터가 쿼리시 보이는 방식을 제어할 수 있다.


2

2022년 2월 현재 사용 가능한 리전은 미국, 일본, 아일랜드로 한정된다.


3

테스트 순서 ?

Redshift에 테스트 데이터 입력

마스킹 정책 생성

마스킹 정책 적용

마스킹 정책 리스트 확인

확인 - 마스킹된 것을 확인한다.




<9> Redshift intergration for Apach Spark


Redshift 아파치 스파크 통합


1

아파치 스파크는 빅데이터 워크로드에 사용되는 오픈 소스 분산 처리 시스템입니다.


2

Redshift에서 손쉽게 Spark애플리케이션을 빌드하고 실행 가능.


3

모든 리전에 사용 가능.

EMR6.9 , Glue4.0을 지원한다.




<10> AWS Backup에  Redshift 가 추가 


1

Backup에  Redshift 가 추가 됨.


2

Redshift에 대한 백업을 자동화 가능함





<11> Aurora zero-ETL intergraton with Amazon Redshift (Limited previrew)


1

Aurora zero-ETL 통합 기능을 통해 Aurora 내 데이터를 몇 초 이내에 Redshift에서 쿼리 할 수 있다.


2

Redshift에서 Autora내 PB급 데이터를 준 실시간 분석 및 ML용도로 활용가능하다.


3

2023년 2월 현재 버라이전 리전만 사용가능하다.




다음 과정

https://brunch.co.kr/@topasvga/2992


감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari