<1> Redshift?
<2> Redshift Streaming Ingrestion 기능
<3> Redshift Streaming Ingrestion 테스트 순서
<4> 아키텍처 간소화
<5> Auto-copy from Amazon S3(Preview)
<6> Auto-copy from Amazon S3(Preview) 테스트 순서
<7> Redshift Multi-AZ (Preview)
<8> 보안 관련 Dynamic data masking (Preview)
<9> Redshift intergration for Apach Spark
<10> AWS Backup에 Redshift 가 추가
<11> Aurora zero-ETL intergraton with Amazon Redshift (Limited previrew)
<1> Redshift?
완전 관리형 페타 바이트급 Data Warehouse 서비스
컴퓨팅과 스토리지가 분리된 아키텍처이며 Auto Scaling 기능, 확장성.
<2> Redshift Streaming Ingrestion 기능
1
스티리밍 수집 기능
2
Kinesis Data Streams , Amazon MSK에서 Redshift Materialized view로 초당 수 백 MB의 데이터를 수집하고 수 초내 쿼리 할 수 있다.
3
Streaming Ingrestion 기능 사용을 위해서 스트리밍 객체를 참조하는 MV생성이 필요하다.
MV , Materialized View란 하나 이상의 테이블에 대한 SQL 쿼리를 기반으로 사전 계산된 결과 집합이 포함되는 view입니다.
<3> Redshift Streaming Ingrestion 테스트 순서
1
Kinesis Data Streams 생성
2
Redshift 클러스터 생성
3
Kinesis 외부 스키마 생성
4
해당 스키마를 참조하는 MV생성
스트리밍 데이터를 읽을 Materialized View 생성
5
Cloud9에서 스티리밍 데이터를 생성하고, Kinesis Data Streams에 전송
6
데이터 쿼리하여 Redshift에서 스트리밍 데이터 확인하자
<4> 아키텍처 간소화
1
OLD Pipeline
Kinesis Data Streams --------Kinesis Firehose -------S3--------COPY---Redshift
2
New Pipeline
Kinesis Data Streams ---------Redshift
<5> Auto-copy from Amazon S3(Preview)
1
COPY명령어를 통해 S3, EMR 또는 remote host에 있는 데이터를 Redshift 내 테이블로 로드할 수 있습니다.
2
Auto-copy 명령어는 Redshift 가 특정 S3패스에 파일이 추가되면 탐지하고 명령어가 실행됩니다.
3
2022년 2월 현재 사용 가능한 리전은 미국, 일본, 아일랜드로 한정된다.
<6> Auto-copy from Amazon S3(Preview) 테스트 순서
1
레드쉬프트에 타깃 테이블 스카마 생성
2
S3에 CSV포맷으로 업로드
3
데이터 확인
3
COPY명령어로 S3 내 데이터 로드
4
레드쉬프트 테이블 내에서 올라간 것 확인
5
Auto-copy를 위한 job 생성
6
레드쉬프트 데이터 삭제
다시, S3에 파일 업로드
7
job이 자동으로 s3 경로 내 파일 인식하여 업데이트.
<7> Redshift Multi-AZ (Preview)
1
Redshift Multi-AZ 활성화
Redshift 클러스터 생성 시 Multi-AZ YES로 생성하면 된다.
2
Redshift Multi-AZ 활성화 확인
어떤 쪽이 프라이머리인즈 확인한다.
3
장애 테스트를 위한 Inject Failure 실행.
Inject Failure 클릭하여, 하나의 가용 영역에 장애를 발생시켜 본다.
4
프라이머리가 넘어간 것을 확인한다.
<8> 보안 관련 Dynamic data masking (Preview)
1
Dynamic data masking (DDM)을 활용하면 Redshift 내 민감한 데이터가 쿼리시 보이는 방식을 제어할 수 있다.
2
2022년 2월 현재 사용 가능한 리전은 미국, 일본, 아일랜드로 한정된다.
3
테스트 순서 ?
Redshift에 테스트 데이터 입력
마스킹 정책 생성
마스킹 정책 적용
마스킹 정책 리스트 확인
확인 - 마스킹된 것을 확인한다.
<9> Redshift intergration for Apach Spark
Redshift 아파치 스파크 통합
1
아파치 스파크는 빅데이터 워크로드에 사용되는 오픈 소스 분산 처리 시스템입니다.
2
Redshift에서 손쉽게 Spark애플리케이션을 빌드하고 실행 가능.
3
모든 리전에 사용 가능.
EMR6.9 , Glue4.0을 지원한다.
<10> AWS Backup에 Redshift 가 추가
1
Backup에 Redshift 가 추가 됨.
2
Redshift에 대한 백업을 자동화 가능함
<11> Aurora zero-ETL intergraton with Amazon Redshift (Limited previrew)
1
Aurora zero-ETL 통합 기능을 통해 Aurora 내 데이터를 몇 초 이내에 Redshift에서 쿼리 할 수 있다.
2
Redshift에서 Autora내 PB급 데이터를 준 실시간 분석 및 ML용도로 활용가능하다.
3
2023년 2월 현재 버라이전 리전만 사용가능하다.
다음 과정
https://brunch.co.kr/@topasvga/2992
감사합니다.