brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Feb 07. 2023

28탄-6. AWS 리인벤트- 신규 Analytics

AWS 리인벤트 2023

분석 서비스  방향성 - 서버리스, Zero ETL 


이미지 출처 :  AWS RE:CAP


<1> Analytice 신규 서비스

<2> EMR  기능 업데이트 

<3> Amazon Redshift

<4> AWS Glue

<5> Amazon Athena 

<6> Amazon QuickSight

<7> Amazon Kinesis

<8> Amazon MSK 

<9>  AWS Lake Formation 



<1> Analytice 신규 서비스


1

AWS OpenSearch Serverless?

AWS OpenSearch 서비스로 실시간 검색, 모니터링 및 운영 데이터 분석 

안전하게 수행


2

Amazon DataZone?

기업 내 데이터 공유나 데이터 기반 협업 시 사용하는 거버넌스 서비스이다.

많은 데이터를 필요에 따라 잘 찾아낼 수 있어야 하는데 , 이를 위해 Data Mesh를 위한 중앙 집중식 통합 거버넌스

전사 레벨 비즈니스 데이터 카탈로그

권한 관리


3

AWS Clean Rooms?

여러 기업 간의 데이터 공유 협업.

원본 데이터  복사 없이 수 분만에 클린룸 구축한다.


다자간 협업

AWS상 데이터 이동 없음.

질의 제어 및 집행

암호화된 컴퓨팅

프로그래밍 방식 액세스



<2> EMR  기능 업데이트 


더 빠른 Amazon EMR 클러스터 시작


1

프라이빗 서브넷의 EC2 클러스터에서 EMR 시작 시  시간 최대 30% 단축


2

EC2 클러스터에서 EMR의 작업 노드 시작 시간 최대 30% 단축


3

EBS GP3 볼륨으로 비용 절감.




<3> Amazon Redshift


1

Support for auto-copy from amazon S3?


S3에서 Redshift로 적재가 쉬워짐.

Amazon S3에서 자동화된 파일적재 

S3-------Redshift copy job ---Redshift Table


2

Amazon Aurora zero-ETL intergration with Amazon redshift


복잡한 ETL 파이프라인 구축 및 운영 부담 제거.

Amazon Aurora의 페타 규모 트랜잭션 데이터에 대한 준실시간 분석 및 머신러닝

여러 Amazon Aurora 데이터베이스에서 통합된 데이터로 Amazon Redshift 고급 분석을 이용하여 인사이트 도축


3

Amazon Redshift streaming ingestion support?

신시간 분석을 위해 데이터웨어하우스에 스트리밍 데이터 적재.


구성

Kinesis Data Stream (KDS)------------------------------------- REDSHIFT 

Managed Streaming for Apache Kafka (MSK)


Kinesis Data Stream (KDS) ,  Managed Streaming for Apache Kafka (MSK)의 데이터를 S3에 임시 저장하지 않고 바로 적재.


4

Amazon Redshift integeation for Apach Spark?


Amazon Redshift 데이터에 액세스 하는 AWS 분석 서비스의 Apache Spark애플리케이션 간소화와 속도 향상.


구성?


AWS Glue / Amazone EMR --------Spark용 사전 패키징된 Redshift Connector --Amazon Redshift



5

Amazon Redshift  Multi-AZ?


하나의 가용 영역에서 장애 발생해도 다른 가용 영역에서 처리된다.

단일 엔드포인트를 통해 손쉬운 관리.

Active-Active로 동작.

수동 개입과 데이터 손실 없는 자동 장애 조치.

AZ 간 워크 로드 처리.


6

Data sharing access control with Amazon Lake Formation?


Amazon Lake Formation으로 데이터 공유를 중앙에서 관리.


구성?

Amazon Redshift  ------Amazon Lake Formation ---------Amazon Redshift 


7

Amazon Redshift  support dynamic data masking?


고객이 안전한 수집에서 책임 있는 소비까지 분석 파이프라인 전체에서 민감한 데이터를 보호한다는 목표를 달성하게 해 준다.

마스킹 정책을 관리하여 민감한 데이터를 쉽게 보호하는 기능


8

information Data Loader intergration?


Amazon Redshift   콘솔 탐색 -- information Data Loader 선택해 사용한다.

고성능 데이터  적재

거의 모든 유형의 데이터 지원

원하는 데이터를 수 분 만에 이동

데이터 적재 시 사용한다.



9

SQL Enhancement & migration support?


SUPER 데이터 타입 지원 크기가 1MB 에서 16MB로 증가함.



10

AWS Backup integration?

AWS Backup  과  Amazon Redshift 간의 통합을 통해 Amazon Redshift 리소스에 대한 데이터 보호 관소화.

백업 계획을 구성하여 백업 일정 및 보존 자동화.

원하는 시점을 원하는 포인트로 복구 가능하다.



<4> AWS Glue


1

AWS Glue 4.0 오픈


Apache Spark 3.30

Python 3.10

Scala 2.12


2

오픈 소스 지원?

Hudi, Delta , and Iceberg


3

AWS Glue for Ray?

글루에서 Ray 엔진을 지원한다.

분산 Python 기반의 서버리스 데이터 통합.

글루에서 대량 데이터를 처리.


4

AWS Glue Data Quality?

사용자 데이터 기반한 데이터 품질 규칙 자동 추천



<5> Amazon Athena 


1

Amazon Athena  for Spark 활용 대화형 Spark 애플리케이션 개발


Spark 쓰려면 EMR이나 Glue를 사용해야 하는데 , 노트북 환경에서 Spark 사용 가능하게 됨.

아직 서울리전 미지원 (23년 2월 현재)


2

Amazon Athena  SQL engine v3?

더 저렴한 비용으로 더 빠른 Query 실행.

쿼리 결과 캐슁 기능이 있다.

결과 재사용을 통한 반복 쿼리 수행 가속화.



<6> Amazon QuickSight



1

Amazon QuickSight Expanded API Capabilities?


API확장.

API를 통해  대시보드, 리포트, 분석 및 탬플릿을 SDK로 접근 가능.

기존에는 UI를 통해 사용했었다.

코드로 관리 가능하다.


2

Amazon QuickSight Paginated Reports?

출력 친화적인 리포트 구성을 한다.


3

Amazon QuickSight Q Automated data-Prep?


AI로 자동화된 데이터 준비 기능으로 , 담을 빠르고 간단하게 준비해 기존 대시보드에 반영




<7> Amazon Kinesis


1

AMAZON KINESIS DATA STREAMS의  Data Viewer?


스트리밍 데이터를 별도 개발 없이 동적으로 탐색.

실제 어떤 스트리밍 데이터가 수집되는지 확인하고자 할 때 사용한다.

UI상에서 간단하게 확인이 가능하다.


2

Amazon EventBridge Pipes와 연계?

연계를 위한 코드 개발 불필요.  기존에는 람다 사용.


구성?

SQS / Kinesis Data Streams / DynamoDB /MSK  등 --------- Amazon EventBridge Pipes ------Filter -----Lambda / Step Function / API Gateway 등



3

VPC Flow Log를  Kinesis Data Firehose로 전송?


변경 전 

VPC Flow Log를 Cloudwatch logs 등으로 전송   또는  S3로 저장


변경 후 

VPC Flow Log를 Kinesis Data Firehose로 직접 전달하여, 분석 가능.


4

Kinesis Data Firehose의 OpenSearch Serverless 지원?

Kinesis Data Firehose의 목적지를  OpenSearch Serverless로 지정 가능하다.




<8> Amazon MSK 


1

Amazon MSK  Provisioned에서 Tiered storage 지원?

중개인 저장 공간 부족한 경우의 문제 해결.

중개인 추가 없이 Topic저장 공간 증가.

Tiered storage 지원되는 버전을 선택해야 지원이 된다.



2

 MSK  Serverless 이제 MSK Connect 연동된다.

서버리스 지원.

서울은 아직 미지원.



<9>  AWS Lake Formation 


1

LF-태그 기반 계정 간 데이터 공유시 AWS RAM 지원?

계정간 데이터 공유가 수작업 없이 가능하게 되었다.


2

AWS Data Exchange for  AWS Lake Formation   (Preview)?

타사에서 판매 중인 데이터를 찾아서 구독할 수 있다.

접근 권한을 관리할 수 있다.

간단하게 권한 설정으로 데이터를 구독가능해 빠르게 분석 진행이 가능해진다.



다음은 서버리스

https://brunch.co.kr/@topasvga/3011


감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari