AWS 리인벤트 2023
분석 서비스 방향성 - 서버리스, Zero ETL
이미지 출처 : AWS RE:CAP
1
AWS OpenSearch Serverless?
AWS OpenSearch 서비스로 실시간 검색, 모니터링 및 운영 데이터 분석
안전하게 수행
2
Amazon DataZone?
기업 내 데이터 공유나 데이터 기반 협업 시 사용하는 거버넌스 서비스이다.
많은 데이터를 필요에 따라 잘 찾아낼 수 있어야 하는데 , 이를 위해 Data Mesh를 위한 중앙 집중식 통합 거버넌스
전사 레벨 비즈니스 데이터 카탈로그
권한 관리
3
AWS Clean Rooms?
여러 기업 간의 데이터 공유 협업.
원본 데이터 복사 없이 수 분만에 클린룸 구축한다.
다자간 협업
AWS상 데이터 이동 없음.
질의 제어 및 집행
암호화된 컴퓨팅
프로그래밍 방식 액세스
<2> EMR 기능 업데이트
더 빠른 Amazon EMR 클러스터 시작
1
프라이빗 서브넷의 EC2 클러스터에서 EMR 시작 시 시간 최대 30% 단축
2
EC2 클러스터에서 EMR의 작업 노드 시작 시간 최대 30% 단축
3
EBS GP3 볼륨으로 비용 절감.
<3> Amazon Redshift
1
Support for auto-copy from amazon S3?
S3에서 Redshift로 적재가 쉬워짐.
Amazon S3에서 자동화된 파일적재
S3-------Redshift copy job ---Redshift Table
2
Amazon Aurora zero-ETL intergration with Amazon redshift
복잡한 ETL 파이프라인 구축 및 운영 부담 제거.
Amazon Aurora의 페타 규모 트랜잭션 데이터에 대한 준실시간 분석 및 머신러닝
여러 Amazon Aurora 데이터베이스에서 통합된 데이터로 Amazon Redshift 고급 분석을 이용하여 인사이트 도축
3
Amazon Redshift streaming ingestion support?
신시간 분석을 위해 데이터웨어하우스에 스트리밍 데이터 적재.
구성
Kinesis Data Stream (KDS)------------------------------------- REDSHIFT
Managed Streaming for Apache Kafka (MSK)
Kinesis Data Stream (KDS) , Managed Streaming for Apache Kafka (MSK)의 데이터를 S3에 임시 저장하지 않고 바로 적재.
4
Amazon Redshift integeation for Apach Spark?
Amazon Redshift 데이터에 액세스 하는 AWS 분석 서비스의 Apache Spark애플리케이션 간소화와 속도 향상.
구성?
AWS Glue / Amazone EMR --------Spark용 사전 패키징된 Redshift Connector --Amazon Redshift
5
Amazon Redshift Multi-AZ?
하나의 가용 영역에서 장애 발생해도 다른 가용 영역에서 처리된다.
단일 엔드포인트를 통해 손쉬운 관리.
Active-Active로 동작.
수동 개입과 데이터 손실 없는 자동 장애 조치.
AZ 간 워크 로드 처리.
6
Data sharing access control with Amazon Lake Formation?
Amazon Lake Formation으로 데이터 공유를 중앙에서 관리.
구성?
Amazon Redshift ------Amazon Lake Formation ---------Amazon Redshift
7
Amazon Redshift support dynamic data masking?
고객이 안전한 수집에서 책임 있는 소비까지 분석 파이프라인 전체에서 민감한 데이터를 보호한다는 목표를 달성하게 해 준다.
마스킹 정책을 관리하여 민감한 데이터를 쉽게 보호하는 기능
8
information Data Loader intergration?
Amazon Redshift 콘솔 탐색 -- information Data Loader 선택해 사용한다.
고성능 데이터 적재
거의 모든 유형의 데이터 지원
원하는 데이터를 수 분 만에 이동
데이터 적재 시 사용한다.
9
SQL Enhancement & migration support?
SUPER 데이터 타입 지원 크기가 1MB 에서 16MB로 증가함.
10
AWS Backup integration?
AWS Backup 과 Amazon Redshift 간의 통합을 통해 Amazon Redshift 리소스에 대한 데이터 보호 관소화.
백업 계획을 구성하여 백업 일정 및 보존 자동화.
원하는 시점을 원하는 포인트로 복구 가능하다.
<4> AWS Glue
1
AWS Glue 4.0 오픈
Apache Spark 3.30
Python 3.10
Scala 2.12
2
오픈 소스 지원?
Hudi, Delta , and Iceberg
3
AWS Glue for Ray?
글루에서 Ray 엔진을 지원한다.
분산 Python 기반의 서버리스 데이터 통합.
글루에서 대량 데이터를 처리.
4
AWS Glue Data Quality?
사용자 데이터 기반한 데이터 품질 규칙 자동 추천
<5> Amazon Athena
1
Amazon Athena for Spark 활용 대화형 Spark 애플리케이션 개발
Spark 쓰려면 EMR이나 Glue를 사용해야 하는데 , 노트북 환경에서 Spark 사용 가능하게 됨.
아직 서울리전 미지원 (23년 2월 현재)
2
Amazon Athena SQL engine v3?
더 저렴한 비용으로 더 빠른 Query 실행.
쿼리 결과 캐슁 기능이 있다.
결과 재사용을 통한 반복 쿼리 수행 가속화.
<6> Amazon QuickSight
1
Amazon QuickSight Expanded API Capabilities?
API확장.
API를 통해 대시보드, 리포트, 분석 및 탬플릿을 SDK로 접근 가능.
기존에는 UI를 통해 사용했었다.
코드로 관리 가능하다.
2
Amazon QuickSight Paginated Reports?
출력 친화적인 리포트 구성을 한다.
3
Amazon QuickSight Q Automated data-Prep?
AI로 자동화된 데이터 준비 기능으로 , 담을 빠르고 간단하게 준비해 기존 대시보드에 반영
<7> Amazon Kinesis
1
AMAZON KINESIS DATA STREAMS의 Data Viewer?
스트리밍 데이터를 별도 개발 없이 동적으로 탐색.
실제 어떤 스트리밍 데이터가 수집되는지 확인하고자 할 때 사용한다.
UI상에서 간단하게 확인이 가능하다.
2
Amazon EventBridge Pipes와 연계?
연계를 위한 코드 개발 불필요. 기존에는 람다 사용.
구성?
SQS / Kinesis Data Streams / DynamoDB /MSK 등 --------- Amazon EventBridge Pipes ------Filter -----Lambda / Step Function / API Gateway 등
3
VPC Flow Log를 Kinesis Data Firehose로 전송?
변경 전
VPC Flow Log를 Cloudwatch logs 등으로 전송 또는 S3로 저장
변경 후
VPC Flow Log를 Kinesis Data Firehose로 직접 전달하여, 분석 가능.
4
Kinesis Data Firehose의 OpenSearch Serverless 지원?
Kinesis Data Firehose의 목적지를 OpenSearch Serverless로 지정 가능하다.
<8> Amazon MSK
1
Amazon MSK Provisioned에서 Tiered storage 지원?
중개인 저장 공간 부족한 경우의 문제 해결.
중개인 추가 없이 Topic저장 공간 증가.
Tiered storage 지원되는 버전을 선택해야 지원이 된다.
2
MSK Serverless 이제 MSK Connect 연동된다.
서버리스 지원.
서울은 아직 미지원.
<9> AWS Lake Formation
1
LF-태그 기반 계정 간 데이터 공유시 AWS RAM 지원?
계정간 데이터 공유가 수작업 없이 가능하게 되었다.
2
AWS Data Exchange for AWS Lake Formation (Preview)?
타사에서 판매 중인 데이터를 찾아서 구독할 수 있다.
접근 권한을 관리할 수 있다.
간단하게 권한 설정으로 데이터를 구독가능해 빠르게 분석 진행이 가능해진다.
다음은 서버리스
https://brunch.co.kr/@topasvga/3011
감사합니다.