Amazon Athena와 Glue로 시작하는 쉬운 분석 서비스
<1> 모던 데이터 전략
<2> Amazon Athena , 서버리스 대화형 쿼리 서비스
<3> AWS Glue , 서버리스 데이터 통합 서비스
<4> AWS Glue 세부 기능 4가지?
<5> 데이터 운영 및 실행?
<6> Glue 사용 사례
<7> Amazon Athena , Glue 워크숍
<1> 모던 데이터 전략 3가지
1
현대화
통합
혁신 - 데이터를 통한 혁신
2
데이터 레이크(S3)에 데이터를 저장하고 분석, 머신러닝 하는 것
<2> Amazon Athena , 서버리스 대화형 쿼리 서비스
1
표준 SQL을 사용해 데이터를 쉽게 분석할 수 있는 대화형 쿼리 서비스.
2
서버리스 서비스로 설정이 필요 없다.
쿼리 실행 시에만 요금 지불.
표준 SQL , JDBC, ODBC 드라이버로 아테나에 연결 가능
제로 인프라, 제로 관리.
아테나의 쿼리 편집기 사용
3
테라 바이트당 5달러.
쿼리 실행 시에만 지불.
데이터 압축 및 파티셔닝, 칼럼 형식으로 변환을 통해 쿼리당 최대 30~90% 비용 절감.
실패한 쿼리는 과금되지 않는다.
중지된 쿼리는 스캔된 쿼리만큼만 과금된다.
처음은 S3에 있는 데이터를 쿼리
다른 시스템에 있는 데이터와 같이 쿼리 해 사용 가능하도록 가능해짐.
다이나모 디비, 레드 쉬프트 쿼리도 커넥터로 가능해짐
4
작업 그룹 및 비용 제어?
작업 그룹을 사용하여 계정 내에서 사용자, 팀, 애플리케이션을 격리.
작업 그룹 내에서 쿼리를 실행할 수 있는 IAM 기반 정책 제어 설정 가능
작업 그룹 수준에서 데이터 사용 제어 또는 임계값을 설정할 수 있다.
5
아테나 새로운 데이터 소스?
Redshift , 다이나모 디비, 다큐 맨트 디비, RDS , Timestream, Cloudwatch , Cloudwatch Metric , Opensearch Service , Neptune , Athena AWS CMDB
SAP HANA , SNOWFlake, Teradata, Oracle , Google Bigquery , Azure Synapse 등
6
연합 쿼리 기능?
아테나 연합 쿼리는 온프레미스 또는 클라우드에서 실행되는 데이터 소스에서 쿼리 하는 데 사용.
데이터 소스 커넥터는 AWS Lambda 함수로 배포
사전에 구축된 커넥터를 사용하거나 아테나 SDK로 직접 구축 가능
7
사용 사례 : 다양한 소스들의 데이터 결합
고객 메타데이터 ----- 아테나 사용
DW
8
사용 사례 : 서버리스 데이터 레이크 분석
S3 ------- Glue crawler -------- glue data catalog ------- 아테나-------- 쿽사이트
<3> AWS Glue , 서버리스 데이터 통합 서비스
1
현황?
데이터를 기하급수적으로 성장
새로운 소스들에서 생성
정점 다양해지는 사용자.
다양한 애플리케이션에서 접근
2
처리방식 2가지?
배치 - 일관 처리 방식
리얼타임 - 실시간 처리 방식
3
문제점?
확장이 어려운 인프라
높은 비용
락인
4
AWS Glue , 서버리스 데이터 통합 서비스
서버리스
모든 사용자를 위한 데이터 통합 환경 제공
비용 효율적 - 사용한 만큼만 지불
복잡한 워크로드 처리
락인 없음 - 오픈 소스 SparkSQL , PySpark 및 Scala에서 데이터 통합 파이프라인 개발, 자유롭게 마이그레이션 가능
5
통합?
데이터 커넥트
카탈 로그
데이터를 필요한 형태로 가공 - Glue Studio
6
데이터 통합 현대화가 어려운 이유?
확장하기 어려움
비싼 라이선스
벤더 락인
Spark 구축 시 높은 총 소유 비용
클러스트 조정 및 관리 필요
<4> AWS Glue 세부 기능 4가지?
서버리스 데이터 통합 엔진
데이터 탐색
데이터 변환
데이터 파이프라인 운영
1
서버리스 데이터 통합 엔진 - Glue 3.0?
빠른 실행
예측 가능 - S3 기반 셔플 기능으로 예측 가능한 실행.
Auto Scaling - Glue 3.0
2
데이터 탐색?
Glue Connectors - 다양한 데이터 소스에 연결
Glue Crawlers - 자동으로 스키마 탐색
Glue Data Catalog - 메타 데이터를 저장하고 관리
Glue Schema Registry - 스트림 데이터 스키마를 중앙에서 검색, 제어 및 발전
Glue Connectors - RDS , Redshift , 하이브, 데이터 레이크, 다이나모 디비, 오라클 커넥터 지원
Glue Crawlers - 자동으로 스키마 탐색. 정형 및 반정형 데이터 탐색하여 카탈로그를 생성할 수 있도록 함.
Glue Data Catalog - 메타 데이터를 저장하고 관리
3
데이터 변환?
실시간 및 일괄 데이터 정리 및 준비
4
AWS Glue Studio : 시각적 ETL 인터페이스
코딩 없이 AWS Glue작업을 시각적으로 작성
5
AWS Glue DataBrew : 시각적 데이터 준비 도구
분석 및 머신러닝을 위한 시각적 데이터 준비 도구
시각적 인터페이스로 데이터 정리 및 정규화
코드 작성 없이 250개 이상의 기본 변환 기능 제공
<5> 데이터 운영 및 실행?
Glue Workflows - 스케줄, 온디맨드 또는 이벤트별로 Glue작업 오케스트레이션
Glue APIs를 사용하면 , CI/CD파이프라인 구축을 프로그래밍 방식 제어
Glue Monitoring은 작업을 쉽게 모니터링할 수 있도록 한다.
1
Glue Workflows
데이터 작업을 쉽게 오케스트레이션
이벤트 기반으로 작업, 트리거 예약
한 곳에서 워크플로우 실행을 모니터링
2
Glue Monitoring
작업 상태 확인을 위한 모니터링 대시보드
<6> Glue 사용 사례
1
사례1
온프레미스 ETL 도구를 모던화하여 데이터 웨어하우스로 로드 ?
S3----------AWS Glue --------Enterprise DW -------- 비즈니스 인텔리전스
2
사례2
머신러닝을 위한 원시 데이터 준비 ?
데이터
(로그, app 데이터
rds
다른 데이터베이스
온프라미스 데이터
스트리밍 데이터 )
데이터 -- AWS Glue , ingest 수집 ---- 원시 데이터 S3 --- AWS Glue , Transform 변환 ---- 정리 밍 보강된 데이터 S3저장 ---- Glue Catalog
<7> Amazon Athena , Glue 워크숍
1
Amazon Athena
https://github.com/awskrug/athena-workshop
2
Glue workshop
https://github.com/emrspecialistsamer/aws-glue-workshop
다음 과정
https://brunch.co.kr/@topasvga/2689
https://brunch.co.kr/@topasvga/2678
감사합니다.