brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Sep 05. 2022

16탄-8. Amazon Athena와 Glue로 시작

Amazon Athena와 Glue로 시작하는 쉬운 분석 서비스



<1> 모던 데이터 전략 

<2> Amazon Athena , 서버리스 대화형 쿼리 서비스

<3> AWS Glue , 서버리스 데이터 통합 서비스 

<4> AWS Glue  세부 기능 4가지?

<5> 데이터 운영 및 실행?

<6> Glue  사용 사례  

<7> Amazon Athena ,  Glue 워크숍





<1> 모던 데이터 전략  3가지


1

현대화

통합

혁신 - 데이터를 통한 혁신


2

데이터 레이크(S3)에 데이터를 저장하고  분석, 머신러닝 하는 것




<2> Amazon Athena , 서버리스 대화형 쿼리 서비스


1

표준 SQL을 사용해 데이터를 쉽게 분석할 수 있는 대화형 쿼리 서비스.


2

서버리스 서비스로 설정이 필요 없다.

쿼리 실행 시에만 요금 지불.

표준 SQL , JDBC, ODBC  드라이버로 아테나에 연결 가능

제로 인프라, 제로 관리.

아테나의 쿼리 편집기 사용


3

테라 바이트당 5달러.

쿼리 실행 시에만 지불.

데이터 압축 및 파티셔닝, 칼럼 형식으로 변환을 통해 쿼리당 최대 30~90% 비용 절감.

실패한 쿼리는 과금되지 않는다.

중지된 쿼리는 스캔된 쿼리만큼만 과금된다.

처음은 S3에 있는 데이터를 쿼리

다른 시스템에 있는 데이터와 같이 쿼리 해 사용 가능하도록 가능해짐. 

다이나모 디비, 레드 쉬프트 쿼리도  커넥터로 가능해짐


4

작업 그룹 및 비용 제어?

작업 그룹을 사용하여 계정 내에서 사용자, 팀, 애플리케이션을 격리.

작업 그룹 내에서 쿼리를 실행할 수 있는 IAM 기반 정책 제어 설정 가능

작업 그룹 수준에서 데이터 사용 제어 또는 임계값을 설정할 수 있다.


5

아테나 새로운 데이터 소스?


Redshift , 다이나모 디비, 다큐 맨트 디비, RDS , Timestream, Cloudwatch , Cloudwatch Metric , Opensearch Service , Neptune , Athena AWS CMDB

SAP HANA , SNOWFlake, Teradata, Oracle , Google Bigquery , Azure Synapse  등


6

연합 쿼리 기능?

아테나 연합 쿼리는 온프레미스 또는 클라우드에서 실행되는 데이터 소스에서 쿼리 하는 데 사용.

데이터 소스 커넥터는 AWS Lambda 함수로 배포

사전에 구축된 커넥터를 사용하거나 아테나 SDK로 직접 구축 가능



7

사용 사례 : 다양한 소스들의 데이터 결합


고객 메타데이터  ----- 아테나 사용

DW



8

사용 사례 : 서버리스 데이터 레이크 분석


S3 ------- Glue crawler -------- glue data catalog  -------  아테나-------- 쿽사이트




<3> AWS Glue , 서버리스 데이터 통합 서비스 


1

현황?

데이터를 기하급수적으로 성장

새로운 소스들에서 생성

정점 다양해지는 사용자.

다양한 애플리케이션에서 접근


2

처리방식 2가지?

배치 - 일관 처리 방식

리얼타임 - 실시간  처리 방식



3

문제점?

확장이 어려운 인프라

높은 비용

락인


4

 AWS Glue , 서버리스 데이터 통합 서비스 

서버리스

모든 사용자를 위한 데이터 통합 환경 제공 

비용 효율적 - 사용한 만큼만 지불

복잡한 워크로드 처리

락인 없음 - 오픈 소스  SparkSQL , PySpark 및 Scala에서 데이터 통합 파이프라인 개발, 자유롭게 마이그레이션 가능


5

통합?

데이터 커넥트

카탈 로그

데이터를 필요한 형태로 가공 - Glue Studio 


6

데이터 통합 현대화가 어려운 이유?

확장하기 어려움

비싼 라이선스

벤더 락인

Spark 구축 시 높은 총 소유 비용

클러스트 조정 및 관리 필요




<4> AWS Glue  세부 기능 4가지?


서버리스 데이터 통합 엔진

데이터 탐색

데이터 변환

데이터 파이프라인 운영



1

서버리스 데이터 통합 엔진 - Glue 3.0?

빠른 실행

예측 가능 - S3 기반 셔플 기능으로 예측 가능한 실행.

 Auto Scaling - Glue 3.0


2

데이터 탐색?

Glue Connectors -  다양한 데이터 소스에 연결 

Glue Crawlers - 자동으로 스키마 탐색

Glue Data Catalog -  메타 데이터를 저장하고 관리

Glue Schema Registry - 스트림 데이터 스키마를 중앙에서 검색, 제어 및 발전


Glue Connectors -   RDS , Redshift , 하이브, 데이터 레이크, 다이나모 디비, 오라클 커넥터 지원

Glue Crawlers - 자동으로 스키마 탐색. 정형 및 반정형 데이터 탐색하여 카탈로그를 생성할 수 있도록 함.

Glue Data Catalog -  메타 데이터를 저장하고 관리



3

데이터 변환?

실시간 및 일괄 데이터 정리 및 준비


4

AWS Glue Studio : 시각적   ETL  인터페이스

코딩 없이   AWS Glue작업을 시각적으로 작성


5

AWS Glue DataBrew : 시각적 데이터 준비 도구

분석 및 머신러닝을 위한 시각적 데이터 준비 도구

시각적 인터페이스로 데이터 정리 및 정규화

코드 작성 없이 250개 이상의 기본 변환 기능 제공



<5> 데이터 운영 및 실행?


Glue Workflows -  스케줄, 온디맨드 또는 이벤트별로 Glue작업 오케스트레이션

Glue APIs를 사용하면 ,  CI/CD파이프라인 구축을 프로그래밍 방식 제어

Glue Monitoring은  작업을 쉽게 모니터링할 수 있도록 한다.



1

Glue Workflows

데이터 작업을 쉽게 오케스트레이션

이벤트 기반으로 작업, 트리거 예약

한 곳에서 워크플로우 실행을 모니터링



2

Glue Monitoring 

작업 상태 확인을 위한 모니터링 대시보드




<6> Glue  사용 사례  


1

사례1

온프레미스 ETL 도구를 모던화하여 데이터 웨어하우스로 로드 ?


S3----------AWS Glue --------Enterprise DW --------  비즈니스 인텔리전스



2

사례2

머신러닝을 위한 원시 데이터 준비 ?


데이터

(로그, app 데이터

rds

다른 데이터베이스

온프라미스 데이터

스트리밍 데이터 )


데이터 --  AWS Glue , ingest 수집 ----  원시 데이터 S3 --- AWS Glue , Transform 변환 ---- 정리 밍 보강된 데이터 S3저장 ---- Glue Catalog 





<7> Amazon Athena ,  Glue 워크숍


1

Amazon Athena

https://github.com/awskrug/athena-workshop

https://catalog.us-east-1.prod.workshops.aws/workshops/9981 f1 a 1-abdc-49b5-8387-cb01 d238 bb78/en-US


2

Glue workshop

https://github.com/emrspecialistsamer/aws-glue-workshop






다음 과정


https://brunch.co.kr/@topasvga/2689





https://brunch.co.kr/@topasvga/2678



감사합니다.


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari