brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jan 30. 2023

26탄-3. AWS Glue 4.0

<1> AWS Glue 4.0 업데이트 사항

<2> AWS Glue  Data Quality (Preview)

<3> AWS Glue  for Ray  (Preview)

<4> 정리



<1> AWS Glue 4.0 업데이트 사항


AWS Glue란?

분석, 기계 학습 및 애플리케이션을 위해 여러 소스 S3 , RDS 등 에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한

서버리스 데이터 통합 서비스이다.


1

업데이트 엔진 

Apache Spark 3.3.0 및 파이썬 3.0 이상 엔진 지원


2

New Data Formats 지원 

3가지 오픈 소스 데이터 레이크 프레임 워크 지원

Apache Hudi , Apache Iceberg, Delta Lake데이블 포맷과의  연결 지원.


AWS Glue 4.0 - New Data Formats연결 방법?

AWS Glue Studio > AWS Markerplace로 이종  Apache Hudi Connector fro AWS Glue 선택


3

AWS Glue 4.0은 서울리전 사용가능함



<2> AWS Glue  Data Quality (Preview)


1

AWS Glue  Data Quality 란?

데이터 레이크 및 데이터 파이프라인 품질을 자동으로 측정하고 모니터링하는 기능

데이터를 자동으로 분석하여 데이터 통계를 계산하고 수집함.

품질 저하된 것을 감지하면 사용자에게 알림.


2

데이터 품질 정의 언어 (DQDL ) : 데이터 품질 규칙을 작성하는 데 사용할 수 있는 도메인별 언더.


3

현재 서울리전 사용 불가 (2023년 1월 말 현재)

현재 사용 가능 리전  4곳?

US EAST (Ohio, N.Virginai) , US West (Oregon), Asia (Tokyo) , Europe(Ireland)   



<3> AWS Glue  for Ray  (Preview)


1

AWS Glue  for Ray 란?

Ray(ray.io)는 AI 및  Python워크로드를 확장할 수 있는 새로운 오픈 소스 컴퓨팅 프레임 워크로, 

AWS Glue의 새로운 엔진 옵션으로 Ray를 제공하여 데이터 통합을 위한 서버리스 옵션을 결함함.


2

AWS Glue  for Ray 사용하려는 이유?

작업 병렬 애플리케이션  가능 (여러 변환을 병렬로 적용하려는 경우)

파이선 워크로드 속도를 높이고 , 파이썬 네이티브 라이브러리를 사용.


3

2023년 1월 말 현재  서울리전 미지원

현재 사용 가능 리전  4곳?

US EAST (Ohio, N.Virginai) , US West (Oregon), Asia (Tokyo) , Europe(Ireland)   



다음 과정

https://brunch.co.kr/@topasvga/2986


감사합니다.




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari