brunch

26탄-3. AWS Glue 4.0

by Master Seo

<1> AWS Glue 4.0 업데이트 사항

<2> AWS Glue Data Quality (Preview)

<3> AWS Glue for Ray (Preview)

<4> 정리



<1> AWS Glue 4.0 업데이트 사항


AWS Glue란?

분석, 기계 학습 및 애플리케이션을 위해 여러 소스 S3 , RDS 등 에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한

서버리스 데이터 통합 서비스이다.


1

업데이트 엔진

Apache Spark 3.3.0 및 파이썬 3.0 이상 엔진 지원


2

New Data Formats 지원

3가지 오픈 소스 데이터 레이크 프레임 워크 지원

Apache Hudi , Apache Iceberg, Delta Lake데이블 포맷과의 연결 지원.


AWS Glue 4.0 - New Data Formats연결 방법?

AWS Glue Studio > AWS Markerplace로 이종 Apache Hudi Connector fro AWS Glue 선택


3

AWS Glue 4.0은 서울리전 사용가능함



<2> AWS Glue Data Quality (Preview)


1

AWS Glue Data Quality 란?

데이터 레이크 및 데이터 파이프라인 품질을 자동으로 측정하고 모니터링하는 기능

데이터를 자동으로 분석하여 데이터 통계를 계산하고 수집함.

품질 저하된 것을 감지하면 사용자에게 알림.


2

데이터 품질 정의 언어 (DQDL ) : 데이터 품질 규칙을 작성하는 데 사용할 수 있는 도메인별 언더.


3

현재 서울리전 사용 불가 (2023년 1월 말 현재)

현재 사용 가능 리전 4곳?

US EAST (Ohio, N.Virginai) , US West (Oregon), Asia (Tokyo) , Europe(Ireland)



<3> AWS Glue for Ray (Preview)


1

AWS Glue for Ray 란?

Ray(ray.io)는 AI 및 Python워크로드를 확장할 수 있는 새로운 오픈 소스 컴퓨팅 프레임 워크로,

AWS Glue의 새로운 엔진 옵션으로 Ray를 제공하여 데이터 통합을 위한 서버리스 옵션을 결함함.


2

AWS Glue for Ray 사용하려는 이유?

작업 병렬 애플리케이션 가능 (여러 변환을 병렬로 적용하려는 경우)

파이선 워크로드 속도를 높이고 , 파이썬 네이티브 라이브러리를 사용.


3

2023년 1월 말 현재 서울리전 미지원

현재 사용 가능 리전 4곳?

US EAST (Ohio, N.Virginai) , US West (Oregon), Asia (Tokyo) , Europe(Ireland)



다음 과정

https://brunch.co.kr/@topasvga/2986


감사합니다.




keyword
매거진의 이전글26탄-2. CloudWatch 인터넷 상태를 모니터링