<1> AWS Glue 4.0 업데이트 사항
<2> AWS Glue Data Quality (Preview)
<3> AWS Glue for Ray (Preview)
<4> 정리
<1> AWS Glue 4.0 업데이트 사항
AWS Glue란?
분석, 기계 학습 및 애플리케이션을 위해 여러 소스 S3 , RDS 등 에서 데이터를 쉽게 탐색, 준비, 이동 및 통합할 수 있도록 하는 확장 가능한
서버리스 데이터 통합 서비스이다.
1
업데이트 엔진
Apache Spark 3.3.0 및 파이썬 3.0 이상 엔진 지원
2
New Data Formats 지원
3가지 오픈 소스 데이터 레이크 프레임 워크 지원
Apache Hudi , Apache Iceberg, Delta Lake데이블 포맷과의 연결 지원.
AWS Glue 4.0 - New Data Formats연결 방법?
AWS Glue Studio > AWS Markerplace로 이종 Apache Hudi Connector fro AWS Glue 선택
3
AWS Glue 4.0은 서울리전 사용가능함
<2> AWS Glue Data Quality (Preview)
1
AWS Glue Data Quality 란?
데이터 레이크 및 데이터 파이프라인 품질을 자동으로 측정하고 모니터링하는 기능
데이터를 자동으로 분석하여 데이터 통계를 계산하고 수집함.
품질 저하된 것을 감지하면 사용자에게 알림.
2
데이터 품질 정의 언어 (DQDL ) : 데이터 품질 규칙을 작성하는 데 사용할 수 있는 도메인별 언더.
3
현재 서울리전 사용 불가 (2023년 1월 말 현재)
현재 사용 가능 리전 4곳?
US EAST (Ohio, N.Virginai) , US West (Oregon), Asia (Tokyo) , Europe(Ireland)
<3> AWS Glue for Ray (Preview)
1
AWS Glue for Ray 란?
Ray(ray.io)는 AI 및 Python워크로드를 확장할 수 있는 새로운 오픈 소스 컴퓨팅 프레임 워크로,
AWS Glue의 새로운 엔진 옵션으로 Ray를 제공하여 데이터 통합을 위한 서버리스 옵션을 결함함.
2
AWS Glue for Ray 사용하려는 이유?
작업 병렬 애플리케이션 가능 (여러 변환을 병렬로 적용하려는 경우)
파이선 워크로드 속도를 높이고 , 파이썬 네이티브 라이브러리를 사용.
3
2023년 1월 말 현재 서울리전 미지원
현재 사용 가능 리전 4곳?
US EAST (Ohio, N.Virginai) , US West (Oregon), Asia (Tokyo) , Europe(Ireland)
다음 과정
https://brunch.co.kr/@topasvga/2986
감사합니다.