brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jan 21. 2021

541. SageMaker의 신규 서비스-2021-01

머신러닝 서비스인 SageMaker의 신규 서비스들이 많이 늘어났다.

Sagemaker  신규 서비스들은 Sagemaker studio 내에서 통합으로 제공한다.


Sagemaker studio?   머신러닝 개발을 위한 IDE(2019)


<1> Amazon SageMaker - 데이터 병렬 처리

<2> Amazon SageMaker Data Wrangler – 데이터 전처리

<3> Amazon SageMaker Feature Store –  머신러닝 데이터 피처 발견, 저장 , 공유

<4> Amazon SageMaker Clarify – 데이터 및 모델 편향을 감지

<5> Amazon SageMaker Debugger  - CPU / GPU/ MEM 등 머신러닝 자원 모니터링

<6> Amazon SageMaker JumpStart –  150개 이상의 내장 머신러닝 모델 제공

<7> Amazon SageMaker Pipelines – 머신러닝을 위한 데브옵스 구축

<8> Amazon SageMaker Edge Manager – 엣지 디바이스에서 기계 학습 모델 운영 단순화

<9> 추가 머신러닝 서비스



<100>  리 인벤트 신규 서비스 정리 - 한국 블로그

<101> 리 인벤트 전체 목록




<1> Amazon SageMaker - 데이터 병렬 처리

수백 또는 수천 기가바이트 데이터 세트에서 모델을 보다 쉽게 훈련

할 수 있는 새로운 데이터 병렬 처리 라이브러리를 지원

GPU 리소스의 최대 90 %를 데이터 전송이 아닌 학습에 사용



<2> Amazon SageMaker Data Wrangler – 데이터 전처리

데이터 준비과정 시각화

데이터 전처리 과정이 80% 차지한다.

많은 코드 작업 필요함

데이터를 준비하는 시각적 인터페이스

데이터에 대한 통계 및 준비


1

데이터 전처리 과정 ?

데이터 전처리 과정이 80% 차지한다.


데이터 셀렉션 , 클리닝, 피처 엔지니어링, 시각화 를 위한  작업과 툴이 필요함.

많은 코드 작업 필요함


2

다양한 데이터 소스에서 빠른 쿼리 지원 ?


아테나, Redshift , Lake formaion ,S3 등에서  데이터를 가져올수 있다.

코드 작업 없이 가능하다.


3

손쉬운 데이터 변환 ?

300개의 데이터 변환 옵션을 제공한다.

컬럼 타입변경, 이름 변경 ㅡ 삭제 등 가능.



4

데이터 시작화 도구 제공 ?

바차트등 시각화 템플릿 제공한다.


도구로 데이터 이상치 확인이 가능하다.


5

모델 성능에 대한 빠른 예측?

프로덕션 배포전 데이터 준비 과정중 이상 발견 가능.

준비단계에서 시각화 단계에서 제공하여  여러가지 확인이 가능하다.


6

손쉬운 프로덕션 배포 ?

데이터 전처리 워크 프로우를 파이썬 코드로 Export 가능함


7

모두 Sagemaker studio 내에서 통합으로 제공한다.




<3> Amazon SageMaker Feature Store –  머신러닝 데이터 피처 발견, 저장 , 공유

머신 러닝의 입력 값이다.

인코딩하거나 데이터 축소해야 한다.

머신러닝이 이해할 수 있도록 해야 한다.

기계 학습 피처 저장, 검색 및 공유

기능 저장소의 새 기능

훈련 및 예측 워크 플로에 사용되는 선별된 데이터를 안전하게 저장, 검색 및 공유


1

Feature ?

머신 러닝의 입력 값이다.

Raw Data ---------------코드화 ---------- Feature  


2

Raw Data는 바로 사용 불가하다.

인코딩하거나 데이터 축소해야 한다.

머신러닝이 이해할수 있도록 해야 한다.

이 과정을  Feature  엔지니어링 이라 한다.



3

Feature  엔지니어링  어려음?

복잡한 연산, 길고 지루한 작업

처리된 결과를 재사용 혹은 공유 하기 어렵니다.



4

변경후  구성 ?

DATA Source -------FEATURE PIPELINES---------- FRATURE STORE -------MODEL


5

데이터 입력방식은 ?


스트리밍 방식 입력  과 Batch 입력 방식 2가지 제공한다.


스트리밍 방식 입력

Batch 입력 방식 -  Custom Spark Container제공



6

Feature Store는2가지 Online , Offline Store 제공한다.


Online  Feature Store


Offline  Feature Store 



7

모두 Sagemaker studio 내에서 통합으로 제공한다.




<4> Amazon SageMaker Clarify – 데이터 및 모델 편향을 감지

학습 모델의 편향을 감지, 모델 동작 투명성을 높임

내가 만든 모델에 편향성이 생기는 부분

자율주행 서비스  적용되어 문제가 되면 커진다.


1

내가 만든 모델에 편향성이 생기는 부분 ?

처리하는 과정에서 잘못된 처리로 인해 발생한다.

의도하지 않은 예측이나 결과를 내게 된다.


2

모두 Sagemaker studio 내에서 통합으로 제공한다.




<5> Amazon SageMaker Debugger  - CPU / GPU/ MEM 등 머신러닝 자원 모니터링

기계 학습 모델을 프로파일 링, 하드웨어 리소스 사용으로 인해 발생하는 교육 문제를 식별, 수정



<6> Amazon SageMaker JumpStart –  150개 이상의 내장 머신러닝 모델 제공

사전 구축된 모델 및 기계 학습 설루션 제공

일반적인 사용 사례를 해결하는 인기 있는 모델 컬렉션과 엔드 투 엔드 설루션에 대한 원 클릭 액세스를 통해 기계 학습 워크 플로를 가속화함



<7> Amazon SageMaker Pipelines – 머신러닝을 위한 데브옵스 구축

데이터 준비 -> 모델 학습 > 모델 배포 > 데이터 준비 과정을 거친다.

자동화되고 안정적인 종단 간 ML 파이프 라인을 쉽게 생성

모든 인프라는 완전히 관리되며 사용자 측에서 작업할 필요가 없음


1

개발자에 CI/CD 를 제공

반복적인 프로세스 = 고통

데이터 준비 -> 모델 학습 > 모델 배포 > 데이터 준비


2

Sagemaker  Pipelines 은 Sagemaker studio 내에서 통합으로 제공한다.


3

Python SDK 제공

코드로 관리가능


4

학습완료 한 모델을 관리하는 저장소

모델을 관리하는 모델 레지스트리

ECR처럼  제공


5

승인철차도  Sagemaker studio 내에서 통합으로 제공한다.


6

멀티 계정 지원 ?

상용과 개발 

다른계정에서 접근가능하도록 제공한다.


7

CI/CD 파이프라인 수행으로 모델 최신화.




<8> Amazon SageMaker Edge Manager – 엣지 디바이스에서 기계 학습 모델 운영 단순화

클라우드 또는 엣지 디바이스에서 동일한 익숙한 도구를 쉽게 사용

모델을 생산하는 데 필요한 시간과 노력을 줄이는 동시에 장치 전체에서 모델 품질을 지속적으로 모니터링하고 개선



<9> 추가 머신러닝 서비스


Amazon Personalize  개인화/추천 - 리테일

Amazon Forecast  매출/수요 예측 - 물류 /유통

Amazon Fraud Detector  온라인 사기 탐지 - 전자 상거래

Amzone Kendra 엔터프라이즈 검색

Amazon CodeGuru 소프트웨어 개발

Amazon Comprehend 자연어 분석 - 의학 분야














<100>  리 인벤트 신규 서비스 정리 - 한국 블로그

https://aws.amazon.com/ko/blogs/korea/aws-reinvent-announcements-2020/



<101> 리 인벤트 전체 목록

https://aws.amazon.com/ko/new/reinvent/  



감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari