머신러닝 서비스인 SageMaker의 신규 서비스들이 많이 늘어났다.
Sagemaker 신규 서비스들은 Sagemaker studio 내에서 통합으로 제공한다.
Sagemaker studio? 머신러닝 개발을 위한 IDE(2019)
<1> Amazon SageMaker - 데이터 병렬 처리
<2> Amazon SageMaker Data Wrangler – 데이터 전처리
<3> Amazon SageMaker Feature Store – 머신러닝 데이터 피처 발견, 저장 , 공유
<4> Amazon SageMaker Clarify – 데이터 및 모델 편향을 감지
<5> Amazon SageMaker Debugger - CPU / GPU/ MEM 등 머신러닝 자원 모니터링
<6> Amazon SageMaker JumpStart – 150개 이상의 내장 머신러닝 모델 제공
<7> Amazon SageMaker Pipelines – 머신러닝을 위한 데브옵스 구축
<8> Amazon SageMaker Edge Manager – 엣지 디바이스에서 기계 학습 모델 운영 단순화
<9> 추가 머신러닝 서비스
<100> 리 인벤트 신규 서비스 정리 - 한국 블로그
<101> 리 인벤트 전체 목록
<1> Amazon SageMaker - 데이터 병렬 처리
수백 또는 수천 기가바이트 데이터 세트에서 모델을 보다 쉽게 훈련
할 수 있는 새로운 데이터 병렬 처리 라이브러리를 지원
GPU 리소스의 최대 90 %를 데이터 전송이 아닌 학습에 사용
<2> Amazon SageMaker Data Wrangler – 데이터 전처리
데이터 준비과정 시각화
데이터 전처리 과정이 80% 차지한다.
많은 코드 작업 필요함
데이터를 준비하는 시각적 인터페이스
데이터에 대한 통계 및 준비
1
데이터 전처리 과정 ?
데이터 전처리 과정이 80% 차지한다.
데이터 셀렉션 , 클리닝, 피처 엔지니어링, 시각화 를 위한 작업과 툴이 필요함.
많은 코드 작업 필요함
2
다양한 데이터 소스에서 빠른 쿼리 지원 ?
아테나, Redshift , Lake formaion ,S3 등에서 데이터를 가져올수 있다.
코드 작업 없이 가능하다.
3
손쉬운 데이터 변환 ?
300개의 데이터 변환 옵션을 제공한다.
컬럼 타입변경, 이름 변경 ㅡ 삭제 등 가능.
4
데이터 시작화 도구 제공 ?
바차트등 시각화 템플릿 제공한다.
도구로 데이터 이상치 확인이 가능하다.
5
모델 성능에 대한 빠른 예측?
프로덕션 배포전 데이터 준비 과정중 이상 발견 가능.
준비단계에서 시각화 단계에서 제공하여 여러가지 확인이 가능하다.
6
손쉬운 프로덕션 배포 ?
데이터 전처리 워크 프로우를 파이썬 코드로 Export 가능함
7
모두 Sagemaker studio 내에서 통합으로 제공한다.
<3> Amazon SageMaker Feature Store – 머신러닝 데이터 피처 발견, 저장 , 공유
머신 러닝의 입력 값이다.
인코딩하거나 데이터 축소해야 한다.
머신러닝이 이해할 수 있도록 해야 한다.
기계 학습 피처 저장, 검색 및 공유
기능 저장소의 새 기능
훈련 및 예측 워크 플로에 사용되는 선별된 데이터를 안전하게 저장, 검색 및 공유
1
Feature ?
머신 러닝의 입력 값이다.
Raw Data ---------------코드화 ---------- Feature
2
Raw Data는 바로 사용 불가하다.
인코딩하거나 데이터 축소해야 한다.
머신러닝이 이해할수 있도록 해야 한다.
이 과정을 Feature 엔지니어링 이라 한다.
3
Feature 엔지니어링 어려음?
복잡한 연산, 길고 지루한 작업
처리된 결과를 재사용 혹은 공유 하기 어렵니다.
4
변경후 구성 ?
DATA Source -------FEATURE PIPELINES---------- FRATURE STORE -------MODEL
5
데이터 입력방식은 ?
스트리밍 방식 입력 과 Batch 입력 방식 2가지 제공한다.
스트리밍 방식 입력
Batch 입력 방식 - Custom Spark Container제공
6
Feature Store는2가지 Online , Offline Store 제공한다.
Online Feature Store
Offline Feature Store
7
모두 Sagemaker studio 내에서 통합으로 제공한다.
<4> Amazon SageMaker Clarify – 데이터 및 모델 편향을 감지
학습 모델의 편향을 감지, 모델 동작 투명성을 높임
내가 만든 모델에 편향성이 생기는 부분
자율주행 서비스 적용되어 문제가 되면 커진다.
1
내가 만든 모델에 편향성이 생기는 부분 ?
처리하는 과정에서 잘못된 처리로 인해 발생한다.
의도하지 않은 예측이나 결과를 내게 된다.
2
모두 Sagemaker studio 내에서 통합으로 제공한다.
<5> Amazon SageMaker Debugger - CPU / GPU/ MEM 등 머신러닝 자원 모니터링
기계 학습 모델을 프로파일 링, 하드웨어 리소스 사용으로 인해 발생하는 교육 문제를 식별, 수정
<6> Amazon SageMaker JumpStart – 150개 이상의 내장 머신러닝 모델 제공
사전 구축된 모델 및 기계 학습 설루션 제공
일반적인 사용 사례를 해결하는 인기 있는 모델 컬렉션과 엔드 투 엔드 설루션에 대한 원 클릭 액세스를 통해 기계 학습 워크 플로를 가속화함
<7> Amazon SageMaker Pipelines – 머신러닝을 위한 데브옵스 구축
데이터 준비 -> 모델 학습 > 모델 배포 > 데이터 준비 과정을 거친다.
자동화되고 안정적인 종단 간 ML 파이프 라인을 쉽게 생성
모든 인프라는 완전히 관리되며 사용자 측에서 작업할 필요가 없음
1
개발자에 CI/CD 를 제공
반복적인 프로세스 = 고통
데이터 준비 -> 모델 학습 > 모델 배포 > 데이터 준비
2
Sagemaker Pipelines 은 Sagemaker studio 내에서 통합으로 제공한다.
3
Python SDK 제공
코드로 관리가능
4
학습완료 한 모델을 관리하는 저장소
모델을 관리하는 모델 레지스트리
ECR처럼 제공
5
승인철차도 Sagemaker studio 내에서 통합으로 제공한다.
6
멀티 계정 지원 ?
상용과 개발
다른계정에서 접근가능하도록 제공한다.
7
CI/CD 파이프라인 수행으로 모델 최신화.
<8> Amazon SageMaker Edge Manager – 엣지 디바이스에서 기계 학습 모델 운영 단순화
클라우드 또는 엣지 디바이스에서 동일한 익숙한 도구를 쉽게 사용
모델을 생산하는 데 필요한 시간과 노력을 줄이는 동시에 장치 전체에서 모델 품질을 지속적으로 모니터링하고 개선
<9> 추가 머신러닝 서비스
Amazon Personalize 개인화/추천 - 리테일
Amazon Forecast 매출/수요 예측 - 물류 /유통
Amazon Fraud Detector 온라인 사기 탐지 - 전자 상거래
Amzone Kendra 엔터프라이즈 검색
Amazon CodeGuru 소프트웨어 개발
Amazon Comprehend 자연어 분석 - 의학 분야
<100> 리 인벤트 신규 서비스 정리 - 한국 블로그
<101> 리 인벤트 전체 목록
감사합니다.