Machine learning data platform
인공지능 개발
컴퓨터 비전 데이터
AI도구를 통한 자동화
여러 파일들이 하나의 데이터 단위를 구성
상대적으로 큰 단위 용량
Training 등 전체 데이터 Access 필요
고객/분제 별 사용 규모의 큰 편차.
데이터 탐색
대규모 데이터 전송
AI 기술의 활용
다양한 제공방식
다양한 데이터 처리 파이프라인(이미지, 비디오)
강력한 모니터링 기능의 요구
안정적인 데이터 서빙
전 세계 어디에서나 낮은 지연 시간 보장
지속적으로 쌓이는 이미지들의 저장 비용
1
다양한 크기와 종류의 데이터 처리 파이프라인(이미지, 비디오)?
AWS Step Functions, AWS Lambda, Fargate , serverless workflow orchestration
썸네일 작업
2
강력한 모니터링 기능의 요구?
AWS Cloudwatch를 통한 로그 수집/쿼리
분리해서 쌓자.
로그 인사이트로 보자
안정적인 데이터 서빙
전 세계 어디에서나 낮은 지연 시간 보장
AWS S3, Multi-Region Access Point
S3 Intelligent-Tiering을 이용한 비용 최적화
CDN으로 해결 안됨. 1개 데이터를 1사람이 보는 구조. Multi-Region Access Point
S3 Intelligent-Tiering = 필요시 많이 사용하고, 아닌 경우 미사용한다.
AI 학습 및 추론 가장에서 요구되는 높은 GPU 사용량.
AI task 관리와 스케줄링
학습화된 AI 모델의 관리
Amazon SageMaker를 통한 GPU활용(Training / Inference)
AWS SQS를 통한 task lifrcycle 관리
학습된 파라미터, 모델 버전은 S3를 통해 관리
스타트업은 서버리스 사용 필수
데이터 전송부터 처리까지 설명된다.
GPU문제도 SageMaker로 해결한다.
EKS , Managed DB 로 사용한다.
1
서버리스
https://brunch.co.kr/@topasvga/1757
2
https://brunch.co.kr/@topasvga/3354
감사합니다.