brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jul 06. 2023

5. AWS - 스타트업, SuperB AI

<1> 스타트업, Super AI

<2> Computer Vision 데이터의 특성

<3> AI를 위한 Data Platform이 도전하는 문제

<4> 대규모 데이터 처리  - 문제점

<5> 대규모 데이터 전송 - 해결

<6> 대규모 데이터 전송 - 해결

<7> AI 모델 활용 - 문제점 

<8> AI 모델 활용 - 해결

<9> 개인 정리

<10> 같이 볼만한 자료




<1> 스타트업, Super AI


Machine learning data platform


인공지능 개발

컴퓨터 비전 데이터

 AI도구를 통한 자동화



<2> Computer Vision 데이터의 특성


여러 파일들이 하나의 데이터 단위를 구성

상대적으로 큰 단위 용량

Training 등 전체 데이터 Access 필요

고객/분제 별 사용 규모의 큰 편차.




<3> AI를 위한 Data Platform이 도전하는 문제


데이터 탐색

대규모 데이터 전송

AI 기술의 활용

다양한 제공방식



<4> 대규모 데이터 처리  - 문제점


다양한 데이터 처리 파이프라인(이미지, 비디오)

강력한 모니터링 기능의 요구

안정적인 데이터 서빙

전 세계 어디에서나 낮은 지연 시간 보장

지속적으로 쌓이는 이미지들의 저장 비용



<5> 대규모 데이터 전송 - 해결


1

다양한 크기와 종류의 데이터 처리 파이프라인(이미지, 비디오)?

AWS Step Functions, AWS Lambda, Fargate , serverless workflow orchestration

썸네일 작업



2

강력한 모니터링 기능의 요구?

AWS Cloudwatch를 통한 로그 수집/쿼리

분리해서 쌓자.

로그 인사이트로 보자



<6> 대규모 데이터 전송 - 해결


안정적인 데이터 서빙

전 세계 어디에서나 낮은 지연 시간 보장


AWS S3, Multi-Region Access Point

S3 Intelligent-Tiering을 이용한 비용 최적화


CDN으로 해결 안됨. 1개 데이터를 1사람이 보는 구조.  Multi-Region Access Point

S3 Intelligent-Tiering = 필요시 많이 사용하고, 아닌 경우 미사용한다.



<7> AI 모델 활용 - 문제점 


AI 학습 및 추론 가장에서 요구되는 높은 GPU 사용량.

AI task 관리와 스케줄링

학습화된 AI 모델의 관리



<8> AI 모델 활용 - 해결


Amazon SageMaker를 통한 GPU활용(Training / Inference)

AWS SQS를 통한 task lifrcycle 관리

학습된 파라미터, 모델 버전은 S3를 통해 관리



<9> 개인 정리


스타트업은 서버리스 사용 필수

데이터 전송부터 처리까지 설명된다.

GPU문제도 SageMaker로 해결한다.

EKS , Managed DB 로 사용한다.




<10> 같이 볼만한 자료


1

서버리스

https://brunch.co.kr/@topasvga/1757


2

다음 자료

https://brunch.co.kr/@topasvga/3354


감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari