데이터 분석 설계 모범 사례를 알아보자.
모범사례 모음
1
스트림을 통해 데이터 수집되고
S3 등에 저장되고
ETL을 하거나 다시 저장해서 인사이트를 통해 시각화함.
2
자체 관리에서 완전 관리형으로 사용
서버리스 분석 서비스를 사용하면 필요한 부분만 사용해도 좋다.
3
분석 설계 모범 사례 4가지?
간단한
유연한
믿을 수 있는
확장 가능한
4
간단한 분석?
코드가 없어가 쉽게 데이터 파이프라인 구축 가능해야 한다.
아마존 레드쉬프트 인제스천, 오로라 제로 ETL 활용.
레드 쉬프트로 쉽게 이동 가능.
제로 카피 데이터 공유
4
믿을 수 있는 데이터 분석?
이벤트에 대해 모두 로깅해야 한다.
글루 서비스로 검증할 수 있다.
5
확장 가능한 분석?
관리형, 서버리스는 자동으로 워크 로드가 확장된다.
올바른 도구 선택 - 미래 상황에 대한 지원, 언어, 프레임워크 지원 고려.
6
유연한 분석?
스토리지와 컴퓨팅을 분리해 나가고 있다.
스토리지 많이 사용하는 경우 cpu 적게 하여 비용 효율적이다.
1
생성형 AI?
새로운 콘텐츠와 아이디어를 창출한다.
2
사용 사례????
채팅
텍스트 생성
코드 생성
이미지 생성
음악 생성
비디오 생성
1
1) 사용자가 질문을 한다.
2) 다이나모에서 기존의 대화 내용을 가져온다. 상태 확인하여 기존에 이야기했던 부분으로 대화한다.
3) 부서, 히스토리, 리뷰로 도메인 지식을 가져온다.
4) 벡터 엔진에서 요리 레시피, 검색을 할 수 있게 된다.
4) 도메인 지식을 가져온 부분으로 LLM에 증강된 프롬프트로 질문한다.
5) 질문에 대해 답변한다.
2
스트리밍 데이터 수집?
파일, 영상 수집.
S3 , 다이나모에 저장.
3
실시간 데이터 수집?
AWS 스트리밍 옵션 3가지?
Amazon Managed Streaming for Apach Kafka.
Amazon Kinesis Data Streams.
Amazon Managed Service for Apach Flink.
4
스트리밍 모범 사례??
Amazon Managed Streaming for Apach Kafka. - 중개인 CPU 사용 모니터링 규제. 스토리지 오토 스케일링 필요.
Amazon Kinesis Data Streams. - 과금 페이로드 단위로 한다. 집계 및 압축해서 보내면 좋다.
Amazon Managed Service for Apach Flink- 체크포인트 활성화, 스냅숏 활용. 페일오버 시 유용하다.
5
데이터 저장 하는 방식 확인, 모범 사례???
스트림 데이터를 가져와서
데이터 레이크에 저장. S3 활용.
데이터 웨어 하우스.
벡터 데이터 베이스에 저장.
아테나로 S3에서 쿼리를 할 수 있다.
Amazon S3: 분석 워크로드 활용
6
아마존 오픈 서치 서비스 확인, 모범 사례?
검색, 분석, 통합, 비용 효율적.
7
벡터 임베딩
8
데이터 수집 - 테이터 분할 (토큰화) ----- 벡터화 ----- 벡터 저장소에 저장 ----프롬프트에 포함.
9
오픈 서치 서비스
벡터 데이베 베이스 모범 사례
10
데이터 웨어 하우스 모범 사례?
원천 데이터는 S3에 저장됨.
ETL 서비스???
EMR, Glue 2가지 서비스가 있다.
11
글루
글루는 다양한 커넥터를 지원한다.
12
Q 디벨로퍼???
주석 및 기존 코드를 기반으로 추천 코드를 제공한다.
글루와도 통합이 된다.
주석을 만들면 ETL 코드가 만들어진다.
13
ETL 지원한다.
EC2에서 직접 배포 가능하다.
EKS에서 배포 가능 - 현재 스파크 엔진만 지원된다.
EMR Serverless.
EMR을 온프라미스에 돌리고 싶다 = AWS Outpost 사용하자.
EC2에서 직접 배포 가능하다. 2가지로 가능하다.
Uniform instance group
Instance fleet - 성능과 비용을 더 세밀하게 조정 가능하다.
14
EMR을 EC2에 배포할 때 모범 사례?
15
분석 서비스 레드 쉬프트??
안전하게 대규모 데이터를 분서한다.
분산형 아키텍처.
16
데이터에 대한 접근제어, Lake Formation?
중앙에서 여러 분석 서비스와 권한을 관리한다.
최종 사용자가 필요한 부분에만 접근을 할 수 있도록 한다.
액세스 관리는 실제로는 클루 카탈로그에 적용이 된다.
접근 권한을 제어하는 2가지 방식?
데이터 베이스 액세스 제어 방식
태그 기반으로 액세스 제어 방식
17
DB 스타일의 액세스 제어 방식.
18
태그 방식으로 제어?
태그 정의
리소스에 태그 할당
태그에 대한 정책 작성
19
모범 사례
다음
https://brunch.co.kr/@topasvga/4125