<1> S3에서 직접 비용 효율적으로 쿼리 하는 Atena
<2> Amazon EMR , 관리형 하둡 시스템
<3> 하둡 프레임 워크
<1> S3에서 직접 비용 효율적으로 쿼리 하는 Atena
Athena 이용
서버리스 서비스이다.
1
대화형 쿼리
대화형 SQL쿼리
S3에서 직접 쿼리 실행
쿼리 단위 비용
2
분석내용?
Aapche 웹로그
어플리케이션 로그
3
시각화?
QuickSight
4
연계서비스?
Athena
EMR
Redshift
QuickSight
Glue
5
구성1
데이터 ----- S3 ---- EMR --------S3---Redshift -----QuickSight
S3데이터는 Athena 로 액세스
6
구성2
로그 ------- 키네시스 ----------S3 ----------- Athena
7
아테나 실습
https://brunch.co.kr/@topasvga/2004
<2> Amazon EMR , 관리형 하둡 시스템
1
Apache 하둡 기본 요소 4가지
ManReduce - 키-값을 기반으로한 분산 프로그램밍 프레임워크
HDFS(분산 파일 시스템)
YARN - 작업 예약 및 클러스터 리소스 관리(CPU, MEM))
하둡 Common
2
MapReduce ?
Map : 분산 및 필터링 작업
Reduce : 요약작업
대용량 데이터를 병렬 분산 처리하는 프레임 워크.
3
Amazon EMR 특징?
관리형 클러스터
하둡 Spark,Prestor, 기타 애플리케이션
몇분만에 클러스터를 시작한다.
HDFS와 S3사용
클러스터 삭제하면 EBS도 같이 삭제 된다. 백업 필요시는 S3로 미리 하라.
4
EMR과 S3 구성도
5
Amazon EMR 기본 아키텍쳐 구성도
마스터 노드, 코어 노드, 작업 노드 3가지로 구성된다.
6
마스터 노드?
클러스터 리소스 관리
인스턴스의 작업 예약
처음 생성시 여러 마스터 노드로 해서 멀티 마스터로 생성가능하다.
실행중 멀티 마스터는 안된다.
오토 스케일링은 안된다.
7
코어 노드?
마스터와 코어 1개는 필수 이다.
코어노드는 HDFS 스토리지가 있다.
오토 스케일링 된다.
8
작업 노드 ? 하둡에서는 없는것임. EMR 에서 추가 됨.
컴퓨팅 노드만 추가해서 작업하고 싶을때 사용한다.
작업 노드에는 스토리지(디스크)가 없다.
작업 노드의 스토리지는 외부 S3스토리지를 사용한다.
작업 노드 추가를 통한 처리 용량의 증가가능. 오토 스케일링 된다.
9
EMR을 사용하면 좋은점?
구축 시간을 줄여줌
10
EMRFS ?
EMR이 S3의 데이터를 직접 사용할수 있다.
S3를 HDFS로 복사해서 사용하지 않아도 된다.
EC2 인스턴스 기반이다.
HDFS는 EBS를 늘려 사용하면 된다. EC2 기반이므로.
11
일시적 클러스터? 장기적 클러스트 ?
생성시 자동종료 체크한다 = 일시적 클러스터
생성시 자동종료 체크하지 않는다 = 장기 실행 클러스터
일시적 클라스터?
비용 절감
장기 실행 클러스트?
정기적으로 정시간 실행
12
DynamoDB에서 필요사항 추출 하기?
S3------- EMR -------- Dynamodb // 결과를 S3에 저장.
스토리지에 데이터를 저장하고, 하둡인 EMR에서 처리 , DB에 저장한다.
<3> 하둡 프레임 워크
1
하둡 애플리케이션 ?
hive - 배치 처리
presto - 대화형 분석
spark - 기계 학습
ping - 배치 처리
2
// 빅데이터 처리에 적합한 솔루션 ?
3
분석 도구 ?
아테나 - 대화형 임시쿼리 - S3 스토리지
EMR - presto (대화형) , Spark (범용 , 반복적ML) , HIVE (배치) - S3, HDFS
4
Apache Zeppelin
웹 기반 노트북
5
jupyterHub
오픈 소스 애플리케이션
다음과정
https://brunch.co.kr/@topasvga/1318
https://brunch.co.kr/@topasvga/2698
감사합니다.