brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Nov 10. 2020

7탄-데이터-아테나와 EMR 4/7

<1> S3에서 직접 비용 효율적으로 쿼리 하는 Atena

<2>  Amazon EMR  ,  관리형 하둡 시스템

<3> 하둡 프레임 워크



<1> S3에서 직접 비용 효율적으로 쿼리 하는 Atena


Athena 이용

서버리스 서비스이다.


1

대화형 쿼리

대화형 SQL쿼리

S3에서 직접 쿼리 실행

쿼리 단위 비용 


2

분석내용?

Aapche 웹로그

어플리케이션 로그


3

시각화?

QuickSight


4

연계서비스?

Athena

EMR

Redshift

QuickSight

Glue


5

구성1

데이터 ----- S3 ---- EMR --------S3---Redshift -----QuickSight


S3데이터는  Athena 로 액세스


6

구성2

로그  ------- 키네시스 ----------S3 -----------   Athena


7

아테나 실습

https://brunch.co.kr/@topasvga/2004




<2>  Amazon EMR  ,  관리형 하둡 시스템


Apache 하둡 기본 요소 4가지

ManReduce - 키-값을 기반으로한 분산 프로그램밍 프레임워크

HDFS(분산 파일 시스템)

YARN - 작업 예약 및 클러스터 리소스 관리(CPU, MEM))

하둡  Common


2

MapReduce ?

Map : 분산 및 필터링 작업

Reduce : 요약작업

대용량 데이터를 병렬 분산 처리하는 프레임 워크.


3

Amazon EMR 특징?

관리형 클러스터

하둡 Spark,Prestor, 기타 애플리케이션

몇분만에 클러스터를 시작한다.

HDFS와 S3사용

클러스터 삭제하면 EBS도 같이 삭제 된다. 백업 필요시는 S3로 미리 하라.


4

EMR과 S3 구성도


5

Amazon EMR 기본 아키텍쳐 구성도

마스터 노드, 코어 노드, 작업 노드 3가지로 구성된다.


6

마스터 노드?

클러스터 리소스 관리

인스턴스의 작업 예약

처음 생성시 여러 마스터 노드로 해서 멀티 마스터로 생성가능하다.

실행중 멀티 마스터는 안된다.

오토 스케일링은 안된다.


7

코어 노드?

마스터와 코어 1개는 필수 이다.

코어노드는  HDFS 스토리지가 있다.

오토 스케일링 된다.


8

작업 노드 ?   하둡에서는 없는것임. EMR 에서 추가 됨.

컴퓨팅 노드만 추가해서 작업하고 싶을때 사용한다.

작업 노드에는 스토리지(디스크)가 없다.

작업 노드의 스토리지는 외부 S3스토리지를 사용한다.

작업 노드 추가를 통한 처리 용량의 증가가능. 오토 스케일링 된다.



9

EMR을 사용하면 좋은점?

구축 시간을 줄여줌


10

EMRFS ?

EMR이 S3의 데이터를 직접 사용할수 있다.

S3를  HDFS로 복사해서 사용하지 않아도 된다.

EC2 인스턴스 기반이다.

HDFS는 EBS를 늘려 사용하면 된다.  EC2 기반이므로.


11

일시적 클러스터? 장기적 클러스트 ?

생성시 자동종료 체크한다 = 일시적 클러스터

생성시 자동종료 체크하지 않는다 = 장기 실행 클러스터


일시적 클라스터?

비용 절감


장기 실행 클러스트?

정기적으로 정시간 실행


12

DynamoDB에서 필요사항 추출 하기?


S3------- EMR -------- Dynamodb   //  결과를 S3에 저장.


스토리지에 데이터를 저장하고, 하둡인 EMR에서 처리 , DB에 저장한다.




<3> 하둡 프레임 워크


1

하둡 애플리케이션 ?

hive  - 배치 처리

presto - 대화형 분석 

spark - 기계 학습 

ping    - 배치 처리


2

// 빅데이터 처리에 적합한 솔루션 ?


3

분석 도구 ? 

아테나 - 대화형 임시쿼리 - S3 스토리지 

EMR - presto (대화형) , Spark (범용 , 반복적ML) , HIVE (배치)  - S3, HDFS


4

Apache Zeppelin 

웹 기반 노트북


5

jupyterHub

오픈 소스 애플리케이션




다음과정

https://brunch.co.kr/@topasvga/1318




https://brunch.co.kr/@topasvga/2698



감사합니다.



매거진의 이전글 7탄-데이터-스토리지와 데이터베이스 3/7
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari