7탄-데이터-아테나와 EMR 4/7

by Master Seo

Nov 10. 2020

<1> S3에서 직접 비용 효율적으로 쿼리 하는 Atena

<2> Amazon EMR , 관리형 하둡 시스템

<3> 하둡 프레임 워크

<1> S3에서 직접 비용 효율적으로 쿼리 하는 Atena

Athena 이용

서버리스 서비스이다.

대화형 쿼리

대화형 SQL쿼리

S3에서 직접 쿼리 실행

쿼리 단위 비용

분석내용?

Aapche 웹로그

어플리케이션 로그

시각화?

QuickSight

연계서비스?

Athena

EMR

Redshift

QuickSight

Glue

구성1

데이터 ----- S3 ---- EMR --------S3---Redshift -----QuickSight

S3데이터는 Athena 로 액세스

구성2

로그 ------- 키네시스 ----------S3 ----------- Athena

아테나 실습

https://brunch.co.kr/@topasvga/2004

597. Amazon Athena 사용법

<1> Athena를 사용하여 S3에 쿼리를 날려 확인해보자 <2> 원시 데이터 쿼리 <3> 압축된 데이터 쿼리 가능 <4> 분할된 데이터 쿼리 <5> 열 기반 데이터 쿼리 <6> 삭제 <10> 같이 보면 좋은 자료 <1> Athena를 사

https://brunch.co.kr/@topasvga/2004

<2> Amazon EMR , 관리형 하둡 시스템

Apache 하둡 기본 요소 4가지

ManReduce - 키-값을 기반으로한 분산 프로그램밍 프레임워크

HDFS(분산 파일 시스템)

YARN - 작업 예약 및 클러스터 리소스 관리(CPU, MEM))

하둡 Common

MapReduce ?

Map : 분산 및 필터링 작업

Reduce : 요약작업

대용량 데이터를 병렬 분산 처리하는 프레임 워크.

Amazon EMR 특징?

관리형 클러스터

하둡 Spark,Prestor, 기타 애플리케이션

몇분만에 클러스터를 시작한다.

HDFS와 S3사용

클러스터 삭제하면 EBS도 같이 삭제 된다. 백업 필요시는 S3로 미리 하라.

EMR과 S3 구성도

Amazon EMR 기본 아키텍쳐 구성도

마스터 노드, 코어 노드, 작업 노드 3가지로 구성된다.

마스터 노드?

클러스터 리소스 관리

인스턴스의 작업 예약

처음 생성시 여러 마스터 노드로 해서 멀티 마스터로 생성가능하다.

실행중 멀티 마스터는 안된다.

오토 스케일링은 안된다.

코어 노드?

마스터와 코어 1개는 필수 이다.

코어노드는 HDFS 스토리지가 있다.

오토 스케일링 된다.

작업 노드 ? 하둡에서는 없는것임. EMR 에서 추가 됨.

컴퓨팅 노드만 추가해서 작업하고 싶을때 사용한다.

작업 노드에는 스토리지(디스크)가 없다.

작업 노드의 스토리지는 외부 S3스토리지를 사용한다.

작업 노드 추가를 통한 처리 용량의 증가가능. 오토 스케일링 된다.

EMR을 사용하면 좋은점?

구축 시간을 줄여줌

EMRFS ?

EMR이 S3의 데이터를 직접 사용할수 있다.

S3를 HDFS로 복사해서 사용하지 않아도 된다.

EC2 인스턴스 기반이다.

HDFS는 EBS를 늘려 사용하면 된다. EC2 기반이므로.

일시적 클러스터? 장기적 클러스트 ?

생성시 자동종료 체크한다 = 일시적 클러스터

생성시 자동종료 체크하지 않는다 = 장기 실행 클러스터

일시적 클라스터?

비용 절감

장기 실행 클러스트?

정기적으로 정시간 실행

DynamoDB에서 필요사항 추출 하기?

S3------- EMR -------- Dynamodb // 결과를 S3에 저장.

스토리지에 데이터를 저장하고, 하둡인 EMR에서 처리 , DB에 저장한다.

<3> 하둡 프레임 워크

하둡 애플리케이션 ?

hive - 배치 처리

presto - 대화형 분석

spark - 기계 학습

ping - 배치 처리

// 빅데이터 처리에 적합한 솔루션 ?

분석 도구 ?

아테나 - 대화형 임시쿼리 - S3 스토리지

EMR - presto (대화형) , Spark (범용 , 반복적ML) , HIVE (배치) - S3, HDFS

Apache Zeppelin

웹 기반 노트북

jupyterHub

오픈 소스 애플리케이션

다음과정

https://brunch.co.kr/@topasvga/1318

478. 데이터-Spark, Glue 5/7

<1> Spark 사용 <2> Glue <1> Spark 사용 1 Mapreduce 보다 빠르다. 배치, 대화식 및 스트리밍 어플지원 충분히 메모리 공간이 있어야 한다. 스트링 대치 용은 아니다. 배치 기반으로 동작하는 것이다. 3 EMR에

https://brunch.co.kr/@topasvga/1318

https://brunch.co.kr/@topasvga/2698

7탄. AWS로 빅데이터 시작

https://brunch.co.kr/@topasvga/1310 https://brunch.co.kr/@topasvga/1311 https://brunch.co.kr/@topasvga/1312 https://brunch.co.kr/@topasvga/1317 https://brunch.co.kr/@topasvga/1318 https://brunch.

https://brunch.co.kr/@topasvga/2698

감사합니다.

keyword

매거진의 이전글7탄-데이터-스토리지와 데이터베이스 3/77탄-데이터-Spark, Glue 5/7매거진의 다음글