brunch

매거진 AWS 전문가 되기

라이킷 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by Master Seo Aug 02. 2020

433. Bigdata 분석하기,EMR생성

EMR 과 HIVE로 파일 분석하여 결과를 얻어내자. 이론

<0> 하둡 시스템으로 Bigdata를 분석해보자.

<1> S3 만들기

<2> EMR 만들기

<3> HIVE 스크립트로 데이터 처리하기

<4> 결과 확인

<5> EMR 종료하기

<0> 하둡 시스템으로 Bigdata를 분석해보자.

AWS EMR 서비스를 사용하여 서버를 만들고 HIVE로 분석하자.

로그파일과 출력 데이터는 S3 스토리지에 저장된다.

다운로드해서 확인한다.

CloudFront 의 로그 데이터를 처리하는 동작이다.

구성

<1> S3 만들기

S3 > 버킷 생성하기

service-emr-s3

<2> EMR 만들기

EMR > 클러스터 생성 > 전문가 옵션 으로 이동

소프트웨어 구성 다음 >

하드웨어 > 네트워크 변경하기 > EC2 서브넷

Master 를 m4.xlarge 로 변경하기

Core 를 m4.xlarge 로 변경하기

클러스터 이름

service-emr

Logging S3 폴더 클릭 > 앞에서 만든 S3로 변경하기

테미네이션 방지 체크 해지

권한

사용자 지정으로 변경

EMR역할 : EMR_DefaultRole 유지 (aws 서비스 : elasticmapreduce )

EC2 인스턴스 프로파일 : EMR_EC2_DefaultRole 유지 (aws 서비스 : ec2)

> 클러스터 생성

Apache Hadoop

테이터 세트를 효율적으로 처리하는데 사용할수 있는 하둡

Hive

하둡 클러스터 위에서 실행되는 오픈 소스 데이터 분석 패키지

<3> HIVE 스크립트로 데이터 처리하기

EMR > 단계 탭 > 단계 추가 > 단계 유형 : 하이브 프로그램

이름 : hive11

스크립트 S3 위치

s3://<REGION>.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q

s3://us-west-2.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q

입력 S3 위치

s3://us-west-2.elasticmapreduce.samples

출력 S3 위치

선택

인수

-hiveconf hive.support.sql11.reserved.keywords=false

> 추가

CloudFront 의 로그 데이터를 처리하는 동작이다.

로그 데이터

<4> 결과 확인

S3에서 확인한다.

다운로드도 가능하다.

접속한 운영체제와 숫자를 확인할수 있다.

<5> EMR 종료하기

EMR > 종료하기

감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari