brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Aug 02. 2020

433. Bigdata 분석하기,EMR생성

EMR 과 HIVE로  파일 분석하여 결과를 얻어내자. 이론  

목차

<0> 하둡 시스템으로 Bigdata를 분석해보자.

<1>  S3 만들기

<2>  EMR 만들기 

<3>  HIVE 스크립트로 데이터 처리하기

<4>  결과 확인

<5>  EMR 종료하기




<0> 하둡 시스템으로 Bigdata를 분석해보자.

AWS EMR 서비스를 사용하여 서버를 만들고  HIVE로 분석하자.

로그파일과 출력 데이터는  S3 스토리지에 저장된다.

다운로드해서 확인한다.

CloudFront 의 로그 데이터를 처리하는 동작이다.



구성






<1>  S3 만들기


S3  > 버킷 생성하기

service-emr-s3



<2>  EMR 만들기 


1

 EMR  >  클러스터  생성  > 전문가 옵션 으로 이동 

소프트웨어 구성 다음 > 


2

하드웨어 >  네트워크 변경하기  > EC2 서브넷 

Master 를  m4.xlarge 로 변경하기

Core 를  m4.xlarge 로 변경하기

다음


3

클러스터 이름

service-emr


Logging S3  폴더  클릭  >   앞에서 만든 S3로 변경하기

테미네이션 방지  체크 해지

다음



4

권한

사용자 지정으로 변경

EMR역할  : EMR_DefaultRole   유지   (aws 서비스  : elasticmapreduce )

EC2 인스턴스 프로파일 : EMR_EC2_DefaultRole 유지   (aws 서비스 : ec2)

> 클러스터  생성



Apache Hadoop

테이터 세트를 효율적으로 처리하는데 사용할수 있는 하둡


Hive

하둡 클러스터 위에서 실행되는 오픈 소스 데이터 분석 패키지





<3>  HIVE 스크립트로 데이터 처리하기

1

EMR  >  단계  탭  >  단계 추가 >  단계 유형 : 하이브 프로그램 

이름 :  hive11

스크립트 S3 위치

s3://<REGION>.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q

s3://us-west-2.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q


2

입력 S3 위치

s3://us-west-2.elasticmapreduce.samples


3

출력 S3 위치

선택


4

인수 

-hiveconf hive.support.sql11.reserved.keywords=false


> 추가


5

CloudFront 의 로그 데이터를 처리하는 동작이다.

로그 데이터 



<4>  결과 확인


1

S3에서 확인한다. 

다운로드도 가능하다.


2

접속한 운영체제와 숫자를 확인할수 있다.




<5>  EMR 종료하기


EMR > 종료하기



감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari