brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Dec 05. 2021

599. EMR Hive사용하기-절차 확인

이론, 절차 확인하기

S3에 저장된 서버로그  2가지를 EMR HIVE로  처리하자


<1>  S3에 저장된 서버로그  2가지를 EMR HIVE로  처리 순서

<2> 결과 저장용 S3 생성

<3> EMR 생성, Hive 설치

<4>  Command Server 1대에서 EMR로 접속하자.

<5>  Hive 실행하자

<6> 테이블 1, 테이블2  조인하기

<7>  결과 저장용 S3 에서 테이블 데이터 확인하기

<10>  EMR 실습들 보기 



<1> S3에 저장된 서버로그  2가지를 EMR 에서 처리 순서


구성?

S3 버킷 2개 ----EMR -----  결과저장은 S3


1

서버로그를 S3 2곳에 저장하자


2

ERM 처리하자


3

EMR로 테이블 Join 하자


4

S3에 저장하자




<2> 결과 저장용 S3 생성


hive-bucket-seo123



<3> EMR 생성, Hive 설치


1

VPC 생성

public subnet 2개 생성


2

EMR 접속을 위해 미리 EC2 Keypair를 생성한다.


3

Role이 필요한 서비스이다. 미리 Role을 만들자.

or

admin 계정으로 role생성하며 설치


4

EMR 생성시, 보안그룹에서 10.0.0.0/8  ssh 허용하여 EMR Master에 접속 가능하도록 하자.

Master에서 작업한다.


5

EMR > Go to advanced options로 변경한다.

Hadoop 과 Hive만 설치하자.


6

내트워크를 선택한다.

Subnet을 선택 , 여기서는 테스트라 public subnet으로 선택한다.  

일반적으로는 private subnet에 설치하자.

m4.large로 사양을 변경해보자


7

테스트 이므로 Debugging , Termination protection 체크 해지


8

미리 생성한 EC2 Key pair로 변경 

ec2 > key pairs > test-emr


9

role 선택

Custom으로 변경

디폴트로 생성한다.

or 

EMR roel : 새로 생성  EMR_DefaultRole  (임시로 admin 제공)

Ec2 role 선택 - seo-admin-role 선택

Auto Scaling role  : 사용하지 않음으로 선택 


10 

EC2 키페어를 지정한다.

Master 접속을 위해




<4>  Command Server 1대에서 EMR로 접속하자.


1

public에 Command Server 1대 만들자.

Command Server에 접속하자.


2

EMR 서버로 접속 하자




<5>  Hive 실행하자


1

Hive 로그 디렉토리 생성하기


2

Hive 실행하기


3

Hive로 테이블 생성하기


테이블1 생성하기

Hive 문을 실행하여  S3에 저장된 로그에서  외부 impressions 테이블을 생성한다.


테이블 2 생성하기



<6> 테이블 1, 테이블2  조인하기




<7>  결과 저장용 S3 에서 테이블 데이터 확인하기


파일은 Sequences 형식으로 , 하둡으로 해설할수 있지만 일반 텍스트는 아니다.




<10>  EMR 실습들 보기 


https://brunch.co.kr/@topasvga/2005


https://brunch.co.kr/@topasvga/1766

감사합니다. 

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari