599. EMR Hive사용하기-절차 확인

이론, 절차 확인하기

by Master Seo

Dec 5. 2021

S3에 저장된 서버로그 2가지를 EMR HIVE로 처리하자

<1> S3에 저장된 서버로그 2가지를 EMR HIVE로 처리 순서

<2> 결과 저장용 S3 생성

<3> EMR 생성, Hive 설치

<4> Command Server 1대에서 EMR로 접속하자.

<5> Hive 실행하자

<6> 테이블 1, 테이블2 조인하기

<7> 결과 저장용 S3 에서 테이블 데이터 확인하기

<10> EMR 실습들 보기

<1> S3에 저장된 서버로그 2가지를 EMR 에서 처리 순서

구성?

S3 버킷 2개 ----EMR ----- 결과저장은 S3

서버로그를 S3 2곳에 저장하자

ERM 처리하자

EMR로 테이블 Join 하자

S3에 저장하자

<2> 결과 저장용 S3 생성

hive-bucket-seo123

<3> EMR 생성, Hive 설치

VPC 생성

public subnet 2개 생성

EMR 접속을 위해 미리 EC2 Keypair를 생성한다.

Role이 필요한 서비스이다. 미리 Role을 만들자.

admin 계정으로 role생성하며 설치

EMR 생성시, 보안그룹에서 10.0.0.0/8 ssh 허용하여 EMR Master에 접속 가능하도록 하자.

Master에서 작업한다.

EMR > Go to advanced options로 변경한다.

Hadoop 과 Hive만 설치하자.

내트워크를 선택한다.

Subnet을 선택 , 여기서는 테스트라 public subnet으로 선택한다.

일반적으로는 private subnet에 설치하자.

m4.large로 사양을 변경해보자

테스트 이므로 Debugging , Termination protection 체크 해지

미리 생성한 EC2 Key pair로 변경

ec2 > key pairs > test-emr

role 선택

Custom으로 변경

디폴트로 생성한다.

EMR roel : 새로 생성 EMR_DefaultRole (임시로 admin 제공)

Ec2 role 선택 - seo-admin-role 선택

Auto Scaling role : 사용하지 않음으로 선택

EC2 키페어를 지정한다.

Master 접속을 위해

<4> Command Server 1대에서 EMR로 접속하자.

public에 Command Server 1대 만들자.

Command Server에 접속하자.

EMR 서버로 접속 하자

<5> Hive 실행하자

Hive 로그 디렉토리 생성하기

Hive 실행하기

Hive로 테이블 생성하기

테이블1 생성하기

Hive 문을 실행하여 S3에 저장된 로그에서 외부 impressions 테이블을 생성한다.

테이블 2 생성하기

<6> 테이블 1, 테이블2 조인하기

<7> 결과 저장용 S3 에서 테이블 데이터 확인하기

파일은 Sequences 형식으로 , 하둡으로 해설할수 있지만 일반 텍스트는 아니다.

<10> EMR 실습들 보기

https://brunch.co.kr/@topasvga/2005

(몰아보기) Amazon EMR 실습

https://brunch.co.kr/@topasvga/493 https://brunch.co.kr/@topasvga/1228 https://brunch.co.kr/@topasvga/2009 https://brunch.co.kr/@topasvga/2006 https://brunch.co.kr/@topasvga/1229 https://bru

https://brunch.co.kr/@topasvga/2005

https://brunch.co.kr/@topasvga/1766

(몰아보기) AWS 분석 전문가 되기

https://brunch.co.kr/@topasvga/1634 https://brunch.co.kr/@topasvga/2004 https://brunch.co.kr/@topasvga/2005 https://brunch.co.kr/@topasvga/1751 https://brunch.co.kr/@topasvga/1633 https://brunch

https://brunch.co.kr/@topasvga/1766

감사합니다.

keyword

Master Seo 소속 클라우드전문가카페 직업 엔지니어

전) 네이버 엔지니어 7년, 네이버 클라우드 공인강사,마스터, PRO , AWS아키프로, Google프로아키, Azure어드민, CCNP, 맛집,여행 전문가, 좋은 기운을 주는사람

팔로워 2,545

매거진의 이전글598. EMR, S3, DynamoDB 사용600. EMR Monitoring을 통한 상태 모니터매거진의 다음글