이론, 절차 확인하기
S3에 저장된 서버로그 2가지를 EMR HIVE로 처리하자
<1> S3에 저장된 서버로그 2가지를 EMR HIVE로 처리 순서
<2> 결과 저장용 S3 생성
<3> EMR 생성, Hive 설치
<4> Command Server 1대에서 EMR로 접속하자.
<5> Hive 실행하자
<6> 테이블 1, 테이블2 조인하기
<7> 결과 저장용 S3 에서 테이블 데이터 확인하기
<10> EMR 실습들 보기
<1> S3에 저장된 서버로그 2가지를 EMR 에서 처리 순서
구성?
S3 버킷 2개 ----EMR ----- 결과저장은 S3
1
서버로그를 S3 2곳에 저장하자
2
ERM 처리하자
3
EMR로 테이블 Join 하자
4
S3에 저장하자
<2> 결과 저장용 S3 생성
hive-bucket-seo123
<3> EMR 생성, Hive 설치
1
VPC 생성
public subnet 2개 생성
2
EMR 접속을 위해 미리 EC2 Keypair를 생성한다.
3
Role이 필요한 서비스이다. 미리 Role을 만들자.
or
admin 계정으로 role생성하며 설치
4
EMR 생성시, 보안그룹에서 10.0.0.0/8 ssh 허용하여 EMR Master에 접속 가능하도록 하자.
Master에서 작업한다.
5
EMR > Go to advanced options로 변경한다.
Hadoop 과 Hive만 설치하자.
6
내트워크를 선택한다.
Subnet을 선택 , 여기서는 테스트라 public subnet으로 선택한다.
일반적으로는 private subnet에 설치하자.
m4.large로 사양을 변경해보자
7
테스트 이므로 Debugging , Termination protection 체크 해지
8
미리 생성한 EC2 Key pair로 변경
ec2 > key pairs > test-emr
9
role 선택
Custom으로 변경
디폴트로 생성한다.
or
EMR roel : 새로 생성 EMR_DefaultRole (임시로 admin 제공)
Ec2 role 선택 - seo-admin-role 선택
Auto Scaling role : 사용하지 않음으로 선택
10
EC2 키페어를 지정한다.
Master 접속을 위해
<4> Command Server 1대에서 EMR로 접속하자.
1
public에 Command Server 1대 만들자.
Command Server에 접속하자.
2
EMR 서버로 접속 하자
<5> Hive 실행하자
1
Hive 로그 디렉토리 생성하기
2
Hive 실행하기
3
Hive로 테이블 생성하기
테이블1 생성하기
Hive 문을 실행하여 S3에 저장된 로그에서 외부 impressions 테이블을 생성한다.
테이블 2 생성하기
<6> 테이블 1, 테이블2 조인하기
<7> 결과 저장용 S3 에서 테이블 데이터 확인하기
파일은 Sequences 형식으로 , 하둡으로 해설할수 있지만 일반 텍스트는 아니다.
<10> EMR 실습들 보기
https://brunch.co.kr/@topasvga/2005
https://brunch.co.kr/@topasvga/1766
감사합니다.