EMR 과 HIVE로 파일 분석하여 결과를 얻어내자. 이론
목차
<0> 하둡 시스템으로 Bigdata를 분석해보자.
<1> S3 만들기
<2> EMR 만들기
<3> HIVE 스크립트로 데이터 처리하기
<4> 결과 확인
<5> EMR 종료하기
<0> 하둡 시스템으로 Bigdata를 분석해보자.
AWS EMR 서비스를 사용하여 서버를 만들고 HIVE로 분석하자.
로그파일과 출력 데이터는 S3 스토리지에 저장된다.
다운로드해서 확인한다.
CloudFront 의 로그 데이터를 처리하는 동작이다.
구성
<1> S3 만들기
S3 > 버킷 생성하기
service-emr-s3
<2> EMR 만들기
1
EMR > 클러스터 생성 > 전문가 옵션 으로 이동
소프트웨어 구성 다음 >
2
하드웨어 > 네트워크 변경하기 > EC2 서브넷
Master 를 m4.xlarge 로 변경하기
Core 를 m4.xlarge 로 변경하기
다음
3
클러스터 이름
service-emr
Logging S3 폴더 클릭 > 앞에서 만든 S3로 변경하기
테미네이션 방지 체크 해지
다음
4
권한
사용자 지정으로 변경
EMR역할 : EMR_DefaultRole 유지 (aws 서비스 : elasticmapreduce )
EC2 인스턴스 프로파일 : EMR_EC2_DefaultRole 유지 (aws 서비스 : ec2)
> 클러스터 생성
Apache Hadoop
테이터 세트를 효율적으로 처리하는데 사용할수 있는 하둡
Hive
하둡 클러스터 위에서 실행되는 오픈 소스 데이터 분석 패키지
<3> HIVE 스크립트로 데이터 처리하기
1
EMR > 단계 탭 > 단계 추가 > 단계 유형 : 하이브 프로그램
이름 : hive11
스크립트 S3 위치
s3://<REGION>.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q
s3://us-west-2.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q
2
입력 S3 위치
s3://us-west-2.elasticmapreduce.samples
3
출력 S3 위치
선택
4
인수
-hiveconf hive.support.sql11.reserved.keywords=false
> 추가
5
CloudFront 의 로그 데이터를 처리하는 동작이다.
로그 데이터
<4> 결과 확인
1
S3에서 확인한다.
다운로드도 가능하다.
2
접속한 운영체제와 숫자를 확인할수 있다.
<5> EMR 종료하기
EMR > 종료하기
감사합니다.