brunch

433. Bigdata 분석하기,EMR생성

EMR 과 HIVE로 파일 분석하여 결과를 얻어내자. 이론

by Master Seo

목차

<0> 하둡 시스템으로 Bigdata를 분석해보자.

<1> S3 만들기

<2> EMR 만들기

<3> HIVE 스크립트로 데이터 처리하기

<4> 결과 확인

<5> EMR 종료하기




<0> 하둡 시스템으로 Bigdata를 분석해보자.

AWS EMR 서비스를 사용하여 서버를 만들고 HIVE로 분석하자.

로그파일과 출력 데이터는 S3 스토리지에 저장된다.

다운로드해서 확인한다.

CloudFront 의 로그 데이터를 처리하는 동작이다.



구성


vpc_default_v3a.png





<1> S3 만들기


S3 > 버킷 생성하기

service-emr-s3



<2> EMR 만들기


1

EMR > 클러스터 생성 > 전문가 옵션 으로 이동

소프트웨어 구성 다음 >


2

하드웨어 > 네트워크 변경하기 > EC2 서브넷

Master 를 m4.xlarge 로 변경하기

Core 를 m4.xlarge 로 변경하기

다음


3

클러스터 이름

service-emr


Logging S3 폴더 클릭 > 앞에서 만든 S3로 변경하기

테미네이션 방지 체크 해지

다음



4

권한

사용자 지정으로 변경

EMR역할 : EMR_DefaultRole 유지 (aws 서비스 : elasticmapreduce )

EC2 인스턴스 프로파일 : EMR_EC2_DefaultRole 유지 (aws 서비스 : ec2)

> 클러스터 생성



Apache Hadoop

테이터 세트를 효율적으로 처리하는데 사용할수 있는 하둡


Hive

하둡 클러스터 위에서 실행되는 오픈 소스 데이터 분석 패키지





<3> HIVE 스크립트로 데이터 처리하기

1

EMR > 단계 탭 > 단계 추가 > 단계 유형 : 하이브 프로그램

이름 : hive11

스크립트 S3 위치

s3://<REGION>.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q

s3://us-west-2.elasticmapreduce.samples/cloudfront/code/Hive_CloudFront.q


2

입력 S3 위치

s3://us-west-2.elasticmapreduce.samples


3

출력 S3 위치

선택


4

인수

-hiveconf hive.support.sql11.reserved.keywords=false


> 추가


5

CloudFront 의 로그 데이터를 처리하는 동작이다.

로그 데이터



<4> 결과 확인


1

S3에서 확인한다.

다운로드도 가능하다.

100 s3 다운로드.png


2

접속한 운영체제와 숫자를 확인할수 있다.




<5> EMR 종료하기


EMR > 종료하기



감사합니다.

keyword
매거진의 이전글432. 미디어 서비스 + AI 서비스