brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Aug 02. 2020

434. EMR로 google Books분석

EMR 클러스터를 생성 실습

EMR  (Elastic MapReduce ) , 관리형 하둡 프레임워크



큰그림

아마존 빅데이터 솔루션중 하나인 EMR 클러스터를 생성

Hive를 실행하여 S3 스토리지에 저장된 데이터에 대한  테이블 생성

Hive를 실행해 원하는 데이터를 확인한다.



<1>  EMR 클러스터 생성

<2>  EMR 클러스터 연결하기

<3>  데이터 분석하기



<1>  EMR 클러스터 생성


1

EMR > 클러스터  생성   >  고급으로 이동 

소프트웨어 구성  (Hive 2.3.7 )이 기본으로 제공된다.   >  다음   

네트워크   변경하기  > 

노드 타입

마스터 1 ,  코어 2 인스턴스가 기본 > 다음


2

seo-cluster

로깅  체크 해지

종료보호  해지

// 사용자 지정 AMI가 있다. 이부분을 사용하면 보안 강화된 이미지를 사용할수 있다.

다음


3

EC2 키페어

사용자 키 페어 선택한다.


4

권한

사용자 지정 으로 변경 

EMR 역할  : EMR_DefaultRole (디폴트 사용)

EC2 인스턴스 프로파일 : EMR_EC2_DefaultRole  (디폴트 사용)


5

보안그룹

// ElasticMapReduce 허용하는 보안그룹 선택


> 클러스터 생성하기





<2>  EMR 클러스터 연결하기


1

EMR > 클러스터 목록 >  클러스터 클릭 >  

마스터 공인  DNS  확인하기   :  ec2-18-xxx-xxx-xxx.compute-1.amazonaws.com 



2

점프 호스트에 로그온해서,   EMR 클러스터 연결하기


putty와 pageant 프로그램 다운 로드

https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html


데이터

https://en.wikipedia.org/wiki/Google_Ngram_Viewer

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

https://aws.amazon.com/ko/datasets/google-books-ngrams/





<3>  데이터 분석하기


hive 연결 , 실행

// 입력 코드


감사합니다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari