brunch

434. EMR로 google Books분석

EMR 클러스터를 생성 실습

by Master Seo

EMR (Elastic MapReduce ) , 관리형 하둡 프레임워크



큰그림

아마존 빅데이터 솔루션중 하나인 EMR 클러스터를 생성

Hive를 실행하여 S3 스토리지에 저장된 데이터에 대한 테이블 생성

Hive를 실행해 원하는 데이터를 확인한다.



<1> EMR 클러스터 생성

<2> EMR 클러스터 연결하기

<3> 데이터 분석하기



<1> EMR 클러스터 생성


1

EMR > 클러스터 생성 > 고급으로 이동

소프트웨어 구성 (Hive 2.3.7 )이 기본으로 제공된다. > 다음

네트워크 변경하기 >

노드 타입

마스터 1 , 코어 2 인스턴스가 기본 > 다음


2

seo-cluster

로깅 체크 해지

종료보호 해지

// 사용자 지정 AMI가 있다. 이부분을 사용하면 보안 강화된 이미지를 사용할수 있다.

다음


3

EC2 키페어

사용자 키 페어 선택한다.


4

권한

사용자 지정 으로 변경

EMR 역할 : EMR_DefaultRole (디폴트 사용)

EC2 인스턴스 프로파일 : EMR_EC2_DefaultRole (디폴트 사용)


5

보안그룹

// ElasticMapReduce 허용하는 보안그룹 선택


> 클러스터 생성하기





<2> EMR 클러스터 연결하기


1

EMR > 클러스터 목록 > 클러스터 클릭 >

마스터 공인 DNS 확인하기 : ec2-18-xxx-xxx-xxx.compute-1.amazonaws.com



2

점프 호스트에 로그온해서, EMR 클러스터 연결하기


putty와 pageant 프로그램 다운 로드

https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html


데이터

https://en.wikipedia.org/wiki/Google_Ngram_Viewer

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

https://aws.amazon.com/ko/datasets/google-books-ngrams/





<3> 데이터 분석하기


hive 연결 , 실행

// 입력 코드

1 다운로드.png


감사합니다.



keyword
매거진의 이전글433. Bigdata 분석하기,EMR생성