EMR 클러스터를 생성 실습
EMR (Elastic MapReduce ) , 관리형 하둡 프레임워크
큰그림
아마존 빅데이터 솔루션중 하나인 EMR 클러스터를 생성
Hive를 실행하여 S3 스토리지에 저장된 데이터에 대한 테이블 생성
Hive를 실행해 원하는 데이터를 확인한다.
<1> EMR 클러스터 생성
<2> EMR 클러스터 연결하기
<3> 데이터 분석하기
<1> EMR 클러스터 생성
1
EMR > 클러스터 생성 > 고급으로 이동
소프트웨어 구성 (Hive 2.3.7 )이 기본으로 제공된다. > 다음
네트워크 변경하기 >
노드 타입
마스터 1 , 코어 2 인스턴스가 기본 > 다음
2
seo-cluster
로깅 체크 해지
종료보호 해지
// 사용자 지정 AMI가 있다. 이부분을 사용하면 보안 강화된 이미지를 사용할수 있다.
다음
3
EC2 키페어
사용자 키 페어 선택한다.
4
권한
사용자 지정 으로 변경
EMR 역할 : EMR_DefaultRole (디폴트 사용)
EC2 인스턴스 프로파일 : EMR_EC2_DefaultRole (디폴트 사용)
5
보안그룹
// ElasticMapReduce 허용하는 보안그룹 선택
> 클러스터 생성하기
<2> EMR 클러스터 연결하기
1
EMR > 클러스터 목록 > 클러스터 클릭 >
마스터 공인 DNS 확인하기 : ec2-18-xxx-xxx-xxx.compute-1.amazonaws.com
2
점프 호스트에 로그온해서, EMR 클러스터 연결하기
putty와 pageant 프로그램 다운 로드
https://www.chiark.greenend.org.uk/~sgtatham/putty/latest.html
데이터
https://en.wikipedia.org/wiki/Google_Ngram_Viewer
http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
https://aws.amazon.com/ko/datasets/google-books-ngrams/
<3> 데이터 분석하기
hive 연결 , 실행
// 입력 코드
감사합니다.