데이터를 수집하고, 데이터 전송하는 법을 알아보자.
<1> 빅데이터의 특징
<2> 데이터 수집 유형 3가지
<3> 키네시스 에이전트로 데이터를 쉽게 수집할 수 있다.
<4> IDC와 AWS 간 데이터 전송
<5> datasync, 스토리지 게이트웨이, S3 DistCP , Apache Sqoop로 데이터 이전하기
<6> 실습과 정리
<7> 다음 과정 , 키네시스
<8> 같이 보면 좋을 자료 ~
<1> 빅데이터의 특징
볼륨이 크다
속도
수집 데이터의 다양성
빅데이터는
데이터 볼륨이 크다
데이터가 빠르게 생성된다. 빠르게 처리해야 하는 경우도 있다.
데이터가 다양하다. 서버 데이터, 영상 데이터등
1
정형 데이터?
규칙이 있는 것
의미 파악이 가능한 것
남자, 여자
2
비 정형 데이터?
정해진 규칙이 없는 것
의미 파악이 힘든 것
책의 텍스트 데이터, 영상 정보
3
데이터 처리 ?
데이터 --> 수집(저장) ----> 처리/분석(저장) ---------------------> 시각화(저장) --------> 의사 결정
Kinesis ,S3 EMR , Elastic Search, S3 QuickSight , S3
4
순서 예)
데이터-----키네시스---- EMR ------- 다이나모 디비--- S3 ---- Redshift --- QuickSight -- 의사결정
5
도구 선택 체크리스트 ?
정형 데이터 ? 비정형 데이터?
처리 시간? 분단위? 하루?
처리량?
<2> 데이터 수집 유형 3가지
1
트랜잭션 데이터?
데이터 베이스에 저장
웹서버로 수집 ----------- 데이터 베이스(RDS 등)
2
파일 데이터?
파일 올리고, 센터 데이터 파일로 올라가는 데이터~
모바일앱, 센서, IOT디바이스 등으로 수집 --------- 클라우드 스토리지 (S3)
3
스트리밍 데이터?
데이터를 로드하는 것, 주로 음악이나 동영상 등 멀티미디어 데이터
스트리밍 데이터 수집 --------- 스트림 스토리지 (Kinesis)
<3> 키네시스 에이전트로 데이터를 쉽게 수집할 수 있다.
data stream , data firehose에 직접 쓸 수 있다.
https://docs.aws.amazon.com/ko_kr/streams/latest/dev/writing-with-agents.html
서버에 설치해보자~
키네시스에서 데이터를 수집한다.
<4> IDC와 AWS 간 데이터 전송
1
VPN 연결
2
전용선 연결(DX) 연결
3
S3로 멀티파트 업로드
4
Snowball (물리적 이전)
<5> datasync, 스토리지 게이트웨이, S3DistCP , Apache Sqoop로 데이터 이전하기
1
온프라미스 -> S3로 데이터 가져온다.
datasync
2
온프라미스 -> S3로 데이터 가져온다.
스토리지 게이트웨이
https://docs.aws.amazon.com/ko_kr/storagegateway/latest/userguide/WhatIsStorageGateway.html
3
S3 -> EMR HDFS로 데이터 복사 ( S3에 저장된 데이터를 하둡으로 복사하기 위해 사용하는 툴)
S3 DistCP
https://aws.amazon.com/ko/premiumsupport/knowledge-center/copy-s3-hdfs-emr/
4
Amazon S3, 하둡, HDFS 와 RDBMS 데이터베이스 간에 데이터를 전송하기 위한 도구
데이터를 HDFS -> RDS로 전송 -> HDFS로 전송 가능
Apache Sqoop (커넥터 연결툴이다)
https://docs.aws.amazon.com/ko_kr/emr/latest/ReleaseGuide/emr-sqoop.html
5
정리?
S3 -------S3 DistCP 사용------ > EMR HDFS로 -------- Apache Sqoop 사용 -------> DBMS (RDS등)
<6> 실습과 정리
https://brunch.co.kr/@topasvga/1219
<7> 다음 과정 , 키네시스
https://brunch.co.kr/@topasvga/1311
<8> 같이 보면 좋을 자료 ~
https://brunch.co.kr/@topasvga/1766
https://brunch.co.kr/@topasvga/2698
감사합니다.