brunch

7탄- 데이터-수집 1/7

by Master Seo

데이터를 수집하고, 데이터 전송하는 법을 알아보자.


<1> 빅데이터의 특징

<2> 데이터 수집 유형 3가지

<3> 키네시스 에이전트로 데이터를 쉽게 수집할 수 있다.

<4> IDC와 AWS 간 데이터 전송

<5> datasync, 스토리지 게이트웨이, S3 DistCP , Apache Sqoop로 데이터 이전하기

<6> 실습과 정리

<7> 다음 과정 , 키네시스

<8> 같이 보면 좋을 자료 ~



<1> 빅데이터의 특징

볼륨이 크다

속도

수집 데이터의 다양성



빅데이터는

데이터 볼륨이 크다

데이터가 빠르게 생성된다. 빠르게 처리해야 하는 경우도 있다.

데이터가 다양하다. 서버 데이터, 영상 데이터등



1

정형 데이터?

규칙이 있는 것

의미 파악이 가능한 것

남자, 여자


2

비 정형 데이터?

정해진 규칙이 없는 것

의미 파악이 힘든 것

책의 텍스트 데이터, 영상 정보


3

데이터 처리 ?

데이터 --> 수집(저장) ----> 처리/분석(저장) ---------------------> 시각화(저장) --------> 의사 결정

Kinesis ,S3 EMR , Elastic Search, S3 QuickSight , S3



4

순서 예)

데이터-----키네시스---- EMR ------- 다이나모 디비--- S3 ---- Redshift --- QuickSight -- 의사결정



5

도구 선택 체크리스트 ?

정형 데이터 ? 비정형 데이터?

처리 시간? 분단위? 하루?

처리량?




<2> 데이터 수집 유형 3가지


1

트랜잭션 데이터?

데이터 베이스에 저장


웹서버로 수집 ----------- 데이터 베이스(RDS 등)



2

파일 데이터?

파일 올리고, 센터 데이터 파일로 올라가는 데이터~


모바일앱, 센서, IOT디바이스 등으로 수집 --------- 클라우드 스토리지 (S3)



3

스트리밍 데이터?

데이터를 로드하는 것, 주로 음악이나 동영상 등 멀티미디어 데이터

스트리밍 데이터 수집 --------- 스트림 스토리지 (Kinesis)




<3> 키네시스 에이전트로 데이터를 쉽게 수집할 수 있다.


data stream , data firehose에 직접 쓸 수 있다.

https://docs.aws.amazon.com/ko_kr/streams/latest/dev/writing-with-agents.html

서버에 설치해보자~

키네시스에서 데이터를 수집한다.




<4> IDC와 AWS 간 데이터 전송


1

VPN 연결

10 080118_0021_AWSVPN1.png


2

전용선 연결(DX) 연결

20 dx.png


3

S3로 멀티파트 업로드


4

Snowball (물리적 이전)




<5> datasync, 스토리지 게이트웨이, S3DistCP , Apache Sqoop로 데이터 이전하기


1

온프라미스 -> S3로 데이터 가져온다.

datasync


2

온프라미스 -> S3로 데이터 가져온다.

스토리지 게이트웨이

https://docs.aws.amazon.com/ko_kr/storagegateway/latest/userguide/WhatIsStorageGateway.html


3

S3 -> EMR HDFS로 데이터 복사 ( S3에 저장된 데이터를 하둡으로 복사하기 위해 사용하는 툴)

S3 DistCP

https://aws.amazon.com/ko/premiumsupport/knowledge-center/copy-s3-hdfs-emr/


4

Amazon S3, 하둡, HDFS 와 RDBMS 데이터베이스 간에 데이터를 전송하기 위한 도구

데이터를 HDFS -> RDS로 전송 -> HDFS로 전송 가능

Apache Sqoop (커넥터 연결툴이다)

https://docs.aws.amazon.com/ko_kr/emr/latest/ReleaseGuide/emr-sqoop.html



5

정리?

S3 -------S3 DistCP 사용------ > EMR HDFS로 -------- Apache Sqoop 사용 -------> DBMS (RDS등)




<6> 실습과 정리


https://brunch.co.kr/@topasvga/1219









<7> 다음 과정 , 키네시스


https://brunch.co.kr/@topasvga/1311




<8> 같이 보면 좋을 자료 ~


https://brunch.co.kr/@topasvga/1766


https://brunch.co.kr/@topasvga/2698


감사합니다.

keyword
매거진의 이전글(몰아보기)17탄-AWS 데이터 최대 활용