brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Nov 07. 2020

7탄- 데이터-수집 1/7

데이터를 수집하고, 데이터  전송하는 법을 알아보자.


<1> 빅데이터의 특징

<2> 데이터  수집 유형 3가지

<3> 키네시스 에이전트로 데이터를 쉽게 수집할 수 있다.

<4>  IDC와 AWS 간  데이터 전송

<5>   datasync, 스토리지 게이트웨이,  S3 DistCP , Apache Sqoop로 데이터 이전하기

<6> 실습과 정리

<7> 다음 과정 , 키네시스

<8>  같이 보면 좋을 자료 ~



<1> 빅데이터의 특징

볼륨이 크다

속도

수집 데이터의  다양성



빅데이터는  

데이터 볼륨이 크다

데이터가 빠르게 생성된다. 빠르게 처리해야 하는 경우도 있다.

데이터가 다양하다. 서버 데이터, 영상 데이터등



1

정형 데이터?  

규칙이 있는 것

의미 파악이 가능한 것

남자, 여자


2

비 정형 데이터? 

정해진 규칙이 없는 것 

의미 파악이 힘든 것 

책의 텍스트 데이터, 영상 정보


3

데이터 처리 ?

데이터 --> 수집(저장) ----> 처리/분석(저장) ---------------------> 시각화(저장) --------> 의사 결정

                   Kinesis ,S3      EMR  , Elastic Search, S3               QuickSight , S3 



4

순서 예) 

데이터-----키네시스---- EMR ------- 다이나모 디비---   S3  ---- Redshift --- QuickSight  -- 의사결정



5

도구 선택 체크리스트 ?

정형 데이터 ?  비정형 데이터?

처리 시간?   분단위?  하루?

처리량?




<2> 데이터  수집 유형 3가지


1

트랜잭션 데이터?

데이터 베이스에 저장


웹서버로 수집 ----------- 데이터 베이스(RDS 등)



2

파일 데이터?

파일 올리고, 센터 데이터 파일로 올라가는 데이터~


모바일앱, 센서, IOT디바이스 등으로 수집  --------- 클라우드 스토리지 (S3)



3

스트리밍 데이터?

데이터를 로드하는 것, 주로 음악이나 동영상 등 멀티미디어 데이터 

스트리밍 데이터 수집 --------- 스트림 스토리지 (Kinesis)




<3> 키네시스 에이전트로 데이터를 쉽게 수집할 수 있다.


data stream , data firehose에 직접 쓸 수 있다.

https://docs.aws.amazon.com/ko_kr/streams/latest/dev/writing-with-agents.html

서버에 설치해보자~

키네시스에서 데이터를 수집한다.




<4>  IDC와 AWS 간  데이터 전송


1

VPN 연결


2

전용선 연결(DX) 연결


3

S3로  멀티파트 업로드


4

Snowball (물리적 이전)




<5>   datasync, 스토리지 게이트웨이,  S3DistCP , Apache Sqoop로 데이터 이전하기


1

온프라미스 ->  S3로 데이터 가져온다.   

datasync


2

온프라미스 ->  S3로 데이터 가져온다.  

스토리지 게이트웨이

https://docs.aws.amazon.com/ko_kr/storagegateway/latest/userguide/WhatIsStorageGateway.html


3

S3 -> EMR  HDFS로 데이터 복사    ( S3에 저장된 데이터를 하둡으로 복사하기 위해 사용하는 툴)

S3 DistCP

https://aws.amazon.com/ko/premiumsupport/knowledge-center/copy-s3-hdfs-emr/


4

Amazon S3, 하둡, HDFS 와  RDBMS 데이터베이스 간에 데이터를 전송하기 위한 도구

데이터를 HDFS -> RDS로 전송 ->  HDFS로 전송 가능

Apache Sqoop  (커넥터 연결툴이다)

https://docs.aws.amazon.com/ko_kr/emr/latest/ReleaseGuide/emr-sqoop.html



5

정리?

S3  -------S3 DistCP 사용------ > EMR  HDFS로 -------- Apache Sqoop 사용 -------> DBMS (RDS등)




<6> 실습과 정리


https://brunch.co.kr/@topasvga/1219









<7> 다음 과정 , 키네시스


https://brunch.co.kr/@topasvga/1311




<8>  같이 보면 좋을 자료 ~


https://brunch.co.kr/@topasvga/1766


https://brunch.co.kr/@topasvga/2698


감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari