brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jan 27. 2023

 NCP 10탄-데이터 분석 파이프라인 33/35


네이버 클라우드의 다양한 분석 환경 구성을 알려준다.

데이터 분석 파이프라인 구축


<1> 데이터 분석  Flow

<2> 수집

<3> 분석 



<1> 데이터 분석  Flow


1

데이터 소스?

API? , Database? , log? , File storage


2

데이터 수집/변환?


3

스토리지/분석?


4

ML/BI?

수집/변환 / 스토리지 저장/분석



<2> 수집



1

오브젝트 스토리지에 저장 = Data Lake 


2

온프라미스와 연결할 수 있는 방법 2가지

IDC와 전용선을 연결하는 Cloud Connect 

인터넷 망을 이용한  IPsec VPN 사용



<3> 분석 




1

네이버 클라우드에서는 빅데이터 분석을 위한 Hadoop Echosystem을 제공하고 있다.



2

HDFS , HIVE, HBASE , APACHE SPARK 제공


3

고가용성의 스토리지 및 노드 제공.

로컬 HDFS 스토리지에 저장해 사용가능.

OBJECT  스토리지를 이용해서도 사용이 가능하다.


4

분석 파이프라인?

데이터 전처리  한다.

오브젝트 스토리지에 저장한다.

분석을 해야 한다.

Hive를 이용해 데이터를 질의를 할 수 있다.

분산처리 쿼리 엔진인 Presto를 이용해서 보다 빠르게 질의를 날릴 수 있는 기능도 제공하고 있다.

칼럼 기반의 데이터 분석 하기 위해서  KUDU 칼럼기반 스토리지 임팔라 같은 쿼리 엔진도 준비하고 있다.  (2023년 1월 현재 출시 예정)



5

Cloud DATA BOX


6

Cloud DATA BOX에서 NAVER 데이터  활용한 인사이트 도출

이용 가능한 네이버 데이터


결과만 가져갈 수 있다.




다음

https://brunch.co.kr/@topasvga/2973


감사합니다.

매거진의 이전글 NCP 10탄-네이버의 빅데이터 활용하기 32/35
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari