네이버 클라우드의 다양한 분석 환경 구성을 알려준다.
데이터 분석 파이프라인 구축
<1> 데이터 분석 Flow
<2> 수집
<3> 분석
<1> 데이터 분석 Flow
1
데이터 소스?
API? , Database? , log? , File storage
2
데이터 수집/변환?
3
스토리지/분석?
4
ML/BI?
수집/변환 / 스토리지 저장/분석
<2> 수집
1
오브젝트 스토리지에 저장 = Data Lake
2
온프라미스와 연결할 수 있는 방법 2가지
IDC와 전용선을 연결하는 Cloud Connect
인터넷 망을 이용한 IPsec VPN 사용
<3> 분석
1
네이버 클라우드에서는 빅데이터 분석을 위한 Hadoop Echosystem을 제공하고 있다.
2
HDFS , HIVE, HBASE , APACHE SPARK 제공
3
고가용성의 스토리지 및 노드 제공.
로컬 HDFS 스토리지에 저장해 사용가능.
OBJECT 스토리지를 이용해서도 사용이 가능하다.
4
분석 파이프라인?
데이터 전처리 한다.
오브젝트 스토리지에 저장한다.
분석을 해야 한다.
Hive를 이용해 데이터를 질의를 할 수 있다.
분산처리 쿼리 엔진인 Presto를 이용해서 보다 빠르게 질의를 날릴 수 있는 기능도 제공하고 있다.
칼럼 기반의 데이터 분석 하기 위해서 KUDU 칼럼기반 스토리지 임팔라 같은 쿼리 엔진도 준비하고 있다. (2023년 1월 현재 출시 예정)
5
Cloud DATA BOX
6
Cloud DATA BOX에서 NAVER 데이터 활용한 인사이트 도출
이용 가능한 네이버 데이터
결과만 가져갈 수 있다.
다음
https://brunch.co.kr/@topasvga/2973
감사합니다.