brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Oct 16. 2023

네이버 14탄-19. Analytics

네이버클라우드 PRO - 네트워크,스토리지

<1> CLA(Cloud Log Analytics) = 로그들을 한 곳에 모아 분석,에이전트 설치 필요

<2> RUA(Real User Analytics) = 웹사이트 접속 사용자 성능정보 실시간 분석

<3> ELSA(Effective Log Search and Analytics) = 애플리케이션 로그를 분석

<4> Cloud Hadoop = Apache Haddop 등 오픈 소스기반 완전 관리형 분석 서비스

<5> Cloud Search = 클라우드 기반 검색 서비스 구현

<6> Search Engine Service = Elasticsearch 클러스터 관리형 서비스

<7> Data Analytics Service = 웹사이트 방문 행동 데이터 분석

<8> Cloud Data Streaming Service = 실시간 스트리밍 Kafka Cluser

<9> Data Forest = 빅데이터 분석, 머신러닝 빅데이터 분석 플랫폼

<10> HEaaN Homomorphic Analytics = 동형암호 기술 활용한 데이터 분석

<11> Cloud Data Box = 네이버 온라인 행동 데이터와 분석 인프라 제공




<1> CLA(Cloud Log Analytics) = 로그들을 한 곳에 모아 분석,에이전트 설치 필요


1

로그 관리 서비스 

// AWS Cloud Watch logs와 동일.


2

로그 수집 서버 선택

에이전트 설치 필요

CLI만 에이전트 설치가 필요하다!!!



3

Object Storage 사용한다 = 연계 되어 있다.


4

영구 보관은?

Export log를 통해 Object Storage 사용


5

Custom log기능 제공

2개 이상의 저장소에 분산 보관 된다!!



7

CLA연계 자동연계 아닌것은?

server ?




<2> RUA(Real User Analytics) = 웹사이트 접속 사용자 성능정보 실시간 분석


1

실제 웹사이트 접속하는 End-user 단에서 체감 성능 정보를 수집

국가, OS, 브라우저, 페이지별 속도 정보를 제공한다.

리얼타입 유저 분석!!



2

프로젝트 생성 > 웹사이트 주소 입력 = 프로젝트 단위로 생성한다.



3

현재 시간 기준으로 30분 이전까지 Web Performance 성능 지표를 분석하여, 실시간 대시보드 형태로 

제공하고 있습니다.

30분 이내 발생한 정보 확인 !!



4

Real User Analytics(RUA) 서비스는 사용자의 실제 서비스 코드에 분석 스크립트를 직접 주입  

[출처] [신규 상품] Real User Analytics (R.U.A) - 클라우드 웹 페이지 속도 및 품질 측정 상품|작성자 NAVER Cloud Platform







<3> ELSA(Effective Log Search and Analytics) = 애플리케이션 로그를 분석


1

Console?

프로젝트 관리 

로그 검색 (Log Search) = 기본값 24시간 발생 로그 개수, 상세 로그 형태 제공.

모바일 크래시 로그 조회 = MC의 App Crash에서 iOS와 Android 단말의 크래시 정보 확인.  

24시간 크래시 로그 및 횟수 그래프 제공.

실시간 제공???



2

API?

Log API




<4> Cloud Hadoop = Apache Haddop 등 오픈 소스기반 완전 관리형 분석 서비스


1

컴퓨팅 노드와 스토리지 분리 되어 제공 된다.

컴퓨팅 요구량 늘어나면?  필요한 성능만큼 컴퓨팅 노드 생성사용


2

용량 걱정할 필요 없는 Object Storage 사용


지원 클러스터 타입 ?

HDFS

YARN

Zookeeper

Ranger

HIVE

Hue

Zeppelin Notebook

Spark 


// impala는 클러스터에 포함 안된다.



3

다양한 프레임 워크 지원?

Hadoop

Hbase

Spark

Hive

Prestor



// TAJO는 안지원



4

클러스토 타입은 4가지 제공.

Cloud Hadoop 

클러스터 관리도구인 Ambari의 Add Service기능을 사용하여 추가할 수 있다.


5

Cloud Hadoop  작업자 노드 ?

마스터 노드의 명령을 받아 실제 데이터 분석 등의 작업을 수행하는 노드. 

작업자 노드 = 최초 생성은 최소 2개, 최대 8개



6

사용 하는 스토리지는?

Object Stoage ?

Archive Storage ?




<5> Cloud Search = 클라우드 기반 검색 서비스 구현


1

복잡한 검색 서비스를 몇 번의 클릭만으로 쉽게 구성


2

DB연동됨.

DB서버에 있는 데이터를 이용하여 Cloud Search상품의 도메일을 생성하거나 문서로 변환하여 업로드할 수 있다.

MYSQL 5.X , MariaDB지원



3

리소스 모니터링?

최근 3개월만 가능하다.


가능한 것은???


index요청건수

검색응답 사이즈

NAS 사용량

Memory 사용량

Reindex문서 크기

자동 완성 갱신 건수



4

Elasticsearch API사용 가능

시각화 도구인 Kibana 지원





<6> Search Engine Service = Elasticsearch 클러스터 관리형 서비스


1

2대 매니저 노드 + 3대 이상의 데이터 노드 =  최소 5대 이상 구성.


2

매니저 노드?

외부에서 데이터 전송 / 검색은 Load Balancer IP주소

내부에서 데이터 전송/검색은 매니저 노드의 사설 IP주소로 이루어진다.

Kibana는 매니저 노드에 설치딤. 외부에서 LB로 접속


3

데이터 노드?

데이터가 저장되는 서버

코디네이트 노드로만 통신.

이중화 동작


4

Object Storage와 연계하여 Snapshot기능을 제공한다.

다른 클러스터로 데이터 이동 가능.






<7> Data Analytics Service = 웹사이트 방문 행동 데이터 분석


1

네이버 애널리틱스에서 수집하는 사이트 방문 로그, 유입 검색어에 대한 통한 수치 지표인 사이트 유입 검색어, 검색어 데이터가 제공


2

네이버 애널리틱, 네이버 쇼핑 데이터를 통해 내 사이트 방문자는 어떤 사람인지, 언제, 어디로부터 유입인지, 어떤 키워드와 페이지에 관심이 있는지 고객 행동 추이를 네이버 데이터를 통해 이해. 

온라인 마케팅에 이용.


3

데이터 저장용 스토로지 = Object Storage 20TB

데이터 분석용 서버 = SSD High Memory 서버 1대

데이터 분석용 데이터베이스 = Postgre SQL

데이터베이스 스토리지 = Block Storage 2T

분석 결과 시각화 도구 = BI (Business Intelligence SW )




<8> Cloud Data Streaming Service = 실시간 스트리밍 Kafka Cluser


1

Manager 노드(CMAK) 1대, Broker 노드 최소 3대~최대 10대로 시작

1 , 3


2

Manager 노드는 Public Subnet , Broker 노드는 Private에 배치 가능.


3

CLA연동 로그 수집 필수!!!




<9> Data Forest = 빅데이터 분석, 머신러닝 빅데이터 분석 플랫폼


1

Apache Hadoop기반의 대용량 먼 티테넌트 빅데이터 처리 클러스터.


2

데이터 저장 및 작업 요청 = HDFS에 데이터 저장. YARN에 작업 요청하여 컨테이너를 할당받아 작업

빅데이터 에코 시스템 제공 = Spark , Hive , Presto , Airflow , Jupter 




<10> HEaaN Homomorphic Analytics = 동형암호 기술 활용한 데이터 분석



금융, 의료, 공공 분야는 개개인의 민감한 정보, 다양한 규제 적용. 데이터를 비 식별화해야만 통계 분석이 가능.

개인 정보 보호해야 할 경우 필요.




<11> Cloud Data Box = 네이버 온라인 행동 데이터와 분석 인프라 제공


고객이 데이터르 기반으로 비즈니스 인사이트를 발굴할 수 있도록 도와드리는 종합 설루션.

데이터 분석 인프라

네이버 데이터

고객 데이터 연계

전문 파트너를 한 번에 제공.


네이버 데이터뿐만 아니라 고객 데이터도 함께 넣어 붆석 가능.


네이버 데이터

데이터 분석 인프라 = SSL VPN , Connect Server , Hadoop Cluster , Tensor flow Server. NAS 등 한 번에 구축 제공.




다음은 전체 내용 모아보기

https://brunch.co.kr/@topasvga/3482



감사합니다.







매거진의 이전글 네이버 14탄-18. Management
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari