05. Mass Data 통합과 실시간 분석으로 살펴보는 삼성전자의 분석
삼성전자의 빅데이터 플랫폼과 SmartThings 사례에서 실시간 분석 소개
<1> 삼성전자의 빅데이터 플랫폼에서 최초로 AWS Lake Formation을 적용한 사례
<2> SmartThings의 서버리스를 사용한 실시간 분석 사례
<3> 개인 정리
<1> 삼성전자의 빅데이터 플랫폼에서 최초로 AWS Lake Formation을 적용한 사례
1
실제로 레이트 하우스를 구축해서 전사 데이터를 통합 관리하게 되면,
실제 데이터를 사용하는 사용자들의 권한을 어떻게 관리할지에 대한 고민이 생긴다.
2
AWS Lake Formation 제약 사항?
카탈로그 수준의 공유 기능
TAG 기반 데이터 공유
FEDERATED QUERY의 공유 기능
3
삼성전자 데이터 조직이 빅데이터 센터로 통합됨
4
오픈소스로 운영 관리의 어려움
5
AWS Lake Formation?
데이터 레이크를 보다 쉽게 프로 비저닝 한다.
데이터 베이스 방식의 세밀한 권한 관리
확장에 대한 부분도 LF-Tag 기반으로 관리함으로써 확장 가능해짐.
6
해소하고자 하는 3가지?
ETL/ELT 과정 간소화
권한 관리 창구 일원화
사용자수 관리
<2> 삼성전자의 빅데이터 플랫폼만의 AWS Lake Formation 아키텍처
1
프로듀서 VPC?
독립된 서비스들로 데이터를 S3에 저장
2
컨슈머 VPC?
분석 플랫폼 제공
아테나 , EMR , Redshift 등 Lakehose 기반 분석 도구를 포함.
3
분석가들에게 제공하는 애플리케이션?
Hue , jupyterlab, superset 등 애플리케이션이 제공된다.
분석가들은 SSO로 애플리케이션 단에서 인증한다.
허용된 데이터만 접근 가능하도록 구성.
4
AWS Lake Formation?
메타데이터 및 데이터 접근은 모두 이를 통해 이루어지도록 되어 있다.
5
데이터 쉐어링 설정을 통해 글루 기반으로 메타 스토어가 공유된다.
S3접근 권한과 칼럼 또는 Row level security 가 Lake Formation으로 모두 대체되었다.
6
장점?
SSO 기반 유저 관리 - 임시 자격증명 사용 가능
민감 정보 마스킹
여러 프로젝트 간 공유 가능으로 손쉬운 레이크 하우스 환경 구성 가능해짐.
<3> SmartThings의 서버리스를 사용한 실시간 분석 사례
1
분석 플랫폼 현대화
2
현대화란?
아키텍처를 재설계하여 , 기업이 인프라 운영 부담에서 자유로워지는 것.
데이터로부터 비즈니스 가치 창출에 집중하도록 하는 것
3
SmartThings 란?
삼성전자의 IOT 플랫폼이다.
TV, 오디오, 세탁기 , 에어컨 등 가전제품부터 WIFI허브 포함 대략 20,000 여가지 이상 기기 지원.
전 세계 9,600만 개 이상 기기가 SmartThings에 등록되어 있음.
집에 있는 모든 기기를 집안, 집 밖에서 제오 할 수 있는 것.
4
전 세계 SmartThings 기기로부터의 데이터 수집과 처리.
전 세계 IOT기기와 사용자 행동 등의 이벤트에서 발생하는 데이터를 처리하고 있다.
5
SmartThings 데이터 분석 플랫폼 역할?
기기의 시작과 멈춤에 대한
사용기록
알람 내역
사용량 통계
분석 및 추천
6
현황?
초당 400MB , 시간당 1.4TB , 하루 동안 33 TB 데이터 실시간 처리
7
문제점?
오픈소스 하둡 에코시스템 빅데이터 분석 아키텍처의 어려움?
직접 관리하는 것은
오프소스에 대한 학습 소요시간 필요
하드웨어 소프트웨어 유지관리
컴퓨팅과 스토리지 용량 설계
처리량, 성능 최적화 및 고가 용석 확보
보안
8
EC2기반의 스파트 운영의 어려움?
하둡 클러스터의 확장성 어려움.
EC2 기반 스파크의 기능 제약
9
애플리케이션 지연, 수동 복구 처리 온콜 발생!! 담당자들의 어려움.
기능 개발 어려움 발생함
개발 생산성 저하 발생.
9
개선 방안?
분석 플랫폼 현대화
완전 관리형으로 변경함.
Amazon Kinesis Data Analytics로 변경함.
서버리스 완전 관리형 분석 서비스로 유연한 확장성과 실시간 스트리밍 분석 제공
10
Amazon Kinesis Data Analytics (KDA) 활용.
아마존 EKS 기반으로 플링크 클러스터를 제공하는 완전 관리형 서버리스 서비스이다.
즉, 스트리밍 데이터를 분선 처리하는 잡 매니저와 테스트 매니저로 구성된 플링크 클러스터 생성.
데이터 규모에 따른 오토 스케일링
주키퍼를 이용한 이중화와 장애 복구
S3를 활용한 체크 포인트와 세이브 포인트 저장
이런 모든 작업은 AWS에서 치라함.
11
디즈니에서도 KDA를 많이 사용함.
12
마이그레이션 법?
기존 스파크 애플리케이션을 KDA에서 그대로 사용할 수 없다.
새롭게 아파치 플링크 애플리케이션으로 개발했다.
아파치 플링크는 스트리밍 처리방식이다. 리소스를 효율화 기대.
4개월간 3.5명이 6개의 스파크 애플리케이션을 선정해 KDA로 마이그래이션 진행함.
스파크와 플링크와 기능의 차이 주의
KDA에서 지원하지 않는 기능도 존재하므로 주의
KDA기반 플링크의 S3 커넥터의 경우 크로스리전 싱크와 ACL 설정 미 지원하므로 다른 방법으로 해결 필요함.
13
개선된 점?
온콜이 발생하지 않아 개발자가 개발에 집중 가능해짐.
처리속도 30% 향상됨.
14
KDA 단점은?
배포 가 느림
모니터링 로그 등 확인이 불편함.
15
현대화를 통한 비즈니스 가치?
생산성 효율화.
신속성 확보- 의사 결정에 즉시 활용.
안정성 향상
비용 효율화
<4> 개인 정리
1
삼성전자의 빅데이터 플랫폼 = AWS Lake Formation 아키텍처
2
SmartThings의 서버리스를 사용한 실시간 분석 사례 = Amazon Kinesis Data Analytics (KDA) 활용
https://brunch.co.kr/@topasvga/2439
감사합니다.