데이터 수집, 저장, 처리, 분석을 통해 새로운 인사이트 발견
사물인터넷, 스마트 디바이스, SNS 등 활성화로 데이터가 빠르게 증가
기하급수적 성장
새로운 데이터 소스
다양한 데이터 - 정형, 반정형
다양한 기술과 용도로 활용
많은 애플리케이션에서 접근
빅데이터 소프트웨어의 설치, 관리 및 확장이 복잡
확장 불가능한 인프라
유지보수 관리 비용
기능 추가에 따른 별도 라이선스 비용
저장 데이터는 해당 플랫폼에서만 사용 가능
다른 영역으로 확장 시 데이터 복제 필요.
27%
사용자당 IT 인프라 지출 감소
58%
관리 자당 관리되는 VM 수 증가
SLA 개선 및 계획되지 않는 서비스 중단을 줄임
56%
연간 다운타임 감소
새로운 기능, 애플리케이션을 더 빠르게 배포
37%
새로운 서비스 출시 시간 단축
실험시간 단축
S3에 저장 , 아테나로 쿼리 가능함
확장 가능한 데이터 레이크
글루와 세이즈 메이커 사용으로 혁신
컴퓨트, 스토리지, 애플리케이션 최적화
보안 베스트 프렉티스 적용
S3 구성 및 최적화
온 프램의, 데이터 마이그레이션 하여 데이터 카탈로그 구성
컴퓨트와 스토리지 분리한다.
컴퓨트는 오토 스케일링 가능, 탄력적 운영 가능.
필요시 클러스터를 생성하고 사용하지 않을 시 중지가 가능하다. Transient 클러스터 활용.
스토리지 용량 최적화
그라비톤 인스턴스, 스폿 인스턴스
스케일링 관리
사용하지 않을 때 리소스를 줄여준다.
Apache Spark 3.1.2 보다 최대 3배 빠른 성능
오픈 소스 Presto 0.238 보다 최대 2.6배 빠른 성능
그라비톤 2 평균 11 % 성능 향상
그라비톤 2 평균 25% 비용 절감
성능을 위한 최적의 파일 포맷 선정 - Read 성능은 ORC나 Parquet가 빠르다.
S3 Prefix 설계 - S3 처리 특성 이해 필요. 예) 버킷 - 고객을 버킷 - 고객 - 나라로 변경하면 2배 빨리 짐
작은 파일이 많은 경우 성능 저하의 원인.
Hive를 Spark으로 전환 - 처리시간 60% 이상 개선 , 비용 절감 60%
최선 버전 컴퓨팅 엔진 활용 - 빠른 처리 성능. EMR 언진 업그레이드 필수!
IT팀 협업 부서 모두 참여
실행 조직 결정
EMR Deep Dive
하둡 워크로드 데이터 슈 집
현업/IT부서 인터뷰(현황 파악)
워크로드 시각화
분석 결과 반영 설계
기술검증 Poc대상 선정
이슈 해결 방안 도출
기술 검증 PoC 수행
하둡 애플리케이션 로그 수집
AWS에서 제공하는 Shell 스크립트로 수집
애플리케이션이 용량을 적절하게 사용되고 있는가?
퀵 사이트 대시보드로 확인한다.
AWS EMR, S3 등
EC2 유형, 오토스케일링, HA, 클러스터, 계약 조건에 따른 시뮬레이션
80% 컴퓨팅 리소스 절감
클러스터 타입, 엔진 변경함.
하이브를 Spark로 변경 20% 절감
Hudi적용 - 인서트, 업데이트, 삭제 적용
87% 비용 절감
EMR hive로 변경 최대 85% 성능 향상
EMS Spark로 변경 최대 91% 성능 향상
https://brunch.co.kr/@topasvga/2650