brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Aug 16. 2022

15탄-대규모 온프레미스 하둡 마이그레이션을 위한 실행


대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개

AWS 프로페셔널 서비스팀  데이터 아키텍터



<1> 하둡의 마이그레이션의 필요성

<2> 클라우드로 마이그레이션 시 이점?

<3> AWS 기반  데이터 분석 장점

<4> 마이그레이션 전략?

<5>  비용 최적화

<6> 성능 최적화

<7> 하둡 마이그레이션을 위한 Assessment  절차 (8~12주)

<8> 마이그레이션 계획 수립을 위한 Pre-Assessment  (2~3주)

<9> 적용 사례



<1> 하둡의 마이그레이션의 필요성


1

빅데이터 플랫폼

데이터 수집, 저장, 처리, 분석을 통해 새로운 인사이트 발견


시장 동향 및 전망

사물인터넷, 스마트 디바이스, SNS 등 활성화로 데이터가 빠르게 증가


2

당면 과제?

기하급수적 성장

새로운 데이터  소스

다양한 데이터 - 정형, 반정형

다양한 기술과 용도로 활용

많은 애플리케이션에서 접근


3

검토 배경?


관리의 한계

빅데이터 소프트웨어의 설치, 관리 및 확장이 복잡

확장 불가능한 인프라


높은 고정 비용

유지보수 관리 비용

기능 추가에 따른 별도 라이선스 비용


플랫폼의 종속성

저장 데이터는 해당 플랫폼에서만 사용 가능

다른 영역으로 확장 시  데이터 복제 필요.



<2> 클라우드로 마이그레이션 시 이점?


1

비용절감?

27%

사용자당 IT 인프라 지출 감소


2

직원 생산성?

58%

관리 자당 관리되는  VM 수 증가


3

운영 탄력성?

SLA 개선 및 계획되지 않는 서비스 중단을 줄임

56%

연간 다운타임 감소


4

비즈니스 민 첨성?

새로운 기능, 애플리케이션을 더 빠르게 배포

37%

새로운 서비스 출시 시간 단축

실험시간 단축



<3> AWS 기반  데이터 분석 장점


S3에 저장 , 아테나로 쿼리 가능함

확장 가능한 데이터 레이크

글루와 세이즈 메이커 사용으로 혁신




<4> 마이그레이션 전략?


4단계


1

비용 예측 및 최적화

컴퓨트, 스토리지, 애플리케이션 최적화


2

클러스터 관리 및 보안

보안 베스트 프렉티스 적용


3

데이터 마이그레이션

S3 구성 및 최적화

온 프램의, 데이터 마이그레이션 하여 데이터 카탈로그 구성


4

ETL 전화 및 검증 단계




<5>  비용 최적화


1

아키텍처 전환?

컴퓨트와 스토리지 분리한다.

컴퓨트는 오토 스케일링 가능, 탄력적 운영 가능.

필요시 클러스터를 생성하고 사용하지 않을 시 중지가 가능하다. Transient 클러스터 활용.

스토리지 용량 최적화


2

컴퓨팅 최적화?

그라비톤 인스턴스, 스폿 인스턴스


3

클러스터 관리?

스케일링 관리

사용하지 않을 때 리소스를 줄여준다.



<6> 성능 최적화


1

EMR 최적화된 성능?

 Apache Spark 3.1.2  보다 최대 3배 빠른 성능

오픈 소스 Presto 0.238 보다 최대 2.6배 빠른 성능

그라비톤 2 평균 11 % 성능 향상

그라비톤 2 평균 25% 비용 절감


2

저장소 최적화?

성능을 위한 최적의 파일 포맷 선정 -  Read  성능은 ORC나 Parquet가 빠르다.

S3 Prefix  설계  -  S3 처리 특성 이해 필요.   예) 버킷 - 고객을  버킷  - 고객 - 나라로 변경하면 2배 빨리 짐

작은 파일이 많은 경우 성능 저하의 원인.


3

애플리케이션 최적화?

Hive를 Spark으로 전환 - 처리시간 60% 이상 개선 , 비용 절감 60%

최선 버전 컴퓨팅 엔진 활용 - 빠른 처리 성능.   EMR  언진 업그레이드 필수!




<7> 하둡 마이그레이션을 위한 Assessment  절차 (8~12주)


1

마이그레이션 목표 설정

IT팀 협업 부서 모두 참여

실행 조직 결정

EMR Deep Dive


2

워크로드 수집/분석

하둡 워크로드 데이터 슈 집

현업/IT부서 인터뷰(현황 파악)

워크로드 시각화


3

아키텍처 설계, 비용 분석

분석 결과 반영 설계

기술검증 Poc대상 선정


4

예상 이슈 사전 검증

이슈 해결 방안 도출

기술 검증 PoC 수행



<8> 마이그레이션 계획 수립을 위한 Pre-Assessment  (2~3주)


1

로그 수집

하둡 애플리케이션 로그 수집

AWS에서 제공하는 Shell 스크립트로 수집


2

로그 분석 및 클러스터 설계

애플리케이션이 용량을 적절하게 사용되고 있는가?

퀵 사이트 대시보드로 확인한다.


3

비용 시뮬레이션

AWS EMR, S3 등

EC2 유형, 오토스케일링, HA, 클러스터, 계약 조건에 따른 시뮬레이션



<9> 적용 사례


1

쿠팡 페이 DW(Hadoop) 마이그레이션을  EMR로 변경 적용사례

80% 컴퓨팅 리소스 절감

클러스터 타입, 엔진 변경함.

하이브를 Spark로 변경 20% 절감

Hudi적용 -  인서트, 업데이트, 삭제 적용


2

금융사 애플리케이션의 분석용 하둡 클러스터  적용사례

87% 비용 절감

EMR hive로 변경 최대 85% 성능 향상

EMS Spark로 변경 최대 91% 성능 향상




다음

https://brunch.co.kr/@topasvga/2650




https://brunch.co.kr/@topasvga/2641






감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari