brunch

매거진 AWS 적용 사례

라이킷 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by Master Seo Aug 16. 2022

15탄-대규모 온프레미스 하둡 마이그레이션을 위한 실행

대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개

AWS 프로페셔널 서비스팀 데이터 아키텍터

<1> 하둡의 마이그레이션의 필요성

<2> 클라우드로 마이그레이션 시 이점?

<3> AWS 기반 데이터 분석 장점

<4> 마이그레이션 전략?

<5> 비용 최적화

<6> 성능 최적화

<7> 하둡 마이그레이션을 위한 Assessment 절차 (8~12주)

<8> 마이그레이션 계획 수립을 위한 Pre-Assessment (2~3주)

<9> 적용 사례

<1> 하둡의 마이그레이션의 필요성

1 빅데이터 플랫폼

데이터 수집, 저장, 처리, 분석을 통해 새로운 인사이트 발견

시장 동향 및 전망

사물인터넷, 스마트 디바이스, SNS 등 활성화로 데이터가 빠르게 증가

2 당면 과제?

기하급수적 성장

새로운 데이터 소스

다양한 데이터 - 정형, 반정형

다양한 기술과 용도로 활용

많은 애플리케이션에서 접근

3 검토 배경?

관리의 한계

빅데이터 소프트웨어의 설치, 관리 및 확장이 복잡

확장 불가능한 인프라

높은 고정 비용

유지보수 관리 비용

기능 추가에 따른 별도 라이선스 비용

플랫폼의 종속성

저장 데이터는 해당 플랫폼에서만 사용 가능

다른 영역으로 확장 시 데이터 복제 필요.

<2> 클라우드로 마이그레이션 시 이점?

1 비용절감?

27%

사용자당 IT 인프라 지출 감소

2 직원 생산성?

58%

관리 자당 관리되는 VM 수 증가

3 운영 탄력성?

SLA 개선 및 계획되지 않는 서비스 중단을 줄임

56%

연간 다운타임 감소

4 비즈니스 민 첨성?

새로운 기능, 애플리케이션을 더 빠르게 배포

37%

새로운 서비스 출시 시간 단축

실험시간 단축

<3> AWS 기반 데이터 분석 장점

S3에 저장 , 아테나로 쿼리 가능함

확장 가능한 데이터 레이크

글루와 세이즈 메이커 사용으로 혁신

<4> 마이그레이션 전략?

4단계

1 비용 예측 및 최적화

컴퓨트, 스토리지, 애플리케이션 최적화

2 클러스터 관리 및 보안

보안 베스트 프렉티스 적용

3 데이터 마이그레이션

S3 구성 및 최적화

온 프램의, 데이터 마이그레이션 하여 데이터 카탈로그 구성

4 ETL 전화 및 검증 단계

<5> 비용 최적화

1 아키텍처 전환?

컴퓨트와 스토리지 분리한다.

컴퓨트는 오토 스케일링 가능, 탄력적 운영 가능.

필요시 클러스터를 생성하고 사용하지 않을 시 중지가 가능하다. Transient 클러스터 활용.

스토리지 용량 최적화

2 컴퓨팅 최적화?

그라비톤 인스턴스, 스폿 인스턴스

3 클러스터 관리?

스케일링 관리

사용하지 않을 때 리소스를 줄여준다.

<6> 성능 최적화

1 EMR 최적화된 성능?

Apache Spark 3.1.2 보다 최대 3배 빠른 성능

오픈 소스 Presto 0.238 보다 최대 2.6배 빠른 성능

그라비톤 2 평균 11 % 성능 향상

그라비톤 2 평균 25% 비용 절감

2 저장소 최적화?

성능을 위한 최적의 파일 포맷 선정 - Read 성능은 ORC나 Parquet가 빠르다.

S3 Prefix 설계 - S3 처리 특성 이해 필요. 예) 버킷 - 고객을 버킷 - 고객 - 나라로 변경하면 2배 빨리 짐

작은 파일이 많은 경우 성능 저하의 원인.

3 애플리케이션 최적화?

Hive를 Spark으로 전환 - 처리시간 60% 이상 개선 , 비용 절감 60%

최선 버전 컴퓨팅 엔진 활용 - 빠른 처리 성능. EMR 언진 업그레이드 필수!

<7> 하둡 마이그레이션을 위한 Assessment 절차 (8~12주)

1 마이그레이션 목표 설정

IT팀 협업 부서 모두 참여

실행 조직 결정

EMR Deep Dive

2 워크로드 수집/분석

하둡 워크로드 데이터 슈 집

현업/IT부서 인터뷰(현황 파악)

워크로드 시각화

3 아키텍처 설계, 비용 분석

분석 결과 반영 설계

기술검증 Poc대상 선정

4 예상 이슈 사전 검증

이슈 해결 방안 도출

기술 검증 PoC 수행

<8> 마이그레이션 계획 수립을 위한 Pre-Assessment (2~3주)

1 로그 수집

하둡 애플리케이션 로그 수집

AWS에서 제공하는 Shell 스크립트로 수집

2 로그 분석 및 클러스터 설계

애플리케이션이 용량을 적절하게 사용되고 있는가?

퀵 사이트 대시보드로 확인한다.

3 비용 시뮬레이션

AWS EMR, S3 등

EC2 유형, 오토스케일링, HA, 클러스터, 계약 조건에 따른 시뮬레이션

<9> 적용 사례

1 쿠팡 페이 DW(Hadoop) 마이그레이션을 EMR로 변경 적용사례

80% 컴퓨팅 리소스 절감

클러스터 타입, 엔진 변경함.

하이브를 Spark로 변경 20% 절감

Hudi적용 - 인서트, 업데이트, 삭제 적용

2 금융사 애플리케이션의 분석용 하둡 클러스터 적용사례

87% 비용 절감

EMR hive로 변경 최대 85% 성능 향상

EMS Spark로 변경 최대 91% 성능 향상

https://brunch.co.kr/@topasvga/2650

한글과 컴퓨터의 클라우드 마이그레이션, 거버넌스

한글과 컴퓨터의 클라우드 마이그레이션, 거버넌스 그리고 모더 나이 제이 션 IT 인프라 팀 <1> 한글과 컴퓨터(한컴) <2> 외부 IDC 마이그레이션 <3> 내부 IDC 마이그레이션 <4> 거버넌스 <1> 한글과 컴

brunch.co.kr/@topasvga/2650

https://brunch.co.kr/@topasvga/2641

15탄- (정리) 마이그레이션

https://brunch.co.kr/@topasvga/2640 https://brunch.co.kr/@topasvga/2642 https://brunch.co.kr/@topasvga/2643 https://brunch.co.kr/@topasvga/2644 https://brunch.co.kr/@topasvga/2645 https://brun

brunch.co.kr/@topasvga/2641

감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari

brunch

15탄-대규모 온프레미스 하둡 마이그레이션을 위한 실행

대규모 온프레미스 하둡 마이그레이션을 위한 실행 전략과 최적화 방안 소개

AWS 프로페셔널 서비스팀 데이터 아키텍터

<1> 하둡의 마이그레이션의 필요성

<2> 클라우드로 마이그레이션 시 이점?

<3> AWS 기반 데이터 분석 장점

<4> 마이그레이션 전략?

<5> 비용 최적화

<6> 성능 최적화

<7> 하둡 마이그레이션을 위한 Assessment 절차 (8~12주)

<8> 마이그레이션 계획 수립을 위한 Pre-Assessment (2~3주)

<9> 적용 사례

<1> 하둡의 마이그레이션의 필요성

1

빅데이터 플랫폼

시장 동향 및 전망

2

당면 과제?

3

검토 배경?

관리의 한계

높은 고정 비용

플랫폼의 종속성

<2> 클라우드로 마이그레이션 시 이점?

1

비용절감?

2

직원 생산성?

3

운영 탄력성?

4

비즈니스 민 첨성?

<3> AWS 기반 데이터 분석 장점

<4> 마이그레이션 전략?

4단계

1

비용 예측 및 최적화

2

클러스터 관리 및 보안

3

데이터 마이그레이션

4

ETL 전화 및 검증 단계

<5> 비용 최적화

1

아키텍처 전환?

2

컴퓨팅 최적화?

3

클러스터 관리?

<6> 성능 최적화

1

EMR 최적화된 성능?

2

저장소 최적화?

3

애플리케이션 최적화?

<7> 하둡 마이그레이션을 위한 Assessment 절차 (8~12주)

1

마이그레이션 목표 설정

2

워크로드 수집/분석

3

아키텍처 설계, 비용 분석

4

예상 이슈 사전 검증

<8> 마이그레이션 계획 수립을 위한 Pre-Assessment (2~3주)

1

로그 수집

2

로그 분석 및 클러스터 설계

3

비용 시뮬레이션

<9> 적용 사례

1

쿠팡 페이 DW(Hadoop) 마이그레이션을 EMR로 변경 적용사례

2

금융사 애플리케이션의 분석용 하둡 클러스터 적용사례

다음