EKS 6탄-3. 롯데 ON, 클라우드 네이티브

by Master Seo

May 23. 2022

대규모 쿠버 네티스 안정화 사례 - 온오프 통합 데이터 플랫폼

EKS

데이터 플랫폼

<1> 롯데 ON

<2> 왜? EKS

<3> 아키텍처?

<4> 문제점 1 - 대량 트래픽 컨테이너 문제

<5> 이슈 2가지?

<6> 롯데 쇼핑 E커머스 온라인/오프라인 데이터 통합

<10> 개인 정리

<1> 롯데 ON

롯데 ON = 통합 온라인 쇼핑 플랫폼

3년 차 회사

롯데 백화점 , 롯데 마트 1만 개 점포 데이터 + L포인트 4천만 명 데이터 보유

2020년 점유율?

네이버 17% /쿠팡 13%/이베이 12 %/11번가 6%/롯데 ON 5%

위메프 4%/팀 3%/카카오 3%/ SSG 2%

<2> 왜? EKS

컨테이너 서비스 요건?

자동화 , CI / CD 필요

컨테이너로 운영 - 애플리케이션이 라이블러리등이 다른 환경에서도 동일하게 서비스 필요

안정적인 이미지 저장소 필요

왜? EKS

풀 매니지드 서비스 - 별도 관리가 필요 없다.

가용성과 확장성

IAM 권한 제어 적용 가능

최신 버전 쿠버 네티스 계속 제공함

실시간 리소스 할당과 배포 지원

<3> 아키텍처?

ALB를 통한 Blue, Green 제공

CD는 Spinnaker-sys namespace

Monitoring Name Space

SRE Name Space

NOSQL , RDS 사용 중

<4> 문제점 1 - 대량 트래픽 컨테이너 문제

용량과 CI/CD 문제

현황

일반적인 사용 시 문제없음.

문제점?

트래픽이 기존보다 많을 때 문제 발생.

포트 time_wait delay와 블루 그린 전환 시간의 time 갭으로 인한 오류

애플리케이션들이 정상 동작 불가

파드의 운영 전환 상태를 즉시 확인 불가.

일부 파드 비정상 동작중으로 문제 발생

RDS 비정상 분산?

특정 Slave node에 WAS 세션이 몰림

Slave Sacle-out 됨.

개선 방향?

AWS TAM 지원 = 카오스 엔지니어링 해서 용량을 제 설계함.

CI/CD 파이프 라인 최적화 = 자동화 처리

CD는 MSA 별도 파드 상태 확인, 파드 개별로 재시작 요구사항 = 개발자가 직접 운영할 수 있도록 스핀 네이커로 적용.

EKS 버그 조치 = 최신 버전으로 버전업

성능과 임계치 사항 점검이 필요함!!!

<5> 이슈 2가지?

역량?

성장을 지속하려면 내부 전문가 집단이 필요

문제 발생 시 근본적인 사항부터 점검

자동화와 최적화 필요

MSA모듈마다 특정.

컨터이버 정책 필요

적극적으로 AWS enterprise 서포트로 지원받기 바랍니다!!

<6> 롯데 쇼핑 E커머스 데이터

롯데 홈쇼핑 , 롯데 하이마트 매출 데이터의 통합 저장소 데이터 레이크

데이터 레이크 만듦

데이터 수집 , 활용 중

데이터 종류?

내부 데이터

외부 데이터

IDC 데이터

구글 어낼리틱스 데이터

구성?

디렉트 커넥트, VPN

통합 데이터 저장소 Redshift 사용

1년 DC2 타입 사용 - 빠른 데이터 적재, 쿼리 속도 제공

용량 증가 후 RA3 타음으로

Redshift AQUA 지원

IDC 데이터 = AWS Transfer SFTP를 통해 S3에 데이터 저장.

Glue work flow 사용

다양한 DB 사용 중?

Key-value DB = DynamoDB

Full text search = ElasticSearch

마이크로 서비스 대부분 아마존 오로라 DB 사용

롯데 ON 고객의 행동 로그는 GCP 빅쿼리에 저장됨.

빅쿼리 ---- S3로 전달되는 형태

대부분 서버리스

사용량 30T

하루 50만 개 데이터 추가 / 삭제 중.

Glue 카탈로그 사용 중.

Amazon Redshift Spectrum , Amazon EMR , Amazon Athena 사용 중

IDC 온라인 데이터 ETL?

IDC 데이터 ----- S3에 저장 -- Glue ------- Redshift에 적재됨.

AWS Secret manager 사용.

아테나 사용

Glue work flow 사용

IDC 오프라인 데이터?

IDC 데이터 -------- S3 저장 -------- 람다 사용 ----- Redshift 적제

IDC data , S3에 적재하는 방식?

S3 cli , SFTP 둘 다 사용함.

SFTP의 경우 개별 SSH 키 사용, 특정 버킷으로 제한 설정 필수.

온라인/ 오프라인 데이터 통합해서 의미 있는 데이터 분석을 함.

통합 분석 만들고 운영함.

<10> 개인 정리

디렉트 커넥트. VPN ,

통합 데이터 저장소 Redshift 사용

1년 DC2 타입 사용 - 빠른 데이터 적재, 쿼리 속도 제공

용량 증가 후 RA3 타음으로

Redshift AQUA 지원

IDC 데이터 = AWS Transfer SFTP를 통해 S3에 데이터 저장.

Glue work flow 사용

AWS TAM 지원 = 카오스 엔지니어링 해서 용량을 제 설계함.

CI/CD 파이프 라인 최적화 = 자동화 처리

CD는 MSA 별도 파드 상태 확인, 파드 개별로 재시작 요구사항 = 개발자가 직접 운영할 수 있도록 스핀 네이커로 적용.

EKS 버그 조치 = 최신 버전으로 버전업

성능과 임계치 사항 점검이 필요함!!!

같이 보기 좋은 자료

https://brunch.co.kr/@topasvga/2466

(몰아보기) EKS 6탄- 적용 사례

<1> EKS 적용 사례 <2> EKS 모니터링, 스토리지 외 <3> 마이크로 서비스 <4> 온프레미스 쿠버네티스 <1> EKS 적용 사례 https://brunch.co.kr/@topasvga/2455 https://brunch.co.kr/@topasvga/2456 https://brunch.co.kr/@topasvga/245

https://brunch.co.kr/@topasvga/2466

keyword

매거진의 이전글EKS 6탄-2. Amazon EKS 기반 멀티테넌트 EKS 6탄-12. Amazon EKS! 효율적 매거진의 다음글