brunch

You can make anything
by writing

C.S.Lewis

by Master Seo May 23. 2022

EKS 6탄-3. 롯데 ON, 클라우드 네이티브

대규모 쿠버 네티스 안정화 사례 - 온오프 통합 데이터 플랫폼


EKS

데이터  플랫폼


<1> 롯데 ON  

<2> 왜? EKS

<3> 아키텍처?

<4> 문제점 1 - 대량 트래픽 컨테이너 문제

<5> 이슈  2가지?

<6> 롯데 쇼핑  E커머스  온라인/오프라인 데이터 통합

<10> 개인 정리




<1> 롯데 ON  


1

롯데 ON   = 통합 온라인 쇼핑 플랫폼

3년 차 회사


2

롯데 백화점 ,  롯데 마트   1만 개 점포 데이터 +  L포인트   4천만 명 데이터 보유


3

2020년 점유율?

네이버  17%  /쿠팡  13%/이베이 12 %/11번가 6%/롯데 ON 5%

위메프 4%/팀 3%/카카오 3%/ SSG  2%




<2> 왜? EKS


1

컨테이너 서비스 요건?

자동화 ,  CI / CD 필요

컨테이너로 운영 - 애플리케이션이 라이블러리등이 다른 환경에서도 동일하게 서비스 필요

안정적인 이미지 저장소 필요


2

왜?  EKS

풀 매니지드 서비스 - 별도 관리가 필요 없다.

가용성과 확장성

IAM 권한 제어 적용 가능

최신 버전 쿠버 네티스  계속 제공함

실시간 리소스 할당과 배포 지원



<3> 아키텍처?


1

ALB를 통한 Blue, Green  제공


2

CD는 Spinnaker-sys namespace


3

Monitoring  Name Space

SRE Name Space


4

NOSQL , RDS 사용 중




<4> 문제점 1 - 대량 트래픽 컨테이너 문제


용량과 CI/CD 문제


1

현황

일반적인 사용 시 문제없음.


2

문제점?

트래픽이 기존보다 많을 때 문제 발생.


포트 time_wait delay와  블루 그린 전환 시간의  time 갭으로 인한 오류

애플리케이션들이 정상 동작 불가


2

파드의 운영  전환 상태를 즉시 확인 불가.

일부 파드 비정상 동작중으로 문제 발생


RDS 비정상  분산?

특정 Slave node에   WAS 세션이 몰림

Slave  Sacle-out 됨.


3

개선 방향?

AWS  TAM 지원  = 카오스 엔지니어링 해서 용량을 제 설계함.

CI/CD 파이프 라인 최적화 = 자동화 처리

CD는  MSA 별도 파드 상태 확인, 파드  개별로 재시작 요구사항 = 개발자가 직접 운영할 수 있도록 스핀 네이커로 적용.

EKS 버그  조치 =   최신 버전으로 버전업

성능과 임계치 사항 점검이 필요함!!!




<5> 이슈  2가지?


1

역량?

성장을 지속하려면 내부 전문가 집단이 필요

문제 발생 시  근본적인 사항부터 점검


2

자동화와 최적화 필요

MSA모듈마다 특정.

컨터이버 정책 필요



3

적극적으로 AWS enterprise  서포트로 지원받기 바랍니다!!




<6> 롯데 쇼핑  E커머스  데이터



1

롯데 홈쇼핑 , 롯데 하이마트 매출 데이터의 통합 저장소  데이터 레이크

데이터 레이크 만듦

데이터 수집 , 활용 중


2

데이터 종류?

내부 데이터

외부 데이터


IDC 데이터  

구글 어낼리틱스  데이터


3

구성?


디렉트 커넥트, VPN

통합 데이터 저장소 Redshift    사용

1년 DC2 타입 사용 - 빠른 데이터 적재, 쿼리 속도 제공

용량 증가 후 RA3 타음으로

 Redshift   AQUA  지원

IDC 데이터 = AWS Transfer SFTP를 통해 S3에 데이터 저장.

Glue work flow 사용


4

다양한 DB 사용 중?


Key-value DB = DynamoDB

Full text search = ElasticSearch

마이크로 서비스 대부분 아마존 오로라  DB   사용


5

롯데 ON 고객의 행동 로그는 GCP 빅쿼리에 저장됨.


빅쿼리 ---- S3로 전달되는 형태


대부분 서버리스

사용량 30T

하루 50만 개 데이터 추가 / 삭제 중.

Glue  카탈로그 사용 중.

Amazon Redshift  Spectrum , Amazon EMR , Amazon Athena   사용 중



6

IDC 온라인 데이터 ETL?


IDC 데이터 -----  S3에 저장 --  Glue ------- Redshift에 적재됨.


AWS Secret manager 사용.

아테나 사용

Glue work flow 사용


7

IDC 오프라인 데이터?


IDC 데이터 -------- S3 저장 --------  람다 사용 -----  Redshift 적제


IDC data , S3에 적재하는 방식?

S3  cli  ,  SFTP 둘 다 사용함.

SFTP의 경우 개별  SSH 키 사용, 특정 버킷으로 제한 설정 필수.


8

온라인/ 오프라인 데이터 통합해서 의미 있는 데이터 분석을 함.

통합 분석 만들고 운영함.



<10> 개인 정리


디렉트 커넥트. VPN ,

통합 데이터 저장소 Redshift    사용

1년 DC2 타입 사용 - 빠른 데이터 적재, 쿼리 속도 제공

용량 증가 후 RA3 타음으로

 Redshift   AQUA  지원

IDC 데이터 = AWS Transfer SFTP를 통해 S3에 데이터 저장.

Glue work flow 사용



AWS  TAM 지원  = 카오스 엔지니어링 해서 용량을 제 설계함.

CI/CD 파이프 라인 최적화 = 자동화 처리

CD는  MSA 별도 파드 상태 확인, 파드  개별로 재시작 요구사항 = 개발자가 직접 운영할 수 있도록 스핀 네이커로 적용.

EKS 버그  조치 =   최신 버전으로 버전업

성능과 임계치 사항 점검이 필요함!!!




같이 보기 좋은 자료


https://brunch.co.kr/@topasvga/2466



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari