대규모 쿠버 네티스 안정화 사례 - 온오프 통합 데이터 플랫폼
EKS
데이터 플랫폼
<1> 롯데 ON
<2> 왜? EKS
<3> 아키텍처?
<4> 문제점 1 - 대량 트래픽 컨테이너 문제
<5> 이슈 2가지?
<6> 롯데 쇼핑 E커머스 온라인/오프라인 데이터 통합
<10> 개인 정리
<1> 롯데 ON
1
롯데 ON = 통합 온라인 쇼핑 플랫폼
3년 차 회사
2
롯데 백화점 , 롯데 마트 1만 개 점포 데이터 + L포인트 4천만 명 데이터 보유
3
2020년 점유율?
네이버 17% /쿠팡 13%/이베이 12 %/11번가 6%/롯데 ON 5%
위메프 4%/팀 3%/카카오 3%/ SSG 2%
<2> 왜? EKS
1
컨테이너 서비스 요건?
자동화 , CI / CD 필요
컨테이너로 운영 - 애플리케이션이 라이블러리등이 다른 환경에서도 동일하게 서비스 필요
안정적인 이미지 저장소 필요
2
왜? EKS
풀 매니지드 서비스 - 별도 관리가 필요 없다.
가용성과 확장성
IAM 권한 제어 적용 가능
최신 버전 쿠버 네티스 계속 제공함
실시간 리소스 할당과 배포 지원
<3> 아키텍처?
1
ALB를 통한 Blue, Green 제공
2
CD는 Spinnaker-sys namespace
3
Monitoring Name Space
SRE Name Space
4
NOSQL , RDS 사용 중
<4> 문제점 1 - 대량 트래픽 컨테이너 문제
용량과 CI/CD 문제
1
현황
일반적인 사용 시 문제없음.
2
문제점?
트래픽이 기존보다 많을 때 문제 발생.
포트 time_wait delay와 블루 그린 전환 시간의 time 갭으로 인한 오류
애플리케이션들이 정상 동작 불가
2
파드의 운영 전환 상태를 즉시 확인 불가.
일부 파드 비정상 동작중으로 문제 발생
RDS 비정상 분산?
특정 Slave node에 WAS 세션이 몰림
Slave Sacle-out 됨.
3
개선 방향?
AWS TAM 지원 = 카오스 엔지니어링 해서 용량을 제 설계함.
CI/CD 파이프 라인 최적화 = 자동화 처리
CD는 MSA 별도 파드 상태 확인, 파드 개별로 재시작 요구사항 = 개발자가 직접 운영할 수 있도록 스핀 네이커로 적용.
EKS 버그 조치 = 최신 버전으로 버전업
성능과 임계치 사항 점검이 필요함!!!
<5> 이슈 2가지?
1
역량?
성장을 지속하려면 내부 전문가 집단이 필요
문제 발생 시 근본적인 사항부터 점검
2
자동화와 최적화 필요
MSA모듈마다 특정.
컨터이버 정책 필요
3
적극적으로 AWS enterprise 서포트로 지원받기 바랍니다!!
<6> 롯데 쇼핑 E커머스 데이터
1
롯데 홈쇼핑 , 롯데 하이마트 매출 데이터의 통합 저장소 데이터 레이크
데이터 레이크 만듦
데이터 수집 , 활용 중
2
데이터 종류?
내부 데이터
외부 데이터
IDC 데이터
구글 어낼리틱스 데이터
3
구성?
디렉트 커넥트, VPN
통합 데이터 저장소 Redshift 사용
1년 DC2 타입 사용 - 빠른 데이터 적재, 쿼리 속도 제공
용량 증가 후 RA3 타음으로
Redshift AQUA 지원
IDC 데이터 = AWS Transfer SFTP를 통해 S3에 데이터 저장.
Glue work flow 사용
4
다양한 DB 사용 중?
Key-value DB = DynamoDB
Full text search = ElasticSearch
마이크로 서비스 대부분 아마존 오로라 DB 사용
5
롯데 ON 고객의 행동 로그는 GCP 빅쿼리에 저장됨.
빅쿼리 ---- S3로 전달되는 형태
대부분 서버리스
사용량 30T
하루 50만 개 데이터 추가 / 삭제 중.
Glue 카탈로그 사용 중.
Amazon Redshift Spectrum , Amazon EMR , Amazon Athena 사용 중
6
IDC 온라인 데이터 ETL?
IDC 데이터 ----- S3에 저장 -- Glue ------- Redshift에 적재됨.
AWS Secret manager 사용.
아테나 사용
Glue work flow 사용
7
IDC 오프라인 데이터?
IDC 데이터 -------- S3 저장 -------- 람다 사용 ----- Redshift 적제
IDC data , S3에 적재하는 방식?
S3 cli , SFTP 둘 다 사용함.
SFTP의 경우 개별 SSH 키 사용, 특정 버킷으로 제한 설정 필수.
8
온라인/ 오프라인 데이터 통합해서 의미 있는 데이터 분석을 함.
통합 분석 만들고 운영함.
<10> 개인 정리
디렉트 커넥트. VPN ,
통합 데이터 저장소 Redshift 사용
1년 DC2 타입 사용 - 빠른 데이터 적재, 쿼리 속도 제공
용량 증가 후 RA3 타음으로
Redshift AQUA 지원
IDC 데이터 = AWS Transfer SFTP를 통해 S3에 데이터 저장.
Glue work flow 사용
AWS TAM 지원 = 카오스 엔지니어링 해서 용량을 제 설계함.
CI/CD 파이프 라인 최적화 = 자동화 처리
CD는 MSA 별도 파드 상태 확인, 파드 개별로 재시작 요구사항 = 개발자가 직접 운영할 수 있도록 스핀 네이커로 적용.
EKS 버그 조치 = 최신 버전으로 버전업
성능과 임계치 사항 점검이 필요함!!!
같이 보기 좋은 자료
https://brunch.co.kr/@topasvga/2466
https://brunch.co.kr/@topasvga/1769
https://brunch.co.kr/@topasvga/2439
https://brunch.co.kr/@topasvga/1758
감사합니다.