<1> CloudWatch 기능들
<2> 모니터링과 관찰
<3> 모니터링은 R&R이 정해 져야 한다.
<4> 어떤 것을 모니터링할 것인지 정의하라.
<5> 기본 정책을 미리 정하라.
<6> 비즈니스 인사이트 확인하라
<7> 긴급도를 파악해 반영하라.
<8> 적절한 관리 도구를 사용하라.
<9> 액션과 개선의 차이
<10> 요약
<11> 워크 flow
<12> 운영하는 게 중요하다.
<1> cloudWatch 기능들?
1
CloudWatch Logs insight?
대량 로그를 처리하는 고속 대화형 쿼리 , 시각화 기능
대시보드에 연결하여 볼 수 있는 기능을 제공.
특정 정보만 보고자 할 때 쿼리를 만들어 볼 수 있다.
2
Cloudwatch Container insight?
ecs, eks , fargate
3
CloudWatch ServiceLens?
end-to-end 뷰 제공하기 위해 x-ray와 통합 제공.
리소스 모니터링 + x-ray 기능이다.
Servicelens는 무료이나
x-ray 비용 발생
cloudwatch에서 커스텀 쪽은 추가 비용이 있다.
4
CloudWatch Synthetics?
반응형 서비스 체크 서비스.
엔드포인트에 테스트 수행하여 이상을 발견하는 데 사용
서비스 이용고객의 서비스 이용 상황을 모니터링하고 시작화
스크립트 기반 동작
일회성 또는 스케줄 기반으로 수행
가용성과 지연 체크
로드 타입 날자 및 스트린샷 저장 지원
https://aws.amazon.com/ko/blogs/korea/amazon-cloudwatch-synthetics-seoul-region/
5
CloudWatch 이상 탐지 기능
anomaly detection ( 이상 탐지)?
머신러닝 알고리즘으로 탐지
https://aws.amazon.com/ko/blogs/korea/new-amazon-cloudwatch-anomaly-detection/
6
Amazon CloudWatch, 교차 계정 교차 리전 대시보드
CROSS-region dashboard - 여러 리전 것을 같이 볼 수 있다.
7
Amazon CloudWatch Lambda Insights 발표(평가판)
람다 실행 시 cpu, mem, disk network 수집
cloudwatch lambda extension 이용하는 것이다.
람다 실행시마다 저장된다.
콘솔 및 CLI , cloudformation으로 사용 가능.
<2> 모니터링과 관찰
1
모니터링
2. Observability
관찰
리얼타임 처리를 위해 지켜보는 것.
목적성이 크다.
사람, 아키텍처, 인사이트 액션 ------ 계획을 만들자.
3
cloudwatch 사용
x-ray 사용
4
cloudwatch?
metric - cpu 등
logs
events
alarms
dashboard
5
x-ray?
트래이싱 하는 툴
디버깅
서비스 연결 확인, 서비스 맵
지연시간
6
사용 케이스
iam -- cloudtrail - cloudwatch - metra - alram --- sns
app----custom metric -- cloudwatch - alarm -- suro scaling
7
온프라미스에 서버도 모니터링 가능하다.
온프라미스--- agent ----cloud watch메트릭 -- 알람 ---- 이벤트 판단----- sns, email , auto scaling
log ---- lambda, elastic search, kinesis ------ S3
스플렁크 , 데이터 독
//스플렁크 , 데이터 독 등은 cloudwatch 데이터를 가져가서 3드 파트에서 잘 분석해주고 있다.
8
x-ray???
user ------------------------ front -- api------- sqs--db
추적한다.
크롬의 f12와 유사
분석
병목 찾기
사용자 영향 확인
비 aws 서비스와 연계 가능
낮은 지연시간으로 바로 사용 가능.
<3> 모니터링은 R&R이 정해 져야 한다.
1
누가?
R&R이 정해 져야 한다.
2
운영자?
최초 확인, 장애인지, 어느 쪽 문제인지 파악해야 한다.
3
개발자?
정상 운영 정의를 해야 한다.
cpu가 90이면 문제인지?
load가 들어오면 어떻게 확인하나?
운영자가 알 수 있도록 해야 한다.
4
관리
이벤트에 대응하기 위한 의사 결정을 내리기 위한 작업을 정의해야 한다.
지켜보자?
증설하자?
의사 결정자 정의
5
어떤 걸 알아야 하나?
결함
구성
비용
성능
보안
output
사용자 행동
워크로드가 어떻게 되는지
이벤트 발생 시 종합적으로 대응이 가능하다.
<4> 어떤 것을 모니터링할 것인지 정의하라.
모니터링할 요소 정의?
elb 폴트
보안 그룹
웹서버 실패?
Db실패?
<5> 기본 정책을 미리 정하라.
이벤트 ----- cloudwatch 알람 ----------- 액션 - 증설? 자동 증설? 조치?
<6> 비즈니스 인사이트 확인하라
비즈니스 인사이트 - 고객 민감도
비즈니스 경고 -- 웹 응답
시스템 레벨 -- cpu 부하, 디스크 깊이
<7> 긴급도를 파악해 반영하라.
우선순위가 가장 높은 알림부터 시작 빠르게 수정
이메일만 활용하면 문제
slack 등 사용 권장
상세한 정보를 제공하라.
문자 보고 내용 확인하면 시간이 많이 소요된다.
<8> 적절한 관리 도구를 사용하라.
1
cloudwatch
splunk
newrelic 등
이미 가지고 있는 도구로부터 시작.
요구 사항에 적합한 도구를 사용.
인스턴스 별도 모니터링함?
컨테이너 별도 화면으로 모니터링함?
2
APM 툴
3
cloudwatch - os, 빌링
4
cloudtail - api call logging
5
aws config - 변경 , 형상관리 모니터링 가능
<9> 액션과 개선의 차이
액션
모든 경고 및 이벤트는 수행할 액션을 함으로써 끝나야 합니다.
에스컬레이션 받은 사람은 어떤 것 할 것인지 정의되어야 한다.
상황에 따라 어떤 결정을 내려야 하는지 계획되어야 한다.
어떤 상황에서 어떤 프로세스?
runbook - 어떤 명령어를 써야 하는지 정의되어 있어야 한다.
정의해서 만드는 문서.
운영 매뉴얼.
개선
프로세스적으로 개선 활동을 해야 한다.
자동화하여 대응하도록 한다.
반복해서 적용하고 테스트해야 한다.
<10> 요약
모니터링이 수행되고 있는지?
사용자 문제를 해결하는지?
정확한 지표를 모니터링하고 있는지?
어떻씩으로 모니터링할 건지 계획?
테스트. 평가하는 과정이 필요하다.
<11> 워크 flow
AWS well 아키텍트, 운영 -------비즈니스---- kpi--메트릭 -- 모니터링 -----응답
<12> 운영하는 게 중요하다.
중앙에서 통제하는 게 중요하다.
노력과 관심을 가져야 한다.
강하게 관리하는 것이 필요하다.
https://brunch.co.kr/@topasvga/1581
감사합니다.