brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Nov 29. 2020

509. CloudWatch 다양한 기능들


<1>  CloudWatch 기능들 

<2> 모니터링과  관찰

<3> 모니터링은  R&R이 정해 져야 한다.

<4> 어떤 것을 모니터링할 것인지 정의하라.

<5>  기본 정책을 미리 정하라.

<6>  비즈니스 인사이트 확인하라

<7>  긴급도를 파악해 반영하라.

<8> 적절한 관리 도구를 사용하라.

<9> 액션과 개선의 차이

<10>  요약

<11> 워크 flow

<12>  운영하는 게 중요하다.




<1>  cloudWatch 기능들?


1

CloudWatch  Logs  insight?


대량 로그를 처리하는 고속 대화형 쿼리 , 시각화 기능

대시보드에 연결하여 볼 수 있는 기능을 제공.

특정 정보만 보고자 할 때  쿼리를 만들어 볼 수 있다.

https://docs.aws.amazon.com/ko_kr/AmazonCloudWatch/latest/logs/CWL_AnalyzeLogData_RunSampleQuery.html




2

Cloudwatch   Container insight?

ecs, eks , fargate 

https://aws.amazon.com/ko/blogs/korea/operational-insights-for-containers-and-containerized-applications/



3

CloudWatch ServiceLens?


end-to-end 뷰 제공하기 위해  x-ray와 통합 제공.

리소스 모니터링 + x-ray    기능이다.


Servicelens는 무료이나

x-ray  비용 발생

cloudwatch에서 커스텀 쪽은 추가 비용이 있다.

https://aws.amazon.com/ko/blogs/korea/visualize-and-monitor-highly-distributed-applications-with-amazon-cloudwatch-servicelens/



4

CloudWatch Synthetics?


반응형 서비스 체크 서비스.

엔드포인트에 테스트 수행하여 이상을 발견하는 데 사용

서비스 이용고객의 서비스 이용 상황을 모니터링하고 시작화

스크립트 기반 동작

일회성 또는 스케줄 기반으로 수행

가용성과 지연 체크

로드 타입 날자 및 스트린샷 저장 지원

https://aws.amazon.com/ko/blogs/korea/amazon-cloudwatch-synthetics-seoul-region/



5

CloudWatch 이상 탐지 기능

 anomaly detection ( 이상 탐지)?

머신러닝 알고리즘으로 탐지

https://aws.amazon.com/ko/blogs/korea/new-amazon-cloudwatch-anomaly-detection/



6

Amazon CloudWatch, 교차 계정 교차 리전 대시보드


 CROSS-region dashboard - 여러 리전 것을 같이 볼 수 있다.

https://aws.amazon.com/ko/about-aws/whats-new/2019/11/amazon-cloudwatch-launches-cross-account-cross-region-dashboards/



7

Amazon CloudWatch Lambda Insights 발표(평가판)


람다 실행 시  cpu, mem, disk network 수집

 cloudwatch lambda extension   이용하는 것이다.

람다 실행시마다 저장된다.

콘솔 및  CLI , cloudformation으로 사용 가능.

https://aws.amazon.com/ko/about-aws/whats-new/2020/10/announcing-amazon-cloudwatch-lambda-insights-preview/




<2> 모니터링과  관찰


1

모니터링


2. Observability

관찰

리얼타임 처리를 위해 지켜보는 것.

목적성이 크다.

사람, 아키텍처, 인사이트 액션 ------ 계획을 만들자.


3

cloudwatch 사용


x-ray 사용


4

cloudwatch?

metric  - cpu 등

logs

events

alarms

dashboard


5

x-ray?

트래이싱 하는 툴

디버깅

서비스 연결 확인, 서비스 맵

지연시간


6

사용 케이스


iam -- cloudtrail -  cloudwatch - metra - alram --- sns 


app----custom metric -- cloudwatch - alarm -- suro scaling



7

온프라미스에 서버도 모니터링 가능하다.


온프라미스---  agent ----cloud watch메트릭 -- 알람 ---- 이벤트 판단-----  sns,  email ,  auto scaling

                                                                 log ---- lambda, elastic search,  kinesis ------ S3

                                                                    스플렁크 , 데이터 독



//스플렁크 , 데이터 독 등은  cloudwatch 데이터를 가져가서  3드 파트에서 잘 분석해주고 있다.



8

x-ray???


user ------------------------ front -- api------- sqs--db

추적한다.


크롬의 f12와 유사



분석

병목 찾기

사용자 영향 확인

비 aws 서비스와 연계 가능

낮은 지연시간으로 바로 사용 가능.




<3> 모니터링은  R&R이 정해 져야 한다.


1

누가?

R&R이 정해 져야 한다.


2

운영자?

최초 확인, 장애인지, 어느 쪽 문제인지 파악해야 한다.


3

개발자?  

정상 운영 정의를 해야 한다.  

cpu가 90이면 문제인지?

load가 들어오면  어떻게 확인하나?

운영자가  알 수 있도록 해야 한다.


4

관리 

이벤트에 대응하기 위한 의사 결정을 내리기 위한 작업을 정의해야 한다.

지켜보자?

증설하자?

의사 결정자 정의


5

어떤 걸 알아야 하나?


결함

구성

비용

성능

보안

output

사용자 행동

워크로드가 어떻게 되는지



이벤트 발생 시 종합적으로 대응이 가능하다.




<4> 어떤 것을 모니터링할 것인지 정의하라.


모니터링할 요소 정의?

elb 폴트

보안 그룹

웹서버 실패?

Db실패?




<5>   기본 정책을 미리 정하라.


이벤트 ----- cloudwatch 알람 ----------- 액션 -  증설?   자동 증설?  조치? 




<6>   비즈니스 인사이트 확인하라


비즈니스 인사이트  - 고객 민감도

비즈니스   경고 --  웹 응답 

시스템 레벨 -- cpu 부하, 디스크 깊이




<7>  긴급도를 파악해 반영하라.


우선순위가 가장 높은 알림부터 시작 빠르게 수정

이메일만 활용하면 문제

slack 등 사용 권장


상세한 정보를 제공하라.

문자 보고 내용 확인하면 시간이 많이 소요된다.




<8> 적절한 관리 도구를 사용하라.


1

cloudwatch

splunk

newrelic 등


이미 가지고 있는 도구로부터 시작.

요구 사항에 적합한 도구를 사용.


인스턴스 별도 모니터링함?

컨테이너 별도 화면으로 모니터링함?


2

APM 툴


3

cloudwatch - os, 빌링


4

cloudtail - api call logging


5

aws config - 변경 , 형상관리 모니터링 가능




<9> 액션과 개선의 차이


액션

모든 경고 및 이벤트는 수행할 액션을 함으로써 끝나야 합니다.

에스컬레이션 받은 사람은  어떤 것 할 것인지 정의되어야 한다.

상황에 따라  어떤 결정을 내려야 하는지 계획되어야 한다.

어떤 상황에서  어떤 프로세스?

runbook -  어떤 명령어를 써야 하는지 정의되어 있어야 한다.

정의해서 만드는 문서.

운영 매뉴얼.



개선

프로세스적으로 개선  활동을 해야 한다.

자동화하여 대응하도록 한다.

반복해서 적용하고 테스트해야 한다.




<10>  요약


모니터링이 수행되고 있는지?

사용자 문제를 해결하는지?

정확한 지표를 모니터링하고 있는지?

어떻씩으로 모니터링할 건지 계획?

테스트. 평가하는 과정이 필요하다.




<11> 워크 flow


AWS well 아키텍트, 운영  -------비즈니스---- kpi--메트릭 -- 모니터링 -----응답




<12>  운영하는 게 중요하다.


중앙에서  통제하는 게 중요하다.

노력과 관심을  가져야 한다.

강하게  관리하는 것이 필요하다.




https://brunch.co.kr/@topasvga/1581


감사합니다.



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari