모니터링과 옵저버빌러티

Feb 17. 2022

이 글은 AWS Monitoring and observability를 번역한 내용입니다.

보안과 같이 모니터링과 옵저버빌러티는 클라우드 애플리케이션과 서비스를 운영하고 관리하는 모든 팀에게 필요합니다. Operational Excellence Pillar whitepaper에 나와있듯이, 여러분의 팀은 워크로드 이벤트에 대한 가시성을 갖기 위해 반드시 운영 메트릭을 정의하고, 확보하고 분석해야 합니다. 그래야만 팀에서 적절한 액션을 취할 수 있습니다. 매니지먼트 계층에서는 의미하는 바는 무엇일까요? 여러분의 매니지먼트 플랫폼에서 가드레일, 네트워크, 보안, 그리고 인증 서비스를 제공함에 따라 운영 메트릭을 이해하는 것을 의미합니다.

여러분의 모든 팀들은 그들의 오퍼레이션 상태를 쉽게 이해할 수 있어야 합니다. 그들이 많은 클라우드 환경 혹은 하나의 애플리케이션 중 어느 것에 책임이 있든지 간에 말이죠. 여러분의 팀들은 유용한 인사이트를 얻기 위해 운영 결과에 기반한 메트릭을 이용하길 원할 것입니다. 여러분은 분별력 있는 결정을 내리기 위해 이러한 메트릭을 이용하고, 이 메트릭을 8개의 M&G(Management and Governance, 관리 및 거버넌스) 렌즈 역량의 주요 입력값으로 이용해야 합니다. AWS를 이용하면 여러분의 운영 로그를 한 곳에 모으고 분석하는 것이 수월해집니다. 메트릭을 생성하고, 운영 상태를 파악하며 나아가 시간이 지남에 따라 운영에서의 인사이트를 얻어낼 수 있습니다. 여러분이 분석을 위한 소비, 스토리지, 분석, 그리고 운영 데이터를 위한 옵저버빌러티 솔루션을 제공할 때, 이러한 일련의 활동들이 중심적으로 이뤄집니다.

Responding to Events에 나와있듯이, 여러분은 계획된 운영 이벤트들(예를 들면, 세일즈 프로모션, 배포, 그리고 실패 테스트)과 계획되지 않은 이벤트들(예를 들면, 가동 및 컴포넌트 실패에서의 급격한 증가) 둘 다 예상해야 합니다. 알림에 대응할 때, 시뮬레이션, 커스텀 런북, 플레이북을 사용하고 일관된 결과를 전달하기 위해 반복하세요. 응답과 에스컬레이션에 책임이 있는 역할을 가진 사람이나 팀이 정의된 경고 알림을 소유해야 합니다. 또한, 여러분은 시스템 컴포넌트가 비즈니스에 미치는 영향을 알고 이것을 필요할 때 이용하길 원할 것입니다. 이벤트가 발생한 후에는 근본 원인(a root cause)을 분석하세요. 그런 다음에 실패를 반복하는 것을 방지하기 위해 필요한 조치를 도입하고 대처방안을 기록하세요.

많은 기업들에서 테크니컬 팀들은 그들이 관리하는 서비스 혹은 인프라스트럭처를 모니터 하기 위해 통합된 시스템을 공유합니다. 공유된 옵저버빌러티 시스템은 전체 조직에 대한 모든 퍼포먼스 데이터를 한 곳에 모아줍니다. 이는 각 팀들이 서비스와 컴포넌트 간의 연관관계를 시각화할 수 있게 하고, 실시간 데이터를 함께 살펴보며, 퍼포먼스 혹은 보안 이슈의 출처를 빠르게 찾아낼 수 있게 해 줍니다.

옵저버빌러티 시스템은 애플리케이션, AWS 로깅 그리고 서비스 메트릭 역량으로부터 직접 데이터를 수집합니다. AWS는 당신의 모니터링과 옵저버빌러티 위상을 높이는 데 도움이 될 수 있는 서비스들을 제공합니다.

그 서비스들은 아래와 같습니다.

AWS CloudTrail

Amazon CloudWatch

Amazon Managed Service for Prometheus

VPC Flow Logs, AWS X-Ray traces

Amazon EventBridge events

Amazon Managed Grafana

Elastic Load Balancing

AWS Network Firewall

keyword

매거진의 이전글Observability란 무엇인가요?데이터 중심 변화 접근법을 적용하면 어떤 점이 좋나요?매거진의 다음글