회사 블로그에 작성한 포스트를 공유합니다.
네이버 검색은 국내 최대 규모의 트래픽과 데이터를 다루는 대용량 분산 시스템입니다. 수만 대의 서버에서 수백 개의 검색 서비스가 운영되고 있으며, 하루에도 몇 번씩 크고 작은 신규 개발과 유지보수 활동이 활발하게 반영되고 있습니다. 이렇게 거대하고 역동적인 시스템이 안정적으로 운영되려면, 그리고 항상 최고의 성능을 보장하려면 어떤 노력이 필요할까요? 단순히 많은 비용을 들여서 서버 장비를 증설하거나 유능한 개발자를 많이 채용하면 될까요? 당연하게도, 이 문제에 은탄환 같은 만능 해결책이나 딱 떨어지는 정답이 존재하지는 않습니다. 하지만 수많은 시행착오를 겪어가면서 노하우를 차곡 차곡 쌓아나가다 보면 어느 정도 쓸 만한 현실적인 해결책은 만들어 낼 수 있을 것입니다.
이렇게 스케일이 큰 인터넷 서비스를 개발하고 운영하기 위한 방법론을 모으고 모아서 잘 정리한 것이 바로 Site Reliability Engineering(이하 SRE)입니다. 이 글에서는 네이버 검색에서 SRE를 도입한 계기를 소개하고, 실제로 어떻게 활용하고 있는지, 그리고 어떤 성과로 이어지고 있는지 소개해 드리겠습니다.
(후략)
https://d2.naver.com/helloworld/2047663