24시간 잠들지 않는 집사 - 운영 시스템
안녕하세요.
지난 화에서는 클라우드라는 인프라와 그 재료를 조합하여 웹사이트를 만드는 과정을 따라가 보았습니다.
여러 번 말씀드린 바와 같이 클라우드에 올리면 끝이 아니라 클라우드에 올리는 순간, 드디어 클라우드의 세계에 발을 딛게 됩니다.
이제 클라우드를 운영하기 위해 무엇이 중요한 지에 대해 알아보겠습니다.
"이번 달 클라우드 비용 3,700만 원입니다."
CTO는 깜짝 놀랐습니다. 예상은 2,000만 원이었으니까요. 급하게 비용 내역을 뜯어보니 문제는 명확했습니다. 3개월 전 해커톤 때 만든 테스트 서버 20대가 그대로 돌고 있었고, 누군가 실수로 S3 버킷을 퍼블릭으로 열어두는 바람에 봇들이 데이터를 무한 다운로드하고 있었습니다.
"왜 아무도 이걸 몰랐죠?"
이것이 바로 많은 기업이 클라우드 도입 후 겪는 현실입니다. 클릭 몇 번으로 자원을 만들 수 있다는 편리함은, 동시에 누가 무엇을 얼마나 쓰는지 보이지 않는다는 위험을 낳습니다.
지난 화에서 우리는 서버, 스토리지, 네트워크를 조합하여 '웹사이트'라는 멋진 집을 지었습니다.
하지만 클라우드 여정에서 집을 짓는 것은 시작에 불과합니다. 진짜 도전은 이제부터입니다.
바로, 이 집을 24시간 내내 안전하고, 효율적이며, 비용 효과적으로 '관리'하는 일이죠.
이전 화들에서 우리는 CMP, FinOps, TCO와 같은 용어들을 잠시 스치듯 언급했습니다.
이제는 그 단어들의 껍질을 벗겨내고, 클라우드 운영의 심장부에서 이들이 실제로 어떻게 작동하는지 깊이 들여다볼 시간입니다.
클라우드는 분산되고 가상화된 자원의 집합체입니다. 수십 개의 계정과 수천 개의 자원이 얽혀있는 환경을 사람의 눈과 손만으로 관리하는 것은 불가능합니다.
한 금융사의 실제 상황을 보겠습니다. 각 부서가 자기들끼리 AWS 계정을 만들어 사용했습니다. 마케팅팀의 데이터 분석 서버가 어디 있는지 IT팀이 몰랐고, 보안팀은 전체 S3 버킷 중 몇 개가 외부에 열려있는지 파악할 수 없었습니다. CFO는 "우리가 클라우드에 도대체 얼마를 쓰고 있나?"라는 질문에 답을 들을 수 없었죠.
이것이 바로 CMP(Cloud Management Platform)가 필요한 이유입니다.
CMP는 단순한 대시보드가 아닌, 조직의 클라우드를 통제하는 중앙 관제탑입니다.
성숙한 CMP는 네 가지 핵심 역할을 수행합니다.
첫째, 흩어져 있는 모든 클라우드 자산을 자동으로 탐지하고 체계화합니다.
각 자원에는 프로젝트명, 팀명, 환경(개발/운영), 비용센터, 담당자 같은 태그를 붙여 분류합니다.
이런 태그가 있으면 "마케팅팀이 지난달에 얼마를 썼지?" 같은 질문에 3초 만에 답할 수 있습니다. 태그가 없으면 한 달 동안 수작업으로 비용 내역을 추적해야 하죠.
둘째, 셀프서비스 환경을 제공합니다.
개발자가 서버를 요청했을 때 운영팀에 티켓을 넣고 3일을 기다리는 시대는 끝났습니다.
CMP는 미리 정의된 표준 템플릿, 예를 들어 "개발용 웹서버 - 2코어, 4GB, Ubuntu 22.04" 같은 것을 제공하고, 개발자가 직접 셀프서비스로 신청할 수 있게 합니다. 승인 프로세스도 자동화됩니다.
'월 예산 100만 원 이하의 자원은 자동 승인, 그 이상은 팀장 승인 필요'
이런 규칙을 설정해두면 민첩성과 통제를 동시에 확보할 수 있습니다.
셋째, 회사가 정한 보안 규칙을 24시간 감시합니다.
"S3 버킷은 절대 외부에 공개되면 안 된다", "프로덕션 DB는 특정 IP에서만 접근 가능하다", "SSH 포트는 회사 VPN에서만 열려있어야 한다" 같은 규칙들을 실시간으로 점검하죠.
위반 사항이 발견되면 즉시 슬랙같은 협업툴로 경고를 보내거나, 심지어 자동으로 수정합니다.
예를 들어 누군가 실수로 S3 버킷을 퍼블릭으로 바꾸면, 30초 내에 자동으로 다시 프라이빗으로 되돌리는 것입니다.
넷째, 비용을 분석하고 최적화 방안을 제시합니다.
단순히 이번 달 요금을 보여주는 것을 넘어, 어떤 팀이 얼마를 썼는지, 어떤 서버가 CPU 5%만 쓰면서 낭비되고 있는지, 예약 인스턴스를 구매하면 얼마를 절약할 수 있는지를 AI로 분석하여 구체적인 최적화 방안을 제시합니다.
CMP 시장은 크게 두 가지로 나뉩니다.
첫째는 AWS Control Tower, Azure Management Groups, Google Cloud Deployment Manager처럼 각 CSP가 직접 제공하는 네이티브(Native) 도구들입니다.
특정 클라우드에 최적화되어 있지만, 다른 클라우드를 함께 관리하기는 어렵다는 한계가 있습니다.
둘째는 VMware Aria, Red Hat Ansible Automation Platform과 같은 서드파티(3rd-Party) 솔루션입니다. 여러 클라우드를 통합적으로 관리할 수 있다는 장점이 있습니다.
국내에서는 메가존클라우드의 SpaceONE, 베스핀글로벌의 OpsNow처럼 대형 MSP들이 자체 개발한 CMP를 통해 차별화된 서비스를 제공하고 있습니다.
많은 기업이 "클라우드는 사용한 만큼만 내니까 저렴할 것"이라 생각하고 시작합니다.
하지만 통제되지 않은 클라우드 비용은 눈덩이처럼 불어납니다.
예를 보겠습니다.
한 스타트업이 처음 AWS를 시작할 때 월 300만 원이었습니다. 1년 후에는 월 3,000만 원이 되었죠. 매출은 3배 늘었는데 클라우드 비용은 10배가 됐습니다. 문제는 누구도 이게 정상인지 비정상인지 판단할 수 없었다는 점입니다.
이것이 FinOps가 탄생한 배경입니다.
FinOps는 단순히 비용을 줄이는 기술이 아니라, 기술팀, 재무팀, 비즈니스팀이 협력하여 클라우드 비용에 대한 공동의 책임을 지는 문화이자 운영 모델입니다.
이러한 FinOps 문화를 기술적으로 지원하기 위해 다양한 솔루션들이 존재합니다.
AWS Cost Explorer, Azure Cost Management + Billing, GCP Cost Management 등 각 CSP가 제공하는 기본 비용 관리 도구를 통해 비용 가시성을 확보할 수 있습니다.
여기서 더 나아가, Apptio Cloudability, Flexera One, VMware Tanzu CloudHealth와 같은 FinOps 전문 솔루션들은 여러 클라우드의 비용을 통합 분석하고, AI 기반으로 최적화 방안을 추천하는 등 훨씬 더 고도화된 기능을 제공합니다. 국내 MSP들 역시 자사의 CMP에 강력한 FinOps 기능을 탑재하여 제공하는 추세입니다.
FinOps는 보통 세 단계의 순환 주기로 작동합니다.
첫 번째 단계는 정보 제공, 즉 투명성 확보입니다.
모든 것의 시작은 '누가 얼마를 쓰는지' 보이게 만드는 것입니다. (Visibility)
각 팀별로 맞춤형 비용 대시보드를 제공하고, 비용이 예산 대비 80%를 넘으면 자동 알람을 보내며, 전날 대비 비용이 50% 이상 급증하면 즉시 슬랙 알림을 보냅니다. 한 이커머스 기업은 이 단계만 구축해도 비용이 15% 줄었습니다. 각 팀이 자기들이 얼마나 쓰는지 '알게' 된 것만으로도 불필요한 낭비를 스스로 줄이기 시작했기 때문입니다.
두 번째 단계는 최적화, 즉 낭비 제거입니다. (Optimization)
낭비가 보이면 즉시 행동해야 합니다. 여기서 구체적인 비용 절감 기술들이 총동원됩니다.
먼저 라이트사이징은 과도하게 할당된 자원을 실제 사용량에 맞게 줄이는 것입니다.
실제 사례를 보면, CPU 사용률이 평균 8%인 서버를 발견했을 때 32코어에서 8코어로 줄였더니 월 120만 원이 80만 원으로 감소했습니다. 성능 저하는 전혀 없었죠.
유휴 자원 제거는 사용되지 않고 방치된 서버나 스토리지를 찾아 삭제하는 것입니다.
한 게임 회사는 종료된 프로젝트의 데이터를 S3에 3년간 방치했는데, 500TB의 데이터에 월 1,200만 원이 나갔습니다. 필요한 것만 남기고 삭제하니 월 200만 원으로 감소했죠.
예약 구매는 1년 또는 3년 사용을 약정하여 30~70%의 큰 할인을 받는 방법입니다. 항상 돌아가는 프로덕션(운영) 서버 50대를 3년 약정으로 전환했더니 월 700만 원에서 300만 원으로 57%가 절감된 사례가 있습니다.
스케줄링은 개발이나 테스트 서버처럼 주말이나 야간에 사용하지 않는 자원을 자동으로 껐다 켜는 것입니다. 개발 서버 100대를 평일 오전 9시부터 오후 7시까지만 가동하도록 설정했더니, 주 168시간에서 50시간으로 줄어들며 월 800만 원이 240만 원으로 70%나 절감되었습니다.
세 번째 단계는 운영, 즉 문화로 정착시키는 것입니다.
최적화는 일회성 이벤트가 아닙니다.
새로운 프로젝트를 시작할 때부터 비용 예산을 예측하고, 실제 사용량을 추적하며, 비즈니스 성과와 비용을 함께 평가하는 프로세스를 조직의 DNA로 만들어야 합니다.
성공적인 기업들은 모든 프로젝트 제안서에 '예상 클라우드 비용' 항목을 필수로 넣고, 월 1회 FinOps 리뷰 미팅을 기술팀, 재무팀, 사업팀이 함께 진행하며, 비용 절감 성과를 팀 KPI에 반영합니다.
숨겨진 비용의 복병, Egress
FinOps를 실행하다 보면 많은 사람들이 가장 이해하기 어려워하고 동시에 가장 당황하는 비용이 하나 있습니다. 바로 Egress(데이터 전송) 비용입니다.
Egress란 클라우드 데이터센터에서 인터넷으로 데이터가 나갈 때 발생하는 '통행료'입니다.
데이터를 클라우드로 업로드하는 Ingress는 무료인데, 사용자가 데이터를 다운로드하거나 다른 클라우드로 옮기는 Egress는 유료입니다.
왜 이런 구조일까요? 클라우드 제공자 입장에서는 데이터를 자신의 생태계 안에 머무르게 하려는 전략입니다. 한 번 들어오면 나가기 어렵게 만드는 것이죠. 이를 "Vendor Lock-in"이라고도 부릅니다.
실제 사례를 보겠습니다.
동영상 교육 플랫폼 A사는 S3에 강의 영상을 저장했습니다.
스토리지 비용은 월 50만 원 정도로 예상했는데, 첫 달 청구서를 보니 450만 원이 나왔습니다.
원인은 학생 10만 명이 평균 3GB의 영상을 다운로드하면서 총 300TB의 데이터가 나갔고, GB당 약 130원의 Egress 비용이 발생한 것이었습니다.
해결책은 CDN을 사용하는 것입니다. CloudFront 같은 CDN을 사용하면 Egress 비용을 30~50% 절감할 수 있습니다. CDN은 전 세계에 캐시를 두고 같은 파일을 반복해서 전송할 때 원본 서버가 아닌 캐시에서 제공하기 때문입니다.
많은 경영진이 클라우드의 가치를 단순히 '월별 청구서'로만 판단하는 실수를 저지릅니다.
하지만 진짜 가치를 보려면 TCO(총소유비용, Total Cost of Ownership)라는 더 넓은 렌즈가 필요합니다. TCO는 빙산과 같습니다. 수면 위에는 월별 클라우드 사용료가 보이지만, 수면 아래에는 보이지 않는 비용과 보이지 않는 이익이 함께 존재합니다.
먼저 수면 아래의 숨겨진 비용들을 살펴보겠습니다.
앞서 이야기한 데이터 전송 비용 외에도 마이그레이션 프로젝트 비용이 있습니다.
클라우드로 이전하는 것은 단순한 '복사-붙여넣기'가 아닙니다. 기존 시스템 분석, 전환 전략 수립, 파트너사 계약, 프로젝트 관리 등 프로젝트 전반에 걸쳐 발생하는 비용을 모두 포함해야 합니다.
일반적으로 중견기업의 클라우드 마이그레이션 프로젝트는 3억에서 10억 원 규모로 추산할 수 있습니다. (경우에 따라 달라지므로 절대적이지 않습니다)
기술 교육과 신규 인력 채용 비용도 있습니다.
클라우드는 새로운 기술과 운영 방식을 요구하기 때문에 기존 직원을 교육하거나, 클라우드 아키텍트나 FinOps 전문가 같은 새로운 역할을 수행할 인력을 채용해야 합니다. AWS 자격증 취득 교육만 해도 1인당 200만에서 300만 원이 듭니다.
서드파티 솔루션 구매 비용도 만만치 않습니다.
클라우드 제공자가 기본 모니터링을 제공하지만, 더 전문적인 기능을 위해 Datadog, New Relic, Splunk 같은 솔루션을 구매하는 경우가 많습니다. 중견기업 기준으로 이러한 SaaS 구독료가 월 500만에서 1,500만 원 수준으로 생각할 수 있습니다. (경우에 따라 달라지므로 절대적이지 않습니다)
하지만 수면 아래에는 비용만 있는 게 아닙니다. 훨씬 더 큰 가치인 숨겨진 이익이 존재합니다.
클라우드 도입의 진정한 ROI는 비용 절감이 아닌, 비즈니스의 근본적인 체질 개선에서 나옵니다.
첫 번째는 민첩성 향상입니다.
갑자기 특정 상품에 대한 라이브 커머스가 유행하기 시작했을 때를 생각해보겠습니다.
클라우드 기반의 A사는 일주일 만에 관련 환경을 구축하여 트렌드를 즉시 포착했습니다. 반면 온프레미스의 B사는 서버 증설에 2개월이 걸렸고, 그때는 이미 유행이 지나간 뒤였죠. A사가 얻은 시장 선점의 가치는 단순 서버 비용으로 환산할 수 없습니다. 실제로 이 기간 동안 A사는 20억 원의 추가 매출을 기록했습니다.
두 번째는 장애 감소를 통한 비즈니스 연속성 확보입니다.
한 대형 온라인 티켓 예매 사이트는 과거 유명 아이돌의 콘서트 예매 때마다 트래픽 폭주로 서비스가 마비되었습니다. 한 번 장애가 나면 3시간 동안 매출이 제로가 되어 약 5억 원의 직접적 손실이 발생했고, 언론 보도와 고객 신뢰 추락, 집단 소송 위험 같은 간접적 손실도 컸습니다. 클라우드로 이전한 후 오토스케일링과 Multi-AZ 구성 덕분에 지난 3년간 단 한 번의 대규모 장애도 발생하지 않았습니다. 여기서 얻은 이익은 단순 매출 손실 방지를 넘어, '언제나 안정적인 서비스'라는 브랜드 신뢰를 구축한 것입니다.
세 번째는 혁신의 가속화입니다.
기업의 가장 비싼 자산은 인프라가 아니라 바로 '사람', 특히 핵심 엔지니어들입니다.
10명의 엔지니어가 있는 한 기술 스타트업을 보겠습니다. 온프레미스 시절에는 3명이 인프라 관리에, 7명이 제품 개발에 매달렸습니다. 클라우드의 관리형 서비스를 도입한 후에는 1명만으로 인프라 운영이 가능해졌고, 나머지 2명은 신규 AI 추천 알고리즘 개발에 투입되었습니다. 6개월 뒤 이 기능 덕분에 회사의 매출은 20% 상승했습니다. 이는 엔지니어들의 시간을 단순 비용에서 미래 가치를 만드는 투자로 전환시킨 사례입니다.
클라우드의 TCO 분석은 단순한 비용 절감 증명이 아니라, "우리가 클라우드를 통해 얼마나 더 빠르고, 안정적이며, 혁신적인 회사가 되었는가?"를 증명하는 전략적 행위입니다. 많은 기업이 "클라우드가 온프레미스보다 비싸다"고 불평합니다. 하지만 이는 택시비와 자가용 유지비를 단순 비교하는 것과 같습니다. 택시는 필요할 때만 쓰고, 주차 걱정도 없으며, 운전하는 동안 다른 일을 할 수 있습니다. 클라우드도 마찬가지입니다.
비용만 보지 말고, 그것이 가져다주는 '시간', '안정성', '기회'를 함께 봐야 합니다.
이제 집을 관리하는 운영 시스템까지 갖추었습니다.
CMP로 가시성을 확보하고, FinOps로 비용을 최적화하며, TCO로 전략적 가치를 증명하는 것. 이것이 현대 클라우드 운영의 핵심입니다.
하지만 여러 가족이 함께 사는 큰 집에는 모두가 따라야 할 '가훈'과 '규칙'이 필요합니다. 다음 화에서는 클라우드 시스템의 마지막 퍼즐, 바로 거버넌스와 보안이라는 '규칙과 질서'에 대해 알아보겠습니다.