AI 모델을 개발하고 나면, 유지보수는 어떻게 할까?

기존 IT 운영인력은 AI 모델을 감당할 수 있을까에 대한 질문

by 정경문
올해는 운동을 좀 해볼까? 다이어트도 제대로 해볼까?


새해가 되면 자연스럽게 이런 생각을 하게 됩니다. 올해는 운동을 좀 해볼까?, 다이어트도 제대로 해볼까? 결심을 하죠. 헬스장에 등록하고, PT를 끊고, 식단 관리 계획까지 세우면 마음이 든든해집니다. 이제 드디어 뭔가 달라질 것 같다는 기대도 생깁니다. 어느 정도 시간이 지나면 몸도 조금씩 변합니다. 체중이 줄고, 옷맵시도 달라집니다. 많은 사람이 이 시점에서 안도합니다. 이제 자리를 잡았다고 생각하는 것이죠. 하지만 진짜 중요한 시기는 바로 그 다음입니다. 몸을 만들때 했던 관리를 멈추는 순간, 우리 몸은 놀라울 정도로 빠르게 예전의 장난꾸러기 몸매로 되돌아갑니다.

ai model and fitness.png


몸을 만들고 나서도 운동과 식단 관리를 꾸준히 하지 않으면 소용이 없는 것처럼,
AI 모델도 개발이후에 관리하지 않으면 성능이 무너진다.

AI 모델 개발도 크게 다르지 않습니다. 모델을 하나 만들고, 정확도도 잘 나오고, 시연까지 성공하면 프로젝트는 끝난 것처럼 보입니다. 성과 보고도 끝나고, 내부 반응도 좋습니다. 하지만 곧 현실적인 질문이 따라옵니다. “이 모델을 앞으로 어떻게 유지하고 관리해야 할까?” 많은 조직에서 이 질문은 뒤로 밀립니다. 만드는 데 집중하느라, 운영을 설계하지 못했기 때문입니다. 그 사이 데이터는 바뀌고, 업무 환경은 달라지며, 사용 방식도 변합니다. 관리되지 않은 AI는 새해 결심이 사라진 12월 회식자리의 몸처럼 서서히 성능이 떨어집니다.


오늘날 우리는 이미 많은 AI와 함께 일하고 있습니다. 아침마다 자동으로 발송되는 뉴스 기사 스크랩, 고객 문의 자동 분류, 매출과 손익 예측 모델, 문서 요약과 보고서 생성, 생산·제조·서비스 영역의 다양한 예측과 자동화까지, AI는 이미 조직의 일상 깊숙이 들어와 있습니다. AI는 더 이상 실험실의 기술이 아니라, 실제 업무를 움직이는 도구가 되었습니다. 하지만 여기서 한 번쯤 멈춰서 생각해볼 필요가 있습니다. 우리 회사에는 AI 모델이 몇 개나 있을까요? 그리고 그 모델들은 지금도 처음 의도한 대로, 안정적으로 작동하고 있나요? 이 질문 앞에서 많은 조직은 쉽게 답하지 못합니다.


우리 회사에는 AI 모델이 몇 개나 있을까?


실제 많은 조직이 겪는 문제가 있습니다. 프로젝트가 끝난 뒤, AI 모델이 방치되는 상황입니다. 처음에는 잘 돌아가던 모델이 어느 순간부터 사용되지 않거나, 성능이 떨어져도 아무도 책임지지 않는 경우가 생깁니다. 특히 모델을 설계하고 학습시킨 핵심 인력이 조직을 떠났거나, TFT가 종료된 뒤에는 문제가 더 커집니다. 왜 이런 구조로 만들었는지, 어떤 데이터를 기준으로 학습했는지, 어디를 건드리면 위험한지 아는 사람이 사라지기 때문입니다. AI 모델은 더 이상 자산이 아니라, 손대기 어려운 블랙박스가 됩니다.




#1. MLOps : 머신러닝 모델을 운영해주는 프레임 워크의 등장


이 지점에서 등장하는 개념이 MLOps입니다. MLOps는 머신러닝(Machine Learning)과 운영(Operations)을 결합한 개념으로, 모델을 만드는 과정과 실제 운영 환경을 하나의 흐름으로 묶습니다. 한 번 학습시키고 끝내는 것이 아니라, 운영 환경에서 성능을 지속적으로 확인하고 필요하면 다시 학습시키는 구조입니다. 이는 개인이 운동 기록을 남기고, 변화 추이를 확인하며 관리하는 단계에 가깝습니다.


The continuous monitoring process.png The continuous monitoring process <src:practitioners_guide_to_mlops_whitepaper by google>


이러한 흐름을 체계적으로 정리한 대표적인 자료가 2021년 구글이 발표한 「Practitioners Guide to MLOps」 백서입니다. 이 백서는 머신러닝을 한 번 만드는 기술이 아니라, 실험하고, 배포하고, 관찰하며 개선해야 하는 운영의 문제로 정의합니다. 이 관점은 이후 ModelOps로 자연스럽게 확장됩니다.




#2. ModelOps : 둘 이상의 AI 모델에 대한 개발부터 성능모니터링, 운영관리


mlops.png MLOps

하지만 조직의 AI 활용이 늘어나면, 문제는 한 단계 더 복잡해집니다. 하나의 모델이 아니라 여러 개의 모델이 동시에 운영되기 시작합니다. 이때 필요한 것이 ModelOps입니다. ModelOps는 개별 머신러닝 모델을 넘어, 조직이 보유한 다양한 모델을 하나의 자산으로 관리하는 관점입니다. 어떤 모델이 어디에서 쓰이고 있는지, 성능은 어떤지, 언제 업데이트해야 하는지를 체계적으로 관리합니다. 마치 개인들의 PT(퍼스널 트레이닝)를 넘어, 헬스장에 등록된 여러 회원의 운동 상태를 한눈에 관리하는 단계라고 볼 수 있습니다.




#3. AI Ops : Agentic AI 기반으로 진화한 AI 모델과 IT System에 대한 포괄적 관리


문제는 여기서 끝나지 않습니다. AI의 역할은 점점 더 확장되고 있습니다. 초기의 AI가 추천이나 예측에 머물렀다면, 이제는 상황을 판단하고, 계획하고 행동하는 단계로 나아가고 있습니다. 메일을 보내고, 업무를 배분하며, 다음 행동을 결정하는 AI, 이른바 Agentic AI가 등장하고 있습니다. 이 단계에서는 단순히 모델 몇 개를 관리하는 것만으로는 충분하지 않습니다.


이때 필요한 개념이 AIOps입니다. AIOps는 개별 모델이나 여러 모델을 넘어, 조직 전체의 AI를 하나의 시스템으로 운영하는 체계입니다. 헬스장에 비유하면, 회원마다 각자 다른 운동 앱, 식단 앱, 체중 관리 앱을 쓰게 두는 것이 아니라, 헬스장 전체 회원의 상태를 하나의 통합 시스템으로 관리하는 것에 가깝습니다. 그래야 이상 징후를 빠르게 파악하고, 문제가 커지기 전에 대응할 수 있습니다.


특히 GPT나 LLaMA와 같은 초대형 언어모델을 활용한 AI 서비스를 개발하고 System에 적용하면서 AIOps의 중요성은 더욱 커졌습니다. 이러한 모델은 수십억에서 수백억 개의 파라미터를 갖고 있어, 학습과 추론 과정에서 막대한 GPU 자원을 요구합니다. 운영 구조가 준비되지 않으면 클라우드 비용이 급격히 증가하고, 서비스 지속 자체가 어려워지기도 합니다. 또한 실시간으로 언어를 생성하는 특성상, 부정확한 내용을 그럴듯하게 만들어내는 환각 문제, 민감한 정보 유출, 윤리적 논란과 같은 리스크도 함께 관리해야 할 대상입니다.


하지만 현실의 조직에는 또 하나의 장벽이 있습니다..


기존 IT 운영인력이 AI 모델을 감당할 수 있나?


전문가 인사이트와 해결방안이 담긴 원문은 다음 네이버 블로그에서 확인하실 수 있습니다.

https://blog.naver.com/hshyosung_official/224162630110


이전 10화AI 개발자의 역량 : 위대한 개인의 탄생