xxOps가 버즈워드다. 데이터옵스의 정의, 목표, 설계구조를 알아보자.
이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2022년 5월호에 기고한 글입니다. 원본 글 '더 나은 비즈니스 결정을 이끄는 데이터옵스'를 이곳 브런치에서도 공유합니다.
데이터는 디지털 트랜스포메이션의 혁신과 경쟁 우위를 위한 연료이다. 분석을 주도하고 비즈니스 동향과 기회를 이해하기 위한 핵심 요소가 된다. 새로운 방식으로 데이터의 가치를 실현하면 기업이나 조직의 디지털 전환 계획을 가속화하는 것이 가능하다.
데이터 및 분석팀이 더욱 다양하고 복잡하며 미션 크리티컬한 비즈니스 프로세스를 지원하는 것이 중요하다는 것을 잘 알고 있음에도 불구하고, 기업이나 조직 내의 그 데이터를 소비하는 다양한 소비자 요구 및 사용 사례를 지원하는 작업에는 어려움이 많다. 끊임없이 변화하는 요구사항에 따라 더 높은 품질을 갖추고 더 빠르게 제공해야 한다는 압력으로 인해 데이터 및 분석팀은 현재의 업무 프로세스가 적합하지 않다고 생각한다. 기존의 워터폴 방법론은 요구사항 정의와 가치 전달 사이의 거리가 너무 멀고, 시간이 오래 걸리고, 역할과 사일로 된 팀 구성으로 인해 많은 작업이 손실되거나 저하되기 때문이다.
이러한 문제에 대해, 데이터옵스 기술은 데이터 파이프라인을 구축하고 관리하기 위한 보다 민첩하고 협업적이며 변경에 빠르게 적응하는 접근 방식을 통해 문제를 해결할 수 있다. 데이터 관련 프로젝트가 약속된 ROI (투자 대비 수익)에 도달하지 못하는 경우 이해관계자는 이유를 알고 싶어 한다. 엑스페리안의 2019 글로벌 데이터 관리 연구 보고서에 따르면 기업의 89%가 데이터 관리에 어려움을 겪고 있다고 한다.1) 이러한 어려움에는 데이터로부터 인사이트를 가져오는 능력과 기본 데이터에 대한 신뢰 부족도 포함된다.
기업이나 조직의 비즈니스 목표를 이해하는 것은 분석 및 추후 차별 서비스가 되는 인공지능이나 머신 러닝을 위한 효과적인 데이터 전략을 개발하는 데 가장 중요하다. 모든 비즈니스 모델이 작동하려면 고객의 요구사항을 충족해야 한다. 비즈니스의 성공은 언제라도 일관된 방법으로 통합된 데이터 파이프라인을 통해 데이터 운영을 간소화하는 데 달려 있다. 더 빠르면서도 품질 좋은 결과를 얻으려는 기대치는 계속 높아지는 상황에서 기업은 최상의 의사 결정을 위해 운영 효율성을 개선할 방법을 찾고 있다.
이것이 모든 기업과 조직이 단일 프레임워크 내에서 문제를 해결할 수 있는 데이터를 다루는 새로운 방법을 모색하게 되는 이유가 된다. 신뢰할 수 있는 데이터가 조직의 차별화된 통찰력과 운영 효율성을 높이는 데 도움이 될 때 데이터는 가치가 있다.
데이터옵스(DataOps)는 사용자에게 신뢰할 수 있는 고품질 데이터를 빠르게 제공하기 위해 사람, 프로세스 및 기술을 융합 사용하는 것을 말한다. 이 시도는 조직 전체의 협업을 지원하여 민첩성, 속도 및 새로운 데이터 이니셔티브를 대규모로 추진하여 생산성과 효율성을 극대화하는 데 중점을 둔다. 즉 데이터 옵스는 조직 전체의 데이터 관리자와 데이터 소비자 간의 데이터 흐름의 커뮤니케이션, 통합 및 자동화를 개선하는 데 중점을 둔 협업 데이터 관리 방식이다.
데이터옵스는 자동화를 사용하여 데이터 액세스, 준비, 통합 및 최종 소비자에 제공하는 과정에 나오는 운영의 비효율성과 관련된 문제를 해결하도록 설계한다. 잠재적 이점으로는 정보와 데이터를 개인에게 제공하고 프로세스를 개선하여 효율성과 최적화를 달성할 때 상당한 생산성 향상을 얻을 수 있다는 데 있다. 또한 데이터옵스는 데이터 및 분석 솔루션을 사용하는 효과적인 작업방식에 관한 것이다. 많은 조직이 애플리케이션을 구현하는 데 활용한 개념과 채택한 기술을 적용함으로써, 발전된 커뮤니케이션과 긴밀한 협업을 통해 배포 속도가 빨라지고 배포 후 변경 사항에 더 효과적으로 대응할 수 있는 애자일 방법론에 기초를 두고 있다.
데이터옵스는 사람, 프로세스 및 기술을 통합과정이기에 그 프로세스가 실제로 동작하려면, 모든 기능에 걸쳐 각 이해관계자 간의 긴밀한 협업이 필요하다. 분석의 속도와 정확성을 높이는 데이터 관리 학습과 프로세스를 육성하는 데 중점을 두어야 한다. 데이터옵스 플랫폼이 제대로 정의되고 동작한다면 다음과 같은 세 가지의 명확한 이점을 경험하게 된다.
1. 효율적인 데이터 플로우: 전체 프로세스를 관리하며, 데이터 수명 주기의 모든 단계에서 연결 및 최적화된 데이터를 선별, 통제, 관리할 수 있다.
2. 안전하고 규정을 준수하는 데이터: 자동화되고 사용자 지정 가능한 데이터 품질, 마스킹, 토큰화 등에 대한 제어를 적용하여 데이터를 보호하고 여정의 모든 단계에서 규정 준수를 확인할 수 있다.
3. 데이터 비용 절감: 대부분의 비즈니스 이해 관계자들은 스스로 서비스에 액세스 할 수 있게 된다. IT 의존도를 줄이고 분석 결과를 가속화하며 데이터 비용을 낮추는 동시에 데이터를 쉽게 검색, 선택 및 프로비저닝 할 수 있게 된다.
데이터옵스는 자동화 기술을 적극적으로 도입 사용하여 프로젝트 결과와 딜리버리 시간에서 효율성을 높인다. 그러나 이런 이점을 경험하려면 진정한 데이터 중심의 조직 문화로 진화해야 한다. 이런 조직 문화 상황에서, 모든 비즈니스 부서가 품질 높은 데이터를 시의적절하게 필요로 하고 관리하려는 움직임이 있을 때 드디어 다음의 데이터옵스 목표를 시도해 볼 수 있다.
1. 조직에서 흐르는 데이터의 품질과 속도를 높인다.
2. 비즈니스 전반에 걸쳐 데이터 중심의 비전을 유지하기 위한 경영 전략을 지원한다.
그러나 데이터옵스 프레임워크를 시작하기 전에 중요한 점이 있다. 모든 변화는 비즈니스의 진정한 목표를 이해하는 데서 시작되어야 한다는 것이다. 예를 들어, 다음과 같은 질문이 그 목표점 세팅에 도움이 된다.
이 데이터는 고객의 결정과 서비스에 어떤 영향을 제공하는가?
시장에서 경쟁 우위를 유지하는 데 이 데이터가 어떻게 도움이 될 수 있는가?
데이터를 통해, 재정적 우선순위를 어떻게 해결할 수 있는가?
데이터 관리 및 분석은 생각보다 훨씬 더 복잡하고 다양하다. 새로운 가설과 요구사항을 다루기 위해 데이터 사이언스 팀에서 인공지능 기반 자율 프로세스, 보다 구조화되고 잘 정의된 분석에 이르기까지 요구사항은 여러 비즈니스 기능에 걸쳐 다양한 기술을 갖춘 IT 내부 및 외부의 사람들을 포함해야 한다. 복잡한 데이터 파이프라인에는 이러한 모든 역할을 포함할 수 있으며, 일관된 커뮤니케이션 및 조정이 없으면 시간이 추가되고 연결이 끊어져 품질 문제가 발생한다. 이러한 다양한 역할에 의해 생성된 결과물 간의 종속성과 영향에 대한 명확한 가시성을 확보하지 않으면, 비즈니스 요구사항을 만족시킬 수 없게 된다.
가트너의 조사에 따르면, 많은 조직에서 데이터 엔지니어, 프로덕트 매니저, 데이터 매니저 등 이 파이프라인에 참여해야 하는 역할을 빠르게 추가하고 있다.2)
데이터옵스 접근 방식은 이러한 역할 전반에 걸쳐 명확한 커뮤니케이션과 협업을 요구한다. 그들 각자는 다른 사람들이 기대하고 생산하는 것을 이해하며, 만들고 발전시키고 있는 파이프라인의 요구사항과 목표에 대해 공동으로 이해해야 한다. 협업 도구, 공통 메타데이터 관리 솔루션 및 공유 메트릭과 같은 함께 작업할 수 있는 채널을 만드는 것이 출발점이다.
또한 데이터옵스 전체 채널을 책임지는 리더는 데이터 중심 문화와 그 프로세스를 발전시키기 위해 데이터에 관련된 모든 이해관계자가 수행하는 역할을 기업이나 조직 상황에 맞추어 다음 그림과 같이 정의할 수 있어야 한다.
각 플로우마다 IT, 데이터 사이언티스트 및 비즈니스 라인의 이해관계자가 맡은 업무 역할에 따라 성공적인 비즈니스 가치를 평가하고자 하는 요구사항이 있다. 이런 요구사항을 모두 취합하고, 상호 간 협업을 통해 기업은 수준 높은 데이터 거버넌스를 정의하고 실행할 수 있다.
또한 중요한 것은 커뮤니케이션과 툴 체인을 통해서 어떻게 프로세스 관리를 할 것인가를 정의하는 일이다. 소스 데이터가 변경되거나 파이프라인이 트리거, 실패, 완료 또는 배포되면 알림을 받을 수 있어야 하고, 장애가 발생하면 문제 해결을 위한 알림과 함께 정보가 푸시될 수 있어야 한다. 사후 수정 프로세스는 파이프라인을 검증하고 다음 단계로 배포하고 최신 정보 및 데이터 품질로 대시보드를 업데이트하기 위해 자동으로 트리거 될 수 있어야 한다.
데이터 옵스의 핵심에는 다음과 같은 질문에 대답할 수 있는 데이터와 인포메이션의 설계 구조가 있어야 한다.
데이터를 알고 있고 그 데이터를 신뢰하는가?
오류를 빠르게 감지할 수 있는가?
전체 데이터 파이프라인을 ‘중단’하지 않은 상태에서 점진적으로 변경할 수 있는가?
이러한 질문에 답을 얻기 위해서는 먼저 데이터 거버넌스, 통합 도구 및 학습에 대한 모든 인벤토리를 작성하는 것이다. 데이터옵스 프로세스를 설계하기 위해 5가지 핵심 영역으로 나누어 그 흐름을 정의한다.
1. 데이터 큐레이션 서비스
2. 메타데이터 관리
3. 데이터 거버넌스
4. 마스터 데이터 관리
5. 셀프서비스 상호 작용
최종적으로 품질 높고, 즉시 사용할 수 있는 비즈니스용 데이터가 나오기 위해서는 5가지 측면을 모두 통합하여 가치를 만드는 방법이 필요하다. 다른 요소를 희생하면서 다른 요소에 더욱 집중하는 데이터 파이프라인은 품질 높은 데이터를 생산하지 못한다. 기업이나 조직이 아직 이런 경험이 충분히 없어 데이터 관리자의 역할 정의 또는 데이터 유효성 검사 규칙 생성과 같은 기초적인 문제로 어려움을 겪고 있는 경우 데이터옵스는 어렵게 보일 수 있지만, 이런 다섯 가지 관점을 제공하는 데이터옵스는 조직이 디지털 혁신 이니셔티브를 진행하며 경험한 많은 실패에 대한 솔루션을 제공할 수 있다.
조직이 데이터 기반의 플로우를 계획하고 실행했을 때 실패의 가장 전형적인 예는 데이터 레이크 내에 있다. 그 이유는 정제되지 않고 관리되지 않는 데이터를 데이터 레이크로 수집하는 데만 집중했기 때문이다. 그 초기 과정의 실패는 사람, 프로세스 및 기술 문제를 효과적으로 해결하는 데 한계가 있는 비즈니스 데이터를 생성하게 된다.
73%의 기업이 더 효율성 있는 데이터 처리와 팀 협업을 위해서 데이터옵스에 투자할 계획이라고 한다.3) 그 투자와 성장은 클라우드 플랫폼의 기능과 축을 같이 한다.
데이터 수집에서 최종 사용자를 위한 분석 대시보드, 모델링 및 인공지능을 사용한 인사이트에 이르기까지 가치 사슬 전반에 걸쳐 클라우드 플랫폼이 데이터옵스를 지원하고 있다. 자동화된 데이터 수집 및 여러 소스의 로드를 통해 프로덕션 데이터를 쉽게 프로비저닝 할 수 있다. 데이터 변환에 자동화 엔진을 사용하면 파이프라인에서 시간이 오래 걸리고 오류가 발생하기 쉬운 단계가 줄어들고 분석 작업과 성능이 지속적으로 향상되며 배포 및 릴리스가 빨라진다. 다음과 같은 프로세스 관리가 클라우드 플랫폼상 모두 마이크로서비스와 API로 매우 유연성 있게 연결되고 교체가 된다.
조직에 데이터옵스를 도입하고 그 프로세스 도구를 플랫폼으로 선택하는 기업은 다양한 성능 향상을 기대하고 달성할 수 있다. 기업은 반복되는 운영 작업을 자동화함으로써 오류를 줄일 수 있고, 그에 따라 가장 정제된 데이터를 분석에 사용함으로써 순도 있는 분석 인사이트를 경험할 수 있다. 또한 지속적인 데이터 품질 검사와 불일치 및 위험의 조기 감지를 통해 프로세스를 개선하고 조직의 기술 부채를 줄일 수 있다.
그럼에도 많은 조직에서 오랜 시간 자리 잡은 문화와 관성은 변화를 도입하는 데 장애가 된다. 데이터 및 분석 리더는 우선순위가 높지만, 협업 부족으로 인해 어려움을 겪거나 변화 속도에 과중한 부담을 주는 데이터 및 분석 프로젝트를 선택하여 데이터옵스 접근 방식을 사용함으로, 그 프로세스를 도입할 가능성을 높일 수 있다. 변화를 도입하여, 빠른 가치를 보여줄 최고의 기회를 만들기 위해 다음과 같은 순차적 방법을 시도해 보기를 권한다.
1. 주요 비즈니스 이해관계자와 데이터 관련 프로젝트에서 작업하는 다양한 팀 및 역할, 진행 상황, 현재까지의 성공 정도 및 각각의 문제점을 파악한다.
2. 조직이 데이터를 효과적으로 사용하기 위해 계획된 우선순위가 높은 프로젝트를 찾는다. 이런 프로젝트는 데이터옵스 접근 방식을 도입하여 획기적인 가치를 얻을 수 있는 증명의 기회가 될 수 있다.
3. 이해관계자를 참여시켜 프로젝트의 주요 구성 요소에서 보다 민첩하고 협업적인 접근 방식으로 전환하고 데이터옵스 기술과 도구를 사용하여 기존의 병목 현상을 해결하는 방법을 경험한다.
참고문헌
1) Experian, “2019 Global data management research: Taking control in the digital age”, 2019
2) Gartner,”Introducing DataOps Into Your Data Management Discipline”, Oct 31, 2019
3) Nexla, “73% of Companies Plan to Invest in DataOps to Manage Data Teams”, 2018