이 글은 제가 NIA [한국지능정보사회진흥원]의 < 디지털서비스 이슈리포트 > 2023년 7월호에 기고한 글입니다. 원본 글 '데이터 클라우드의 최신 이용 동향'을 이곳 브런치에서도 공유합니다.
세상은 빠르게 변화하고 있으며, 그 변화를 지원하는 가장 강력한 원동력은 바로 데이터이다. 데이터는 기술의 연구, 정책, 혁신, 제품, 서비스 등을 재구성하고 있다. 인공지능은 모든 산업에서 핵심 워크플로와 프로세스를 재고하도록 유도하여 소프트웨어와 기업 전반에 걸쳐 근본적인 변화를 촉진하고 있다. 공급망 시스템상의 물류부터 소매점 진열대의 적절한 재고 확보, 의약품 및 백신의 신속한 개발까지 모든 것을 개선할 수 있는 용도로 데이터가 사용되고 있다.
수천 개의 기업과 조직이 이러한 인사이트를 얻을 수 있는 기반이 바로 데이터 클라우드이기 때문에, 이런 수많은 종류의 데이터가 조직 내에서 어떻게 생성이 되고 최적화되어 재사용되고 있는지 살펴보는 것은 매우 중요하다. 이것은 또한 비즈니스 또는 기술 리더가 데이터 운영에 대해 어떻게 생각하는지, 무엇을 하려고 하거나 어떤 효과가 있다고 생각하는지에 대해 아는 범위를 넘어, 거버넌스 문제부터 사용 중인 프로그래밍 언어에 이르기까지 조직이 데이터를 활용하는 방법의 경향을 알 수 있다.
데이터 연결의 중요성은 모든 조직의 IT핵심 과제로 자주 언급된다. 최근의 인포테크 리서치 그룹의 조사[1] 에 의하면 "실시간 데이터의 민주화"를 전략적으로 매우 중요한 주제로 정의한다.
실시간 데이터의 민주화는 “데이터의 확산과 인기를 측정”하는 데이터 바이럴리티(Data Virality)라는 새로운 개념의 이해를 필요로 하고 이것이 발생하려면 디지털 마켓플레이스와 같은 생태계가 필요하다고 말한다. 조직은 데이터 바이럴리티를 이해하여 적절한 데이터 영역에 투자할 수 있도록 데이터 전략을 재평가하는 일을 수행한다. 재평가의 맨 처음 단계에선 조직 내 다크 데이터[2] 가 얼마나 존재하는지에 대한 조사를 실시한다. 다크데이터는 조직이 일상적인 비즈니스 프로세스에서 수집하지만 사용하지 않거나 사용할 계획이 없지만 현재 버리지 않는 모든 정보를 말한다.
이것은 매킨지[3] 의 ’ 2025년 데이터 기반 기업의 7가지 특성’ 중 "데이터가 실시간으로 처리 및 전달"과 "유연한 데이터 저장소를 통해 즉시 사용 가능한 통합 데이터"로 정의한 부분과 일치한다. 이 모든 것은 데이터 사일로 또는 데이터 집합을 수집하고 정리하는 데 리소스 소비가 크지 않는 환경을 말할뿐더러, 이러한 데이터를 사용하여 새로운 기술 모델이 쉽게 도입되야 한다는 당위성을 주는 다음의 3가지 특성을 더욱 명확하게 한다.
데이터를 하나의 클라우드에 국한하여 사용하는 기업은 점점 줄어들고 있으며, 많은 기업이 비즈니스 연속성, 복원력, 협업을 위해 크로스 클라우드 전략을 사용하고 있다. 데이터 클라우드 솔루션 대표 기업인 스노우플레이크의 경우 한 해 동안 주요 퍼블릭 클라우드 제공업체 3곳(AWS, Azure, GCP)에서 자사 고객 수가 전체적으로 207% 증가했다고 발표[4]했다. 이는 여러 클라우드에 걸쳐 데이터를 공유해야 하는 애플리케이션에 대한 필요성이 더욱 커지고 있음을 의미한다.
위험을 완화하기 위해 비즈니스 연속성 전략을 강조하는 조직이 더 많아지고 있다. 클라우드 간 복제는 비즈니스 중단 없이 한 클라우드에서 다른 클라우드로 원활하게 페일오버할 수 있도록 한다.
사일로에 갇혀 있는 데이터는 그 잠재력을 제대로 발휘하지 못한다. 이러한 협업을 위해 데이터를 공유하는 데이터 마켓 플레이스의 중요성이 자연스럽게 강조된다.
데이터 클라우드를 사용하면 데이터의 사용과 동시에 공유할 수 있으므로 데이터를 추출, 변환, 로드한 후 작업할 필요가 없어져 효율성이 크게 향상된다. 데이터클라우드의 협업의 척도는 에지(edge)가 얼마나 안정적인가에 달려있다. '에지'는 데이터 제공자와 데이터 소비자 간의 데이터 공유를 말한다. 예를 들어 '안정적인 에지'란 3주 동안 연속적으로 두 차례에 걸쳐 각 기간에 최소 20건의 데이터 트랜잭션을 생성할 때를 말한다. 요컨대, 조직은 프로세스와 업무 경험 인사이트를 개선하기 위해 자사 데이터와 소셜 데이터와 같은 다른 조직의 데이터를 연결하는 작업을 지속적으로 확장 추진하고 있다.
가트너 역시 2025년까지 전체 기업 IT 부서의 55%가 데이터 에코시스템을 도입하여 공급업체를 통합하고 환경을 통합하여 비용을 절감할 것이라는 같은 수준의 전망[5] 을 내놓고 있다.
데이터 사일로의 또 다른 원인은 데이터가 다양한 형식으로 생성되어 서로 다른 전문 시스템에 저장되어 서로 다른 업무팀에서 사용된다는 점이다. 다양한 형식과 유형(정형, 비정형, 반정형)을 통합하는 것은 조직의 지속적인 과제이고, 기업들은 이러한 과제를 해결하기 위해 수년간 노력해 왔다. 하지만 모든 데이터를 한 곳에 저장하는 것은 원하는 업무마다 개별 데이터 집합을 꺼내서 준비해야 하는 경우라면 중앙화의 의미가 떨어진다. 생성형 AI 시대에 필수적인 다음 단계는 모든 데이터를 함께 사용하여 의미 있는 작업을 수행할 수 있는 것이다.
사용자가 동일한 플랫폼과 동일한 엔진으로 모든 데이터를 분석할 수 있는 데이터 클라우드를 사용하면 조직이 모든 데이터에 작업을 적용하는 기능을 어떻게 수용하는지 알 수 있다. 이러한 작업에는 데이터 처리를 위한 파이프라인 구축, 머신 러닝 모델 학습, 분석 쿼리 생성, 대시보드 작성, 전체 애플리케이션 구동까지 포함된다. 데이터 클라우드 선도기업인 스노우플레이크(snowflake.com)와 데이터브릭스(databricks.com)가 이런 기능을 지원하고 있으며, 각 사의 제품 구성도를 보면 거의 일치하는 구조를 갖고 있다.
흥미로운 새로운 트렌드 중 하나는 점점 더 많은 SaaS 기업이 본인들이 생성하는 데이터를 자체 관리형 데이터 저장소에 넣어 사일로를 만들지 않고, 고객의 데이터 플랫폼에 연결하도록 애플리케이션을 설계하고 있다는 점이다 이것은 매우 긍정적인 변화이다. 한 해 동안, 데이터 클라우드에 연결된 애플리케이션의 수는 스노우플레이크의 발표에 따르면 작년에 비해 285% 증가[6] 했다.
기업은 모든 데이터를 한 곳에 모아두면 더 많은 일을 할 수 있다는 것을 알게 되었고 기존의 IT 인력들에게 익숙한 SQL, Python, Java와 같은 언어를 사용하여 데이터 클라우드 내에서 작업하고, 풍부한 데이터 리포지토리에 연결하여 업무 개선과 인사이트를 만들어 내고 있다. 즉 모든 데이터를 더 쉽게 작업할 수 있도록 지원하면 데이터에서 새로운 가치를 창출할 수 있는데, 이때의 필수 요건은 동시성(concurrency)을 갖춰야 한다는 점이다. 즉 데이터의 사후 이동이란 과정을 없애는 것이 데이터의 활용도를 높인다는 사실이다.
데이터 거버넌스는 조직이 데이터를 이해하고 보호하며 데이터를 활용하는 방법 이외에 데이터와 상호 작용하기 위한 역할, 프로세스 및 정책을 정의한다. 효과적인 거버넌스는 신뢰할 수 있는 데이터에서 비즈니스 인사이트를 개발하고 규정을 준수하는 데 도움을 준다.
그러나 규정 준수(compliance) 부분은 큰 도전 과제이다. 지난 몇 년 동안 데이터 보호에 관한 규정과 표준이 급격히 증가했다는 사실이 더욱 부담이 된다. 유럽연합의 일반 개인정보 보호 규정(GDPR)과 캘리포니아 소비자 개인정보 보호법(CCPA)이 가장 큰 주목거리 지만, 그 외에도 글로벌 서비스를 생각하는 조직으로는 챙겨야 할 많은 규정이 있다. 캐나다의 개인 정보 보호 및 전자문서법(PIPEDA)[7] 이 있고 멕시코, 브라질, 싱가포르등 한국의 개인정보 보호법과 동등한 위치의 규제법들이 존재한다. 효과적인 거버넌스는 규제 상자를 체크하는 것 이상의 의미를 갖는다. 데이터 클라우드에서 강력한 데이터 거버넌스를 구축하는 일은 데이터로부터 최대한의 가치를 창출할 수 있는 촉진제 역할을 한다.
최근의 기업은 자체 데이터에서 인사이트를 추출하기 위해 생성형 AI와 대규모 언어모델을 사용하므로 일관된 단일 거버넌스 모델이 필수적이다. 안정성과 보안을 모두 확보하려면 조직의 모든 데이터를 효율적이고 적절하게 관리해야 한다는 뜻이다.
올바른 데이터 거버넌스의 핵심 측면은 필요한 역할을 맡은 사람만 특정 데이터 집합에 접근할 수 있도록 하는 것이다. 역할에 따라 동일한 데이터 집합에 접근해야 하지만 가시성 수준이 서로 다를 수 있다는 점이 복잡성을 더한다. 조직은 분류, 태그 지정, 마스킹, 세분화된 역할 기반 액세스 제어를 포함한 자동화된 동적 제어 및 정책을 통해 이를 조직 전체 규모로 적용해야 한다.
인포테크 보고서는 '적응형 데이터 거버넌스'를 핵심 트렌드로 선정했고, 매킨지 보고서[8] 는 기업이 경제적 불확실성 속에서 성공할 수 있는 전사적인 데이터 거버넌스 프로그램을 수립할 것을 권고하고 있다.
대부분의 데이터클라우드 솔루션은 모든 데이터에 일관되게 적용할 수 있는 광범위한 기본 거버넌스 정책과 제어 기능을 제공한다. 예를 들어, 사용자는 동적 마스킹 정책을 사용하여 민감한 데이터를 해당 데이터에 접근할 수 없는 역할에서 세분화된 수준까지 숨길 수 있는 제어 기능이 있다. 스노우플레이크 데이터 클라우드의 경우 2022년 1년간 적용된 동적 마스킹 정책의 수는205% 이상 증가했다고 한다. 또한 데이터에 컨텍스트를 추가하여 데이터를 더 잘 사용하고 보호하며 자동화 및 분석과정을 트리거하는 데 도움이 되는 개체 태그가 급격히 증가했다고 한다. 이런 증가율은 고객 기반 표준 성장률의 6배에 달하는 수치로, 조직에서 현재 거버넌스 정책을 매우 활발하게 적용하고 있음을 설명한다.
점점 더 많은 고객이 자동화 기능을 활용하여 효율성을 높이고 운영 비용을 최소화하고 있다. 대규모 인공지능 모델을 실행하려면 예측할 수 없는 양의 리소스에 대한 규모, 전문성, 계획이 필요하다. 사람의 일하는 속도를 더 빠르게 한다고 해결되는 문제가 아니다. 모든 조직은 자동화에 대한 접근 방식을 한 단계 더 발전시켜야 한다. 기본적인 예로 컴퓨팅 리소스의 크기를 조정하여 리소스의 크기를 적절히 조정하고 쿼리 성능을 개선하는 것을 들 수 있다. 최근에 가트너의 발표 자료를 통개 공개된 글로벌 통신 기업 에릭슨 (ericsson.com)의 디지털 트랜스포메이션 결과는 매우 인상적이다. 인공지능/머신러닝, 로우코드, 블록체인과 같은 여러 최신 기술을 적용하였지만 가장 많은 시도는 자동화에 있었고 그것에 따른 업무 효율성도 가장 좋았다는 결과를 보여준다.
자동화를 더 많이 사용하게 되면서 CIO, CDO, 데이터 플랫폼 관리자에게는 재무 거버넌스를 수립하는 방법이라는 새로운 과제가 생겼다. 데이터 플랫폼 소유자는 부서별 또는 목적별로 리소스 사용을 추적하고 소비를 모니터링하여 비용을 가치에 맞게 조정하기를 원한다. 데이터 클라우드는 풍부한 리소스를 제공하여 팀이 더 빠르게 가치를 제공할 수 있도록 지원한다. 이것은 IT 팀이 느리게 움직이는 고정 용량 리소스의 세계에 갇히지 않고 조직의 변화하는 요구 사항을 충족하기 위해 컴퓨팅을 스핀업/다운할 수 있다. 이런 새로운 환경에서 데이터 플랫폼 소유자의 임무는 비용 최적화 및 재무 거버넌스를 중심으로 내부 관행을 확립하여 경영진이 비용을 가치로 연결할 수 있도록 지원하는 것이다. 자동화는 인공지능을 지원할 뿐만 아니라 인공지능에 의해 구동될 것이다. 자동화 트렌드에 관한 최신 기사[9] 에서는 클라우드 리소스 최적화, 에지 컴퓨팅, DevSecOps를 향후 수년간 인공지능 기반 자동화의 혜택을 받을 분야로 전망했다는 점에서 자동화로 생성되는 데이터와 리소스관리에 특별한 관심이 필요하다.
위에서 살펴본 네 가지 데이터 클라우드의 데이터 이용 트렌드는 비즈니스 요구 사항과 경쟁 환경에 대응하는 전략을 수립할 수 있는 중요한 주제를 제공한다. 이 주제가 긍정적인 결과를 만들 수 있도록 하는 사전 필수 권장사항을 정리해 본다.
많은 조직이 데이터를 한 곳에 모아 사일로를 없애기 위해 많은 시간 노력해 왔지만 실제 데이터로 수행하는 프로세스나 도구는 협업을 저해하고 효율성을 떨어뜨리는 새로운 사일로를 만들기도 한다. 여러 팀, 파트너 업체와 협업하는 경우, 모두가 같은 공간에서 같은 시스템을 사용하는 것처럼 원활하고 안전하게 데이터를 보호하고 공유할 수 있도록 하며 실시간 데이터에 즉시 액세스하여 작업을 수행할 수 있도록 하는 높은 수준의 가이드라인이 필요하다.
기술 담당자는 본인이 선호하는 파이썬, SQL과 같은 개발 언어가 있으며 그것을 사용하는 도구에 매력을 느낀다. 그 기술 담당자들이 선호하는 도구와 언어로 작업할 수 있도록 환경을 현대화하는 것이 중요하다. 이러한 유연성을 제공하는 동시에 공유 거버넌스를 제공해야 한다. 그렇지 않으면 호환되지 않고 유연하지 않은 업무 프로세스를 통해 사일로 되는 데이터가 생성 될 수밖에 없다.
거버넌스의 목적은 관련 정책과 규정을 준수하기 위해 데이터를 안전하게 유지하고 액세스를 관리하는 것이다. 이를 위한 가장 쉬운 방법은 모든 데이터를 잠그고 액세스를 최소화하는 것인데 이것은 동시에 데이터의 가치를 최소화할 수도 있다. 거버넌스 정책이 상충된다고 해서 동일한 데이터 집합의 복사본을 만들면 안 된다. 필요한 모든 사람이 동일한 표준 데이터 집합에 접근할 수 있도록 하되, 역할 기반 동적 마스킹을 통해 각 사용자에게 필요한 데이터만 표시되도록 관리하는 일이 필요하다. 자동화를 통해 클라우드 전반의 데이터 거버넌스를 간소화하여 데이터를 수집하고 사용을 계획할 때부터 거버넌스가 동작하도록 설계한다.
조직의 데이터 양과 전반적인 복잡성 측면에서 규모가 확장됨에 따라 수동으로 데이터 환경을 최적화하는 것은 불가능하다. 리소스 관리 방식의 효율성을 자동화하면 비용이 많이 드는 인적 오류를 방지할 수 있을 뿐만 아니라 리소스 관리, 업그레이드 설치 및 기타 유지 관리에 시간을 낭비하지 않고 빌드에 집중할 수 있다. 자동화를 통한 효율성은 리소스 낭비를 방지하고 생산성향상을 통해 더 많은 가치를 창출한다.
참고자료, 레퍼런스
[1] Info Tech Research Group, “Data and Analytics Trends 2023”, 2023
[2] Forbes, “What You Need To Know About Dark Data”, Oct 27, 2019
[3] Mckinsey, “The data-driven enterprise of 2025”, Jan 28, 2022
[4] Venturebeat, “Snowflake CIO identifies AI focus in 2023 data trends report”, Jun 5, 2023
[5] Gartner, “The Future of Data Science and Machine Learning”, May 8, 2023
[6] Snowflake, “DATA TRENDS 2023”
[7] Office of the Privacy Commissioner of Canada, “The Personal Information Protection and Electronic Documents Act”
[8] McKinsey, “How data can help tech companies thrive amid economic uncertainty”, Mar 10, 2023
[9] Enterprisersproject, “5 automation predictions for 2023 from IT leaders”, Dec 22, 2022