brunch

라이킷 12 댓글

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 개몽가 Apr 16. 2024

데이터 관리 패러다임

데이터패브릭 : 데이터 관리에 AI와 머신러닝 접목

데이터 관리 패러다임 변화

데이터는 조직에서 의사결정과 전략적 이니셔티브를 주도한다. 데이터의 양과 복잡성 증가에 따라 데이터 관리 전략은 수년에 걸쳐 다양한 패러다임을 통해 변화해 왔다.

구조화된 데이터를 수집하고 분석하는 데이터 웨어하우스에서부터 시작되어, 비구조화된 데이터를 저장하기 위해 등장한 데이터 레이크, 레이크와 웨어하우스의 장점을 결합한 데이터 레이크하우스, 그리고 AI와 머신러닝이 접목된 데이터 패브릭까지. 데이터 관리 영역은 상당한 발전을 해오고 있다. 이러한 패러다임들이 등장한 배경과 장단점, 그리고 오늘날의 데이터 환경에서 어떤 방식을 취하고 대비해야 하는지 알아보고자 한다.

데이터 웨어하우스,

조직 전체적으로 통합되지 않고 각 부서별로 고립되어 활용되는 데이터 사일로(Silo) 현상을 해결하기 위해 1980년대 등장했다.

각 부서별로 발생한 판매, 재고, 고객 서비스 등 정형화된 데이터를 수집해 중앙 집중식 저장소에 구조화된 형태로 통합 저장한다. 저장된 데이터의 품질과 일관성을 높이기 위해 정제하고 변환하는 과정을 수행한다. 이를 기반으로 분석 리포팅과 비즈니스 인텔리전스(BI)를 제공해 조직의 의사결정과 전략적 통찰력을 지원한다.

또한, 구조화된 데이터이기 때문에 빠른 쿼리와 연산이 가능하다.

하지만, 이미 특정 분석 목적을 위해 이미 전처리되었기 때문에 다른 분석 목적으로 사용하기 위해선 재처리과정을 해야 하거나 활용할 수 없는 경우가 발생한다.(유연성과 확장성 제한)

데이터 형태
- 구조화된 데이터(정형) : 데이터베이스 테이블
- 반구조화된 데이터(반정형) : XML, JSON파일 등
- 비구조화된 데이터(비정형) : 텍스트, 이미지, 비디오 등

데이터 레이크,

2000년대 초 사물인터넷(IoT) 등장과 함께 구조화되지 않은 반정형, 비정형 데이터가 폭발적으로 발생하는 빅데이터 시대가 도래했다. 동시다발적으로 발생하는 반정형, 비정형 데이터를 분석 목적에 맞게 매번 변환, 가공하기엔 절대적인 시간 부족했다.

그래서 원시 형태의 반구조화, 비구조화된 데이터를 그대로 저장해 사용자의 다양한 필요 목적에 따라 쿼리 하고, 변환하며, 분석할 수 있도록 유연한 환경을 제공하고자 데이터 레이크가 등장했다.

데이터레이크는 거대한 스토리지 용량을 제공하며, 빅데이터 처리 기술(ex. Hadoop, Spark)과 통합되어 대량 데이터 세트의 저장과 처리를 지원한다. 데이터 분석과 머신러닝 작업에 필요한 컴퓨팅 리소스를 쉽게 확장하거나 축소하기 위해 대부분의 기업은 클라우드 기반의 데이터 레이크를 구축해 왔다. 이런 인프라 기술은 복잡한 데이터 분석과 머신러닝 모델 학습에 필요한 대규모 데이터 셋을 처리, 실시간 데이터 스트리밍 분석을 할 수 있는 기반을 마련할 수 있다.

또한, 다양한 사용자의 접근성을 확장한다.

데이터 원시 형태로 저장하기 때문에 데이터 사이언티스트, 분석가, 개발자 등 사용자가 원하는 목적에 맞게 데이터를 변환해 활용할 수 있게 된다. 이런 환경으로 데이터 웨어하우스 없던 샌드박스 개념이 생겼다. 데이터 사이언티스트나 분석가들이 데이터에 직접 접근해 머신러닝 모델을 개발하거나 고급 분석을 수행할 수 있는 환경이 샌드박스이다.

데이터 레이크가 추구하는 방향과 달리, 기업에서는 데이터 레이크 도입을 실패한 경우가 많다.

데이터 사이언티스트, 분석가, 개발자가 데이터 레이크 안에서 데이터를 잘 활용하려면 메타데이터 관리와 데이터 카탈로그를 잘 구축해서 데이터 거버넌스와 품질관리를 해야 하는데, 이런 부분을 간과한 채 무조건 원시형태의 데이터 수집만을 목적으로 두었기 때문이다. 이런 경우 데이터 사일로 문제는 여전히 해결되지 않고, 데이터 스왐프(data swamp)로 변질될 위험이 있다.

데이터 레이크하우스,

데이터 레이크하우스는 데이터 웨어하우스의 빠른 쿼리가 가능한 구조화된 데이터 처리와 데이터 레이크의 비구조화된 데이터 처리 및 고급 분석 장점을 결합한 접근법이다. 데이터 레이크 위에 데이터 웨어하우스를 구축해 구조화된 정형 데이터와 비구조화된 비정형 데이터를 모두 효율적으로 처리하는데 목적을 두고 있다.

각기 장점을 결합하기 때문에 기술 복잡성은 기존보다 높을 수밖에 없다.

아직까지는 시장에서 레이크하우스 아키텍처를 완벽하게 지원하는 도구나 솔루션은 부족한 상황이다. 또한, 고급분석을 위해 비구조화된 원시형태의 데이터를 다루기 때문에 데이터 레이크와 마찬가지로 데이터 거버넌스와 품질관리 없이는 데이터 스왐프로 변질될 위험은 여전히 존재한다. 마찬가지로 메타데이터 관리, 데이터 카탈로그 등을 구축하는 게 필수이다.

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스 한계,

데이터 복잡성과 데이터양 증가에 따라 기술력은 데이터 웨어하우스 → 데이터 레이크 → 데이터 레이크하우스로 발전했다. 이들 모두, 본인들의 저장소에 데이터를 저장하는 데는 특화되었다. 데이터를 활용하기 위해서는 본인들 저장소에 데이터를 저장시켜야 한다.

하지만 오늘날의 기업에서는 Risk, 보안, 성능 등 여러 요인 때문에 멀티 클라우드와 온프레미스 데이터 환경을 혼합한 하이브리드 인프라 접근 방식을 사용한다. 이런 환경에서 데이터를 통합 분석하려면 데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스 저장소 한 곳으로 이동하고 복제시켜야 한다. 물리적 이동은 비용 발생과 시간 소요를 초래한다.

이러한 문제를 해소하기 위해 물리적 데이터 이동 없이도 서로 다른 환경에서 데이터를 통합 분석할 수 있는 개념이 등장했고, 그게 바로 데이터 패브릭이다.

전통적인 데이터 패브릭은 원천 데이터 소스를 직접 연결하기 때문에 사람의 판단과 룰베이스로 데이터를 관리하기엔 대량의 데이터 복잡성이란 한계가 있다.

AI와 머신러닝 기술 성숙도는 이런 한계를 보완할 수 있는 기반을 마련했다. 사람의 판단에 의존하던 메타데이터 관리 및 룰베이스 기반 수집 영역이, AI와 자동화 기술로 가능한 환경이 된 것이다. 데이터 관리 영역에 AI와 머신러닝 기술을 접목한 게 오늘날의 데이터 패브릭 개념이다. 즉, 데이터 패브릭은 AI와 머신러닝 기술을 데이터 관리에 통합해 데이터 접근성, 통합, 분석 및 거버넌스를 자동화하고 최적하는 게 핵심 요소이다.

데이터 패브릭 - 데이터 관리 영역에 AI와 머신러닝 기술 접목,

오늘날의 데이터 패브릭은 데이터 실시간 접근, 통합, 분석을 하기 위해 AI와 머신러닝을 활용한다. 데이터 관리를 자동화하고, 데이터 거버넌스와 품질을 향상시키고, 다양한 데이터 소스 간의 원활한 흐름을 보장해 사용자가 어떤 데이터 소스에서든 필요한 데이터를 쉽게 접근하고 활용할 수 있게 하는 게 궁극적인 목표이다.

데이터 패브릭에서 AI와 머신러닝은 5가지 영역을 지원한다.

1. 데이터 통합 및 가상화

온프레미스와 클라우드에 존재하는 다양한 소스의 데이터를 통합하는 전통적인 ETL(Extract, Transform, Load) 프로세스에 AI와 머신러닝 기술을 활용해 자동화할 수 있다. 그리고 필요에 따라 데이터를 가상화하여 실시간으로 접근할 수 있게 한다. 데이터 가상화는 기존 ETL 방식에서의 물리적인 이동이 아니라, 다양한 소스의 데이터를 가상의 저장소에서 논리적인 모델을 통해 뷰 형태로 제공하는 기술이다. 실제로 데이터는 소스에 저장되어 있지만 사용자는 하나의 통합된 데이터 소스에 접근하는 것처럼 느끼게 된다. 물리적인 이동이 발생하지 않기 때문에 사용자는 실시간으로 데이터 소스에 접근할 수 있게 되는 것이다.

2. 메타데이터 관리 및 자동화 영역

데이터가 데이터 패브릭으로 들어오면 시스템은 자동으로 데이터 소스, 생성날짜, 데이터 유형 등의 기본 메타데이터를 태깅하게 된다. 데이터 내의 패턴과 구조를 인식하여 메타데이터를 자동으로 생성하게 되는 것이다. 이렇게 생성된 메타데이터를 중앙 집중화된 카탈로그에 저장하여 관리한다. 데이터를 필요로 하고자 하는 사용자는 메타데이터 카탈로그에 접근해 키워드 검색, 분류 필터링, 관련성 순으로 데이터를 손쉽게 탐색할 수 있게 한다.

2. 데이터 품질 및 정제

중복제거, 오류수정, 결측치 처리 등 정제 작업을 자동으로 수행해 데이터의 일관성과 정확성을 높이고, 데이터 값들을 일관된 형식으로 변환하거나 표준화하는 과정을 자동화한다. AI와 머신러닝 모델은 데이터 품질 관련 패턴을 학습하고 시간이 지남에 따라 데이터 품질을 지속적으로 모니터링 및 개선하여 정확성과 신뢰성을 높이는 게 기여할 수 있게 된다.

4. 보안 및 규제 준수

AI를 사용하여 비정상적인 접근 패턴을 감지하고, 데이터 접근 규칙을 자동으로 적용해 데이터 보안을 강화한다.

5. 인사이트 및 분석 지원

데이터 패브릭 내에서 머신러닝 모델을 구축하고 운영하여, 데이터로부터 깊이 있는 인사이트를 도출하고 예측 분석을 수행할 수 있다.

위와 같은 부분을 지원하지만 알아둬야 할 2가지가 있다.

첫 번째로, 나는 데이터 패브릭의 데이터 가상화 개념을 처음 접할 때 가상화가 통합을 대체할 수 있는 게 아닌가라는 오해를 한 적이 있다. 다른 이들도 가상화가 통합을 대체한다고 생각할 수 있을 거 같다. 하지만 데이터 통합과 가상화는 상호 배타적인 것이 아님을 분명히 알아야 한다. 각기 다른 상황과 요구에 맞춰 데이터 통합과 가상화를 적절하게 이용해야 한다.

예를 들어서 데이터 통합이 적합한 상황은,

대규모 데이터를 일관된 정기적으로 분석할 필요가 있는 경우에 적합하다. 그리고 다양한 데이터 소스로부터 추출된 정보를 통합해 복잡한 비즈니스 보고서를 생성하거나 대시보드를 구축할 필요가 있는 경우 적합하다.

반면 데이터 가상화가 적합한 상황은,

1) 데이터 실시간으로 접근해야 하는 경우이다. 물리적인 이동 없이 필요한 정보를 즉시 제공받고자 할 때이다.

2) 데이터가 저장된 인프라가 다양할 경우에도 적합하다. 클라우드나 온프레미스 환경에 분산되어 있고 통합하기 어려운 경우 데이터 가상화를 통해 하나의 데이터 소스처럼 다룰 수 있다.

3) 새로운 시스템 구축 시, 기존 시스템과 전환 기간 동안 데이터 가상화를 활용할 수 있다.

이와 같이 데이터 통합과 데이터 가상화는 상호 보완적인 결합 접근방식을 취해야 한다. 그래야 데이터 관리의 효율성과 유연성을 높여줄 수 있다.

두 번째로, AI와 머신러닝 모델이 여전히 가지고 있는 망상(hallucination) 문제, 블랙박스 문제는 데이터 패브릭에도 존재한다는 것이다. 데이터 패브릭 내 완벽한 AI 기반 자동화된 데이터 관리는 아직까지 어려운 부분이 있다. 또한, 다양한 데이터 소스와 플랫폼, 기술 스택을 통합하고 관리해야 하기 때문에 고급 기술 역량 요구와 데이터 컴플라이언스 및 거버넌스에 관련된 복잡성이 증가하기 때문에 이에 따른 준비도 필요한 상황이다.

각 패러다임이 여전히 중요한 이유,

AI와 머신러닝을 접목한 데이터 패브릭은 강력한 데이터 관리방식이지만, 모든 상황과 요구에 완벽하게 대응할 수 있는 만능열쇠는 아니다. 기업의 요구사항과 기존 시스템 상황에 따라 데이터 웨어하우스와 데이터 레이크는 여전히 가치를 지닌다.

데이터 웨어하우스는 구조화된 데이터를 빠른 쿼리와 연산 작업이 필요한 BI 및 리포팅으로 보고 및 분석하는 조직에게는 필수적이다. 데이터 레이크는 방대한 양의 원시 데이터, 비구조화된 데이터를 다루고 분석하는 데이터 사이언티스 조직에서 필수적이다. 각기 장점을 결합한 데이터 레이크하우스만 봐도 데이터 레이크가 데이터 웨어하우스를 대체하지 않는다. 이와 동일한 맥락으로 데이터 패브릭도 앞선 관리 패러다임을 대체하기보다는 각각의 장점을 활용하는 공존하는 통합된 프레임워크를 제공하여 상호 보완해야 한다.

각 패러다임은 데이터 관리 영역의 한계와 요구사항을 해결하기 위해 등장하고 공존할 수 있다는 것을 볼 수 있다. 조직에서는 각 패러다임의 강점을 활용하는 전략적 접근을 수립해야 점점 더 복잡해지는 데이터 환경에서의 통창력과 혁신을 주도할 수 있다고 생각한다.

시작은 각 패러다임이 해당 분야의 발전에 어떻게 기여했는지 이해하는 것부터이지 않을까 한다.

keyword