데이터가 우리에게 오기까지
물은 우리에게 어떻게 왔을까요?
비, 지하수, 물줄기
↓
호수(상수원)
↓
창고
↓
마트
↓
우리(사용자)
물 쓰듯이
데이터 쓰듯이
비, 지하수, 물줄기 → 호수(상수원) → 창고→ 마트→ 우리(사용자)
마트 = 우리가 바로 마실 물을 얻을 수 있는 곳
데이터 마트 = 사용자가 원하는 데이터를 얻을 수 있는 곳
1. 필요한 양의 데이터만 저장하기 때문에 데이터 조회, 접근이 쉽다.
2. 회사 전체 데이터 웨어하우스를 구축하는 것보다 시간과 비용이 절약된다.
3. 데이터 웨어하우스의 부분 또는 하위 개념이며, 작은 단위 데이터를 유연하게 저장 관리할 수 있다.
창고하면 뭐가 떠오르세요?
1. 데이터웨어 하우스는 회사의 주요 의사결정을 위해 전체적으로 데이터와 정보를 저장하는 공간이며, 데이터 마트는 전사 단위 데이터웨어 하우스에서 일부 부분을 나타내는 하위 개념입니다.
2. 데이터 웨어하우스에서 전체 데이터이고, 데이터 마트는 여기서 데이터를 선택해서 추출(Extract), 변환(Tranform) 및 로드(Load) 한 것입니다.
3. 데이터 웨어하우스는 전체적인 관점으로 한 군데서 통합 관리하는 시스템입니다. 따라서 체계적인 구조와 규칙을 가집니다. 반면 데이터 마트는 개별 부서의 관점에서 데이터를 나눠서 저장하는 장소입니다.
4. 데이터 웨어하우스는 매우 크고, 통합되어 있기 때문에 실패 위험이 높으며, 한 번에 구축이 어려울 수 있습니다. 반면에 데이터 마트는 구축이 쉽고 위험이 적지만, 데이터의 중복이나 규칙이 상이한 표준화 문제가 있어요
"If you think of a data mart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake and various lake users can come to examine, dive in, or take samples."
"데이터 마트를 병에 든 물의 저장고로 생각한다면 - 데이터 레이크는 보다 자연스러운 상태의 큰 물입니다. 데이터 레이크의 내용은 소스에서 흘러들어옵니다. 호수를 채우기 위해 다양한 호수 사용자들이 와서 조사하거나 잠수하거나 샘플을 채취할 수 있습니다."
1. 데이터 레이크는 자연/원시 형식으로 저장된 데이터의 시스템 또는 저장소이다.
2. 데이터 레이크는 정형(행과 열로 구성된), 반정형(규칙이 있는), 비정형(이미지, 오디오) 데이터를 모두 포함한다.
3. 데이터 레이크는 데이터가 부서 밖으로 공유되지 못하는 데이터 사일로 현상을 해결해줄 수 있다.
4. 데이터 레이크에는 가버번스가 있어야 한다.
흐리지 않는 물은 썩는 것처럼,
흐르지 못하는 데이터도 썩을 수밖에 없습니다.
데이터 레이크를 보유한 조직은 수익 성장에서 유사한 회사보다 9% 더 나은 성과를 보인다.
<미국 국제 마케팅 정보회사 Aberdeen>