29 데이터, 물 흐르듯이

데이터가 우리에게 오기까지

by 정경문

Jun 10. 2022

# 01. 물은 우리에게 어떻게 왔을까?

사람은 보통 하루 2L의 물이 필요하다고 합니다. 그리고 우리 몸의 약 70%는 물로 구성되어 있습니다. 이렇듯 물은 우리에게 없어서는 안 되는 생명의 근원이다. 다 동의하시죠? 그럼,

물은 우리에게 어떻게 왔을까요?

우리는 물을 마트에서 사다 먹기도 하고, 수도관에 직접 연결된 정수기에서 마시기도 해요. 그리고 물병과 같이 특정 형태에 담겨서 마트 선반 위에 진열되어 있죠.

200ml, 500ml, 1.5L, 10L처럼 그 양도 다양해요. 또 삼다수, 아이이스, 백산수, 평창수 등 만든 제조사도 다르고, 저마다 이름도 달라요. 제조사마다 창고에 많은 양의 생수를 만들어서 저장해 놓았겠죠.

이름에서 볼 수 있듯이 제주 삼다수는 제주에서, 평창수는 평창에서 왔겠네요. 그리고 물의 원산지(水原)인 상수원에 물이 고여 드는 방식 또한 여러 가지가 있어요. 하늘에서 비가 내리기도 하고, 지하수가 땅에서 스며들기도 하죠. 또 여러 산의 계곡에서 물줄기들이 모여들어 호수를 만드는 것이죠.

그리고 이렇게 모여든 물을 정수 처리 시설을 거치면서 깨끗하게 불순물들을 걸러주죠. 이제 물 제조사들이 일정한 형태, 규격, 포장지, 박스에 담아 창고에 넣습니다. 창고에서 마트로 배달되고 그때야 비로소 우리는 물을 살 수 있습니다.

물이 우리에게 오기까지 순서를 정리해보면 아래와 같겠네요.

비, 지하수, 물줄기
↓
호수(상수원)
↓
창고
↓
마트
↓
우리(사용자)

# 02. 데이터, 물 쓰듯이

물건을 헤프게 쓰거나 돈 따위를 흥청망청 할 때, 우리는 "물 쓰듯이"라는 표현을 씁니다. 물 쓰듯이라는 표현에 해당하는 영어는 "Splash out(스플래쉬 아웃)"으로 역시 물과 관련된 표현이라는 것은 참 신기한 것 같습니다.

이렇게 한번 생각해볼게요. 휘발유 가격이 다들 비싸다고 하세요. 얼마죠? 1L = 2,000원이라고 하겠습니다. 근데 사실 편의점에서 생수 500ml 한 병에 1,000원이죠. 두 병이면 1L이니까 물 값이 그 비싼 휘발유 값과 같습니다. 놀라셨죠? 오늘날 물이 귀한 상황에서 물 쓰듯이 라는 표현은 어떻게 보면 시대에 맞지 않는 말이 되었지도 모르겠네요

물 쓰듯이

.

물은 흐른다. 쓴다. 생존에 필수적이다. 뭐 이 정도 특징이 있겠네요.

흐르고(Flow), 활용하고(Use), 생존에 필수적(Essential) 한 것이 또 있습니다.

바로 "데이터"입니다.

데이터 쓰듯이

(제가 첫 시간에 언급한) 데이터 생존의 시대에 저와 여러분들이 살고 있습니다. 앞서 살펴본 것과 같이 우리에게 친근한 물처럼 데이터를 저장하고 다루는 방법에 대해 알아보도록 할게요. 준비되셨죠?

# 03. 물은 마트에서, 데이터도 마트에서

물이 우리에게 오기까지 순서 기억하시죠?

비, 지하수, 물줄기 → 호수(상수원) → 창고→ 마트→ 우리(사용자)

우리는 물을 어떻게 구했나요? 가장 중요한 사실은 우리가 물을 마트에서 구해왔다는 사실입니다.

바로 마트는 최종 사용자에게 물을 전달하는 것을 목적으로 하고 있습니다.

데이터에도 마트가 있어요. 바로 데이터 마트(Data Mart)라고 합니다. 데이터 마트는 사용자가 데이터를 사용하기 위한 목적으로 만든 데이터 저장 형태를 말합니다. 즉, 데이터를 꺼내서 최종 사용자에게 제공해주는 역할을 합니다. 데이터 마트의 목적은 특정 업무나 부서를 위해 만든 것으로, 우리가 물을 사는 마트처럼 접근하기 쉽습니다.

마트에서는 용도에 맞게 다양한 물을 판매하고 있어요. 물이 많이 필요할 때는 1.5L를 사용합니다. 특히 장기적으로 필요할 때는 6개 묶음 번들을 구매하죠. 또 간편하게 마실 때는 250ml 한 병을 사서 마셔요. 그리고 다양한 브랜드의 물들이 있었고요. 물의 양도 사이즈에 따라 달랐습니다.

마트 = 우리가 바로 마실 물을 얻을 수 있는 곳
데이터 마트 = 사용자가 원하는 데이터를 얻을 수 있는 곳

이처럼 데이터 마트 역시 데이터를 원하는 만큼, 용도에 맞게 저장하고, 검색하고, 활용할 수 있어요.

다른 말로 하면, 소규모 단위의 데이터를 유연하게 저장관리할 수 있다는 특징이 있습니다. 그리고 여러 브랜드의 물이 있는 것처럼, 회사 내의 여러 조직들이 저마다 원하는 형태로 데이터 마트를 구성하고, 원하는 양만큼 데이터를 저장하고, 그 데이터를 활용합니다.

일반적으로 물들이 마트 선반에 놓이기 전, 이들은 대형 창고에서 운송되었습니다. 창고는 마트보다 더 큰 개념이죠? 창고는 영어로는 웨어하우스(Wharehouse)라고 합니다. 그러니까 물이 창고에서 필요한 만큼만 뽑아서 마트에 배송되는 것이죠.

이처럼 데이터 마트는 데이터 창고(앞으로는 웨어하우스라고 할게요) 원하는 만큼 꺼내서 사용자한테 제공해주는 역할을 합니다. 크기나 앞뒤를 따져본다면, 데이터 마트는 데이터 웨어하우스의 일부분이며, 더 작은 크기와 개념이라고 이해하시면 좋겠습니다.

데이터 마트 특징을 다음과 같이 세 가지로 정리해볼게요

1. 필요한 양의 데이터만 저장하기 때문에 데이터 조회, 접근이 쉽다.
2. 회사 전체 데이터 웨어하우스를 구축하는 것보다 시간과 비용이 절약된다.
3. 데이터 웨어하우스의 부분 또는 하위 개념이며, 작은 단위 데이터를 유연하게 저장 관리할 수 있다.

이렇게 데이터 마트를 구축하면 여러 가지 효율적인 부분이 있어 보이지만, 모든 부서에서 저마다 형식과 규칙으로 데이터를 만든다면 어떻게 될까요? 아마 중복되기도 하고, 또 비어 있는 부분, 규칙이 다른 부분이 분명히 발생하겠죠?

그럼 시간이 갈수록, 조직이 커질수록 더욱 관리하기 어렵고 비효율적이겠네요. 이렇게 무분별하게 데이터 마트가 증가하는 것을 정리하는 것이 바로 전사의 데이터 웨어하우스를 구축하는 일입니다.

자, 그럼 이제 창고(웨어하우스)에 대해 알아볼까요?

# 04. 창고는 정해진 형태에 맞게 물(데이터)을 저장하는 곳

창고하면 뭐가 떠오르세요?

커다란 건물, 잘 짜인 선반, 그리고 그 위 크기가 정해진 박스들, 그 안에 들어있는 같은 크기의 물병들

정형 데이터를 아시나요? (우리는 지난 철쭉과 진달래를 구분하는 사진 데이터에서 정형/비정형 데이터를 배웠어요) 정형 데이터란 "정"해진 "형"태가 있는 데이터라고 말씀드렸어요.

이처럼 창고 역시 건물, 선반, 박스, 물병과 같이 잘 짜인 틀, 형태에 대해서만 저장을 하고 있습니다. 다시 말해, 데이터 웨어하우스는 정형 데이터를 저장하는데 특화되어 있습니다.

그리고, 아까 창고는 모든 종류 브랜드(부서)의 물(데이터)들을 취급하고 있다고 말씀드렸어요.

이처럼, 데이터 웨어하우스는 회사 전체 시스템에서 축적된 데이터를 전사 공통의 형식으로 변환해서 관리하는 저장소를 말합니다. 회사에서 기획, 영업, 구매, 설계, 제작, 품질, 인사 등 다양한 부서의 데이터를 저장하고 다루는 저장소입니다.

데이터 웨어하우스는 데이터(data)와 창고(warehouse)가 결합된 단어네요.

웨어하우스(warehouse)는 단순히 물건만 보관하는 창고이지만, 실제 데이터 웨어하우스 개념은 데이터뿐만이 아니라 분석 방법까지도 포함합니다. 즉 단순히 창고 개념이 아니라, 조직 내 의사결정을 지원하는 데이터 관리 시스템이라고 보시면 됩니다.

이쯤에서 데이터 마트와 데이터 웨어하우스의 차이점을 정리해볼게요

1. 데이터웨어 하우스는 회사의 주요 의사결정을 위해 전체적으로 데이터와 정보를 저장하는 공간이며, 데이터 마트는 전사 단위 데이터웨어 하우스에서 일부 부분을 나타내는 하위 개념입니다.

2. 데이터 웨어하우스에서 전체 데이터이고, 데이터 마트는 여기서 데이터를 선택해서 추출(Extract), 변환(Tranform) 및 로드(Load) 한 것입니다.

3. 데이터 웨어하우스는 전체적인 관점으로 한 군데서 통합 관리하는 시스템입니다. 따라서 체계적인 구조와 규칙을 가집니다. 반면 데이터 마트는 개별 부서의 관점에서 데이터를 나눠서 저장하는 장소입니다.

4. 데이터 웨어하우스는 매우 크고, 통합되어 있기 때문에 실패 위험이 높으며, 한 번에 구축이 어려울 수 있습니다. 반면에 데이터 마트는 구축이 쉽고 위험이 적지만, 데이터의 중복이나 규칙이 상이한 표준화 문제가 있어요

데이터 웨어하우스는 왜 필요할까요?

회사는 그 분야별로 다르지만, 일반적으로 실시간으로 데이터가 수집되고 분석이 필요합니다. 예를 들어 대형문고에서는 어떤 분야의 어떤 책이 많이 팔렸는지 실시간으로 집계합니다.

그리고 베스트 셀러를 문고 홈페이지와 매대에 올려놓죠. 그리고 은행에서는 대출, 예금, 적금, 증권 등을 식별관리하고, 예측모델을 사용하여 사기를 예측하기도, 성향에 따른 투자를 추천하기도 합니다. 이처럼 데이터 웨어하우스는 이러한 모든 활동을 가능하게 합니다.

그럼 데이터 웨어하우스의 데이터는 어디서 올까요? 물의 흐름을 기억해 볼게요.

# 05. 내 데이터는 호수요. 그대 노 저어 오오.

앞에서 창고의 물은 이름에서 볼 수 있듯이 제주 삼다수는 제주에서, 평창수는 평창에서 왔다고 말씀드렸어요. 그 원산지인 상수원은 호수라고 보면 돼요. 호수는 하늘에서 내린 비, 땅에서 스며든 지하수, 또 여러 물줄기들에 의해 만들어졌어요. 아직 물의 목적이 정해지지 않은 경우 호수에 담겨 있습니다.

이처럼 데이터 레이크(호수)는 물이 비, 지하수, 계곡 물줄기에서 온 것처럼, 다양한 소스로부터 데이터를 얻게 됩니다.

이때 이 데이터들은 정해진 형태가 있는 정형 데이터가 아니라, 외부에서 얻어진 빗방울과 같이 자연 상태 그대로의 비정형 데이터(사진, 음성, 텍스트)가 전부 포함되어 있습니다.

그리고 데이터의 목적이 아직 정의되지 않은 경우에 데이터 레이크에 수집하고 있을 수 있습니다.

정리하면, 데이터 레이크는 정형 데이터나 반정형 데이터, 비정형 데이터 모두를 저장, 처리, 보호하기 위한 데이터 저장소입니다.

데이터 레이크는 원시상태 그대로의 데이터를 저장하고, 크기와 종류 제한 없이 다양한 데이터를 처리할 수 있습니다.

데이터 레이크에서는 공급라인을 통해 아까 바라본 데이터 웨어하우스와 데이터 마트에 보내줍니다. 경우에 따라서는 데이터 웨어하우스 없이 바로 데이터 마트만을 구축해서 사용하기도 합니다.

또한 상수원 호수에 있는 물을 처리장에서 약품, 미생물 등에 의해 깨끗이 하는 것처럼 데이터 레이크의 데이터는 있는 그대로의 원시상태 데이터 이기 때문에, 사전처리를 통해 깨끗이 정형 데이터로 정리해준 후 데이터 웨어하우스와 데이터 마트로 보내줍니다.

다음은 데이터 레이크라는 단어를 처음 언급한 펜타호라는 미국 회사의 CTO 제임스 딕슨의 말입니다.

"If you think of a data mart as a store of bottled water – cleansed and packaged and structured for easy consumption – the data lake is a large body of water in a more natural state. The contents of the data lake stream in from a source to fill the lake and various lake users can come to examine, dive in, or take samples."

"데이터 마트를 병에 든 물의 저장고로 생각한다면 - 데이터 레이크는 보다 자연스러운 상태의 큰 물입니다. 데이터 레이크의 내용은 소스에서 흘러들어옵니다. 호수를 채우기 위해 다양한 호수 사용자들이 와서 조사하거나 잠수하거나 샘플을 채취할 수 있습니다."

데이터 레이크에 데이터를 저장할 때는 규칙이 있어야 합니다. 권한( ‘누가 그 데이터를 사용할 수 있나?’), 목적(‘데이터를 사용하는 목적이 무엇인가?’)를 명시해야 합니다. 이렇게 데이터의 공유와 보안에 대한 기준과 정책을 마련하는 것은 거버넌스(Governance)라고 합니다.

또한 데이터 레이크에서는 데이터를 ‘분석’할 수도, 예측을 위한 '모델'을 생성할 수 있습니다. 전통적인 데이터 웨어하우스의 대시보드, 시각화뿐만 아니라, 인공지능 모델을 활용하여 복잡합 의사결정을 단순화하는 데이터 저장과 처리의 기반이 됩니다.

데이터 레이크의 특징을 정리하면 다음과 같습니다.

1. 데이터 레이크는 자연/원시 형식으로 저장된 데이터의 시스템 또는 저장소이다.
2. 데이터 레이크는 정형(행과 열로 구성된), 반정형(규칙이 있는), 비정형(이미지, 오디오) 데이터를 모두 포함한다.
3. 데이터 레이크는 데이터가 부서 밖으로 공유되지 못하는 데이터 사일로 현상을 해결해줄 수 있다.
4. 데이터 레이크에는 가버번스가 있어야 한다.

# 06. 데이터에 대한 이해로 부서 간 장벽을 허물어요

오늘은 데이터와 물의 흐름을 비교하며 말씀드렸습니다.

흐리지 않는 물은 썩는 것처럼,
흐르지 못하는 데이터도 썩을 수밖에 없습니다.

부서 또는 업무 단위로 시스템을 사용하고 데이터를 저장, 활용하다 보면 각 부서, 업무단위별로 데이터를 공유할 수 없는 장벽이 생기고, 데이터 구조와 형태가 표준화되지 않는 현상이 있는데 이것을 데이터 사일로(Silo) 현상, 사일로화 된다라고 이야기합니다.

이러한 데이터 사일로 현상은 데이터로 전체를 바라보는 관점이 아니라, 개별 부서의 단편적인 부분만을 데이터로 설명할 수밖에 없습니다. 그렇기 때문에 전체를 바라보고 융합할 수 있는 데이터 레이크나 데이터 웨어하우스의 구축과 운영이 필요합니다.

데이터 흐름과 관리는 종종 보이지 않지만 복잡한 프로세스와 구조로 보고 설명됩니다.

오늘 우리는 우리에게 물이 오기까지 과정과 데이터 공급자에서 소비자까지의 프로세스를 비교해 보았어요.

데이터 플랫폼은 형식이나 구조에 관계없이 모든 데이터를 수집할 수 있어야 합니다.

그리고 그 데이터는 결국 새로운 통찰력을 얻어 낼 수 있어야 합니다. 물론 우리는 회사의 모든 데이터에서 통찰력을 얻어내고 싶어 합니다. 하지만 데이터 마트, 데이터 웨어하우스, 데이터 레이크 개념이 없이는 서로 자기 데이터에 대해서만 말할 뿐입니다.

우리가 얻고 싶어 하는 통찰력이란 예리한 관찰력으로 사물을 꿰뚫어 보는 힘입니다. 통찰력의 통은 통할 통(洞), 서로 통하도록 하는 것입니다. 통하게 만드는 데는 바로 표준화를 위해 잘 짜인 데이터 구조와 정의가 필요합니다. 데이터를 이해하면 기업의 운영, 의사결정의 효율성이 높아집니다.

또한 데이터가 적절하게 구성되어 있어야, 빅데이터, 인공지능 모델을 개발하기 쉽습니다. 목표는 데이터를 명확한 성능으로 완전하고 안전한 방식으로 전달하는 것입니다. 데이터는 전략적 수준과 운영 수준 모두에서 관련이 있을 수 있습니다.

데이터 마트, 웨어하우스, 레이크 구축을 포기하게 만드는 가장 빠른 방법은 부정확하고, 불완전한 데이터를 제공하는 것입니다. 데이터를 신뢰할 수 없다면 사람들은 언제든 엑셀로 되돌아갈 것입니다. 이는 데이터 매우 중요한 이유입니다.

데이터 레이크를 보유한 조직은 수익 성장에서 유사한 회사보다 9% 더 나은 성과를 보인다.

<미국 국제 마케팅 정보회사 Aberdeen>

keyword

Brunch Book

처세술 대신 데이터 분석을 택했다

처세술 대신 데이터 분석을 택했다

brunch book

전체 목차 보기 (총 30화)

이전 25화24 데이터를 구조해죠건강한 데이터 말하기 3요소다음 27화