과학하는 마케터를 위한 데이터 Talk
데이터를 비즈니스에 활용하려고 하면, 데이터의 수집, 처리 가공, 활용 분석 등의 과정을 거치게 된다. 각 과정은 일반적으로 서로 밀접하게 연결되어 있지만, 특정 과정에 보다 전문화된 역할을 수행하는 기술에 집중한 플랫폼들이 존재한다.
Data Preparation 플랫폼
우선 각종 디지털 이벤트가 발생하는 단말기로부터 데이터가 측정되어 수집되기 시작하고, 수집된 데이터를 처리 가공하여 활용하기에 적합한 형태로 만드는 과정이 필요하다. 이 과정을 데이터 엔지니어링에서는 ‘데이터 준비 : Data Preparation’ 과정이라고 한다. 보통 데이터 처리를 하는 개발자가 활용하는 플랫폼들 중에는 이러한 데이터 준비 처리 과정을 보다 용이하게 도와주는 플랫폼들을 사용하는데, 이들을 Data Preparation Platform이라고 한다. (참고로 해당 영역에서 주로 영어 그대로 활용되는 용어를 무리하게 한국어로 번역하여 표현할 경우, 오히려 정확한 정보 전달이 되지 않을 수 있기에, 필요에 따라서 영어 단어 그대로를 사용하도록 하겠다)
데이터 분석 및 시각화와 데이터 카탈로그
이와 같이 여러 데이터를 필요에 따라 활용하기에 적합한 형태, 예를 들면 엑셀에서 많이 보던 형태의 테이블과 같은 유형으로 가공하고 나면, 사용자들이 분석 목적에 따라 다양한 분석을 수행하게 된다. 분석은 여러 분석 툴을 이용해 마우스 클릭만으로 수행되기도 하고, 혹은 직접 필요한 데이터를 추출하는데 사용되는 Query를 사용하거나, R과 같이 통계나 머신러닝 분석을 위한 프로그래밍 언어를 사용하기도 한다. 이렇게 사용자 수준에 따라 다양한 분석 방법을 제공하는 데이터 분석 플랫폼이 존재한다.
그리고 이러한 데이터 분석 플랫폼이나 툴이 존재하더라도, 기업 내 필요한 모든 사람들이 데이터를 활용할 수 있으려면, 가공 처리된 데이터의 구조와 의미를 잘 이해하고 있어야 한다. 즉 데이터 테이블이나 각 속성에 대한 설명이 필요할 때 정확하게 알 수 있어야 하는데, 이와 같이 저장된 데이터의 체계화된 설명 정보를 검색이나 계층 구조 형식 등으로 잘 제공하기 위해 '데이터 카탈로그'를 제공한다.
이렇게 분석과정을 거친 결과를 일반 사용자가 직관적으로 이해할 수 있도록, 각종 차트나 도표, 테이블 등 목적에 맞는 형식으로 전환해 리포트 형식으로 보여줄 필요가 있다. 이러한 과정을 시각화 (Visualization)이라고 하는데, 앞서 데이터의 유연한 분석과 시각화를 도와주는 플랫폼이나 도구들을 분석 도구, 혹은 시각화 도구라고 한다. 많은 기업에서 활용하는 Tableau나 Power BI, 구글의 Looker Studio 등이 이에 해당한다.
데이터 거버넌스 플랫폼
기업에서는 이와 같이 데이터의 수집, 처리, 분석과 시각화와 같은 전 과정에 대해서, 데이터 사용권한이 있는 적합한 사용자에 의해 올바른 데이터가 활용되도록 지속 관리할 필요가 있다. 이러한 통제와 관리가 잘 지켜지지 않을 경우, 기업은 개인정보 관리 리스크나, 잘못된 데이터 활용으로 인한 잘못된 결정과 판단 등 비즈니스 운영에 위험을 가할 리스크가 존재할 수 있다. 이와 같이 데이터의 수집부터 활용에 이르기까지 전 과정을 잘 통제하고 관리하기 위핸 플랫폼을 데이터 거버넌스 플랫폼 (Data Governance Platform)이라고 한다. 주로 작은 규모의 기업에서는 신경쓰지 않는 영역이지만, 대형 기업이 디지털 전환을 통해 지속 가능한 디지털 환경을 준비할 때는 데이터 거버넌스야 말로 필수적으로 확보해야 할 필수 비기능 요소이다.
이 외에도 여러 데이터 플랫폼 용어들이 존재하지만, 주로 사용되는 대표적인 플랫폼에 대해 간단히 소개했다. 보통은 한가지 목적의 SW가 존재하기 보다는, 이들 역할들 중 여러 가지를 모두 포함하는 데이터 솔루션 형태로 제공되는 제품들이 대부분이다. 그렇더라도 특정 역할에 더 집중되어 있거나 강점이 있는 솔루션들이 있기에, 대형 기업의 경우 용도별로 복수의 솔루션을 채용하여 활용하기도 한다.