빅데이터가 주는 세상

5. 데이터와 정보의 실무

by 자유로운 영혼

1. 지식 피라미드의 첫 단계는 유용한 정보가 되는 가장 기본 단위이자 원천인 데이터입니다. 데이터 단계에서는 데이터를 모으는 과정인 데이터 수집이 진행되어야 하고, 데이터 수집은 우리가 알고 싶은 것과 관련된 모든 데이터를 모으는 과정입니다.

데이터 단계의 직무 연계 관계를 쉽게 이해하기 위해 개인의 실제 적용 과정과 기업체나 조직에서의 실제 적용 과정을 각각의 예시로 알아보겠습니다.

우선 데이터 단계를 개인의 생활에 실제 적용해보겠습니다.

요즘 창욱이는 불규칙한 생활습관으로 인한 만성 피로를 줄이기 위해 얼마 전에 직무 과정으로 들었던 지식 피라미드의 데이터 수집 과정을 적용해보기로 했습니다.

만성 피로를 줄이기 위해 건강한 생활습관을 만들어 보기로 하고, 관련 데이터를 데이터 수집 과정에 적용해 모아보기로 했습니다. 창욱이가 건강한 생활습관을 만들기 위해서 데이터 수집 과정을 어떻게 적용하는지 살펴보겠습니다.

창욱이는 어떤 데이터를 수집하여 결정할지를 생각해 보았습니다.

생각 끝에 이와는 음식, 운동, 수면, 기분을 데이터로 모으기로 했습니다.

음식은 하루 동안 먹은 음식과 음료를 아침, 점심, 저녁으로 구분하여 기록하고 운동은 하루 동안 한 운동의 종류와 시간, 강도를 기록하기로 했습니다. 그리고 수면은 하루 동안 잔 수면 시간과 시각을 기록하고, 기분은 하루 동안 느낀 행복, 기쁨, 분노, 피곤 등을 기록하기로 결정했습니다.


다음으로 창욱이는 결정된 것들을 기록할 도구와 방법에 대해 생각해 보았습니다.

노트와 펜을 이용해 종이에 기록할 것인지, 식사와 운동, 수면, 기분을 기록할 수 있는 앱을 사용해 기록할 것인지, 아니면 운동량과 수면 시간을 자동으로 기록해주는 스마트 워치를 사용할 것인지 고민 한 끝에 스마트폰 앱과 스마트 워치를 함께 사용하기로 결정했습니다.

창욱이는 스마트 워치의 기록들을 합하여 스마트폰 앱에서 주별로 확인할 수 있도록 정리해 데이터를 일관되게 유지하고 필요한 경우 누락된 데이터를 보완하기로 결정했습니다.

이렇게 개인의 생활 속에서도 데이터 수집 단계를 쉽게 적용하여 활용할 수 있습니다.


다음으로 데이터 단계를 기업체나 조직의 실무에 실제 적용해보겠습니다.

지식 피라미드의 데이터 단계를 실무 과정에 적용할 때는 데이터의 수집, 저장, 처리, 관리에 중점을 두고, 데이터를 활용하기 위한 기초 작업을 수행합니다.

실무에서 데이터 단계를 적용하는 기본적인 내용들을 먼저 살펴보겠습니다.

실무에서는 센서, 웹사이트 트래픽 로그, 소셜 미디어 활동, 고객 구매 이력 등 다양한 원천에서 원시 데이터를 수집합니다. 이러한 수집은 웹 스크래핑 도구, IOT장비, API 등을 통해 데이터를 자동으로 수집하여 시간을 절약하고 효율성을 높일 수 있습니다. 이렇게 수집된 데이터는 SQL 데이터베이스, 클라우드 기반 스토리지 솔루션에 저장하여 효율적으로 관리하게 됩니다. 구조화되지 않은 데이터를 포함한 대량의 데이터를 저장할 때는 데이터 레이크를 활용하여 다양한 데이터 형식을 그대로 보관합니다. 금융기관의 경우, 트랜잭션 데이터를 대용량 데이터베이스에 저장하여 분석과 추적의 기초 자료로 활용하고 있습니다.

데이터 처리 단계의 실무에서는 누락된 값, 중복 데이터, 이상값 등을 식별하고 정제하는 프로세스를 통해 데이터 품질을 향상시켜야 합니다. 이러한 실무의 대표적인 예시는 마케팅 부서입니다. 마케팅 부서에서는 고객 설문 조사 데이터를 정제하여 중복된 응답이나 불완전한 데이터를 제거한 후 분석에 활용하고 있습니다.

데이터 보안 단계의 실무에서 민감한 데이터를 다룰 때, 암호화 및 접근 제어 등 보안 프로토콜을 적용하여 데이터를 안전하게 보호하고 있습니다. 수집된 데이터의 정확성과 최신성을 주기적으로 검토하여 유지보수하면서 데이터 손실 방지를 위해 정기적인 백업과 복구 시스템을 설정해야 합니다. 각 조직의 IT부서에서 중요 데이터를 일일 또는 주간 단위로 백업하여 시스템 장애 시에도 복구할 수 있도록 대비하고 있는 것이 이에 해당됩니다.

구체적인 예로 데이터 단계를 따라가 보겠습니다.

해인 온라인 쇼핑몰은 고객 행동 데이터를 분석하여 마케팅 전략을 최적화하고, 매출을 증대시키기 위해 데이터 수집 과정을 적용해 보기로 했습니다.


해인 온라인 쇼핑몰은 어떤 데이터를 수집할 것인지 회의를 진행하여 논의한 결과, 큰 분류로 고객의 웹사이트 방문 기록, 고객의 구매 내역, 피드백 데이터, 고객 반응 데이터를 수집하기로 결정했습니다.

그런 후 해인 온라인 쇼핑몰은 결정된 데이터를 수집하는 방법에 대해 회의를 한 후 다음과 같은 네 가지의 방법으로 더 자세한 데이터까지 수집하기로 합니다.


첫 번째 수집 방법은 Google Analytics를 사용하여 페이지뷰, 클릭, 방문 시간 등과 같은 고객의 웹사이트 방문 기록을 자동으로 수집합니다.

두 번째 수집 방법은 전자상거래 플랫폼인 온라인 주문 시스템의 데이터를 통해 구매한 상품, 구매 날짜, 구매 금액, 일일 및 시간대별 판매량 등 고객의 구매 내역을 수집합니다.

세 번째 수집 방법은 고객 리뷰나 설문조사 도구를 통해 고객 만족도 설문을 실시하고, 피드백 데이터를 수집합니다.

네 번째 수집 방법은 소셜 미디어 모니터링 도구를 사용하여 브랜드 언급과 고객 반응 데이터를 수집합니다.


해인 온라인 쇼핑몰이 이렇게 수집한 데이터들은 데이터 입력, 데이터 관리, 데이터 보안, 데이터 품질 보장 관리를 통해 데이터로 저장되어 다음 단계로 넘어가게 됩니다. 개인과 달리 기업체나 조직에서의 데이터는 의사 결정이나 마케팅, 장기적인 전략에 중요한 역할을 하고 있기 때문에 더 철저한 시스템에 의해서 데이터가 수집, 관리, 보안되어져야 하기 때문입니다.


기업체나 조직에서는 수집한 데이터를 어떻게 데이터 품질 보장 관리까지 진행하는지 더 살펴보겠습니다.


해인 온라인 쇼핑몰에서 고객의 구매 데이터를 수집하는 데이터 수집 담당자는 수집된 데이터를 데이터베이스에 정확하게 입력하는 데이터 입력 담당자에게 전달을 합니다. 데이터 입력 담당자는 전달 받은 데이터를 테이블과 같은 구조화 형식으로 정리하여 데이터를 효율적으로 저장하고 관리하는 데이터베이스 관리자 에게 전달합니다. 데이터베이스 관리자는 데이터베이스 성능을 최적화하고 정기적으로 데이터 백업을 수행하여 데이터 손실을 방지하며 데이터를 관리해야 합니다.

데이터를 보호하고 보안을 유지하는 역할의 데이터 보안 전문가는 데이터베이스 관리자가 관리하고 있는 데이터의 접근 권한을 관리하고 민감한 데이터를 암호화하여 저장해야 합니다. 그리고 데이터 유출을 방지하기 위한 보안 조치를 시행해야 합니다. 이렇게 관리, 보안되고 있는 데이터는 데이터 품질 관리자에 의해 정확성과 일관성을 유지되어야 합니다.

데이터 품질 관리자는 수집된 데이터를 검토하여 오류를 수정하고 중복 데이터를 제거하면서 일관되지 않은 데이터를 정제해야 합니다. 또한 데이터 품질 표준을 수립하고 준수 여부를 주기적으로 모니터링 해야 합니다.


각각의 전문적인 역할을 직무로 연계한 데이터 수집 담당자, 데이터 입력 담당자, 데이터베이스 관리자, 데이터 보안 전문가, 데이터 품질 관리자와 같은 직업이 생겨나고 있고 기업체나 조직에서는 역할 구분을 통해 더 원활한 진행과 높은 성과를 이룰 수 있을 것입니다.






2. 지식 피라미드의 두 번째 단계는 데이터를 맥락에 맞게 처리하고 해석하여 의미를 부여하는 정보입니다. 쉽게 말해서 수집한 데이터를 통해 얻은 유용한 내용을 말합니다. 수집된 데이터를 정보로 도출하기 위해서는 데이터를 분석하기 전에 필요한 형식으로 변환하고 처리하는 데이터 변환 및 처리 단계와 데이터를 분석하여 유의미한 패턴이나 인사이트를 도출하는 단계인 데이터 분석 단계를 적용해야 합니다. 그리고 분석 결과를 바탕으로 실질적인 결론을 내리고, 유용한 정보로 변환하는 과정을 거쳐 지식 피라미드의 데이터를 정보로 도출해 낼 수 있습니다. 정보 단계의 직무 연계 관계를 쉽게 이해하기 위해 개인과 기업에서의 실제 적용 과정을 각각의 예시로 알아보겠습니다.


우선 정보 단계를 개인의 생활에 실제 적용해보겠습니다.

불규칙한 생활 습관으로 인한 만성피로에 시달리던 창욱이는 훈련과정에서 배운 것을 적용하여 식사, 운동, 수면시간, 기분에 대한 데이터를 수집해 왔습니다.

창욱이는 일정 기간 동안 수집한 데이터를 분석하여 정보를 얻고자 합니다.

창욱이의 스마트폰 앱에 기록, 저장되어 있는 데이터를 분류별로 변환 및 처리 단계를 적용하면, 식사는 아침, 점심, 저녁으로 나누어 칼로리 섭취 및 소모를 계산하여 통계적으로 평균 칼로리를 분석하는 일일 건강 지표를 만들었습니다. 운동은 하루 단위로 걷는 걸음수와 운동 강도에 따른 심박수를 집계하여 기록하고 칼로리 소모와의 상관관계를 분석해보았습니다. 그리고 수면 시간은 24시를 기준으로 시각과 시간을 집계하여 평균 잠자리 드는 시간과 잠자는 시간을 기록하였고 기분은 식사 칼로리, 운동시간, 수면시간을 각각 항목으로 상관관계를 분석해 보았습니다. 창욱이는 무료로 제공되는 Tableau(태블로)를 사용하여 분석 결과를 도표나 그래프로 시각화하여 개인 맞춤형 건강 보고서를 작성하였습니다.


창욱이가 수집한 데이터로 데이터 분석 단계를 적용해 도출한 정보의 내용을 살펴보겠습니다. 식습관은 평균 칼로리 섭취보다 칼로리 섭취가 과다한 경우가 있고 식단의 대부분이 육류였다는 것입니다.

운동은 칼로리 소모를 분석하여 주간 걸음 수는 평균이 8000보 이상이 되어야 평균 칼로리를 넘지 않는다는 것과 다른 운동을 하지 않는 날에 평균 칼로리가 넘는다는 것입니다. 그리고 수면 패턴 분석을 통해 평균 수면 시간보다 수면 시간이 부족한 경우가 일주일 중 4일 이상이라는 것과 잠자리에 드는 시각이 불규칙하다는 것으로 일정한 수면 패턴이 없다는 것이었습니다. 운동과 수면 시간에 따른 기분과의 상관관계 분석으로는 운동을 2시간하였을 때 기분이 좋음 상태였고 7시간 이상 수면을 취했을 때도 기분이 좋은 상태를 유지했다는 것을 알 수 있었습니다. 이러한 정보는 창욱이가 건강한 생활 습관을 위해 더 발전된 지식을 창출하는데 중요한 단계입니다.


다음으로 정보 단계를 전문적으로 진행해야하는 기업체나 조직에 실제 적용해보겠습니다. 실무에서 이 단계를 적용하는 것은 데이터에서 유용한 인사이트를 도출하고 이를 기반으로 의사결정을 내리는 데 중요하기 때문입니다. 실무에서 정보 단계를 적용하는 기본적인 과정은 다음과 같습니다.

먼저, 데이터 단계를 거친 데이터를 정제하고 가공하여 통계적 분석, 데이터 마이닝, 기계학습 알고리즘 등을 활용해 분석에 적합한 형태로 변환한 후 데이터의 패턴과 트렌드를 파악합니다. 마케팅 부서가 고객 데이터를 분석하여 고객 세그먼트를 식별하고 특정 고객 그룹에 대한 행동 패턴을 이해함으로써 맞춤형 마케팅 전략을 수립하는 것이 이에 해당됩니다.

분석된 데이터는 시각화 도구나 시각화 기법을 활용해 쉽게 해석할 수 있도록 표현합니다. 분석된 데이터를 기반으로 주요 인사이트와 발견된 내용을 보고서에 정리하여 조직 내에서 공유하게 됩니다. 이때 실시간 데이터 모니터링이 필요한 경우 대시보드를 만들어 관련부서와 공유하여 데이터를 즉시 확인할 수 있도록 해야 합니다. 재무부서의 경우, 기업의 재무 데이터 분석을 통해 월별 예산 대비 실적 보고서를 작성하여 경영진에게 제공하고, 이를 기반으로 예산 조정이나 향후 투자 결정을 내리는 실무에 활용하고 있습니다.

정보로 분석되면 경영진이나 실무 담당자가 전략적 결정을 내리는 데 활용되며, 다양한 시나리오를 시뮬레이션하여 의사결정 시 발생할 수 있는 결과 예측이나 대비책을 마련하는 데에도 활용되고 있습니다.

실무에서 알고리즘 기반 자동화를 활용하고 있다면, 정형화된 데이터 분석 및 정보 생성 과정을 자동화하여 빠르고 반복적인 인사이트 제공이 가능하고, 설정된 임계값을 넘는 데이터 패턴이나 이상 징후를 자동으로 탐지하고 관련 부서에 알림을 보낼 수 있습니다.

정보 단계에서 추가적으로 할 수 있는 실무는 데이터를 기반으로 한 정보를 조직 내 다양한 부서가 쉽게 이해할 수 있도록 교육하거나 설명하는 것입니다. 이것은 분석된 정보가 어떻게 도출되었는지 설명함으로써 데이터에 대한 신뢰와 이해도를 높여 데이터 인식 향상에 도움이 될 수 있습니다. 실질적으로 인사 부서가 직원 만족도 조사 결과를 시각화하여 경영진과 팀 리더에게 설명하고, 이를 통해 인력 관리 방안을 개선하는 데 활용할 수 있는 것입니다.

이러한 과정은 데이터가 단순한 숫자나 기록을 넘어 의미 있는 정보로 변환되어 조직의 전략적 결정에 직접적으로 활용될 수 있도록 합니다. 정보 단계의 철저한 적용은 조직의 효율성을 높이고 경쟁력을 강화하는 데 핵심적인 역할을 할 수 있습니다.

구체적으로 정보 단계의 적용을 온라인 쇼핑몰에 적용하여 따라가 보겠습니다.

해인 온라인 쇼핑몰의 매출 증대와 마케팅 최적화를 위해 수집한 데이터를 정보로 변환하는 과정을 진행하려고 합니다.


해인 온라인 쇼핑몰은 데이터베이스에 저장, 관리되고 있는 데이터를 분석하기 전에 파이썬(Python)을 사용해 데이터 정규화, 집계, 필터링하여 필요한 형식으로 변환하였습니다. 변환 처리한 후 판다스(pandas) 라이브러리를 사용해 중복된 데이터 제거, 오류 수정 등으로 데이터를 정리하였습니다. 정리된 데이터를 ETL 프로세스(추출, 변환, 로드)을 사용해 여러 데이터 소스를 통합하여 하나의 데이터 세트를 만들 수 있었습니다. 분석 전에 이러한 과정을 통해 하루 단위로 방문자 수, 페이지뷰, 구매 기록을 집계하였고, 광고 데이터와 연계하여 분석 가능한 형태로 변환하였으며 구매 기록과 고객 피드백 데이터를 통합하였습니다.


해인 온라인 쇼핑몰은 처리된 데이터를 통계적 방법, 데이터 마이닝, 시각화 도구 등을 사용하여 데이터 분석을 시작했습니다.

첫 번째는 평균 구매 금액, 방문 빈도 등의 기초 통계를 계산하여 기술 통계 분석을 하였습니다. 두 번째는 구매 패턴 분석으로 판매데이터를 분석하여 각 제품의 일일판매량을 파악하고, 시간대별 판매 트렌드로 고객의 구매 패턴 분석으로 인기 상품을 파악했습니다. 세 번째는 장바구니 이탈율을 분석하여 주요 이탈 지점을 식별하여 고객 이탈 예측 모델을 구축하였습니다. 네 번째는 고객을 세분화하여 맞춤형 마케팅 전략을 수립하였고 텍스트 분석을 통해 고객 리뷰에서 긍정적 및 부정적 피드백을 추출하였습니다. 그리고 의사 결정화 전략적 계획 수립을 지원하기 위해 이러한 분석들은 태블로(Tableau)를 사용해 차트나 그래프로 데이터 시각화하였습니다.


해인 온라인 쇼핑몰은 분석된 데이터를 통해 다음과 같은 정보를 도출할 수 있었습니다.


첫 번째는 구매 패턴 분석으로 주간 판매 데이터를 분석하였고, 인기 상품 리스트에서 가장 많이 팔린 상위 10개와 특정 카테고리의 상품이 매출을 주도하고 있음을 발견하였습니다. 그리고 시간대별 매출 분포 그래프로 매출이 집중되는 시간대 파악할 수 있었고, 광고 효과 분석을 통해 광고 클릭률과 전환율을 얻을 수 있었습니다. 이러한 정보로 이와 온라인 쇼핑몰은 해당 카테고리의 상품 재고를 확보하고, 추가 프로모션을 기획을 할 수 있는 계획도 마련할 수 있었습니다.

두 번째는 장바구니 이탈율이 높은 페이지를 분석하여 결제 과정에서 복잡한 단계가 문제임을 확인하고 이 정보를 통해 결제 과정을 간소화하는 방안을 도입하였습니다.

세 번째는 고객 세분화 분석으로 구매 빈도와 금액을 기준으로 고객을 세분화하여, VIP고객에게는 추가 혜택을 제공하는 맞춤형 마케팅 전략을 실행하였습니다.

네 번째는 고객 피드백 분석으로 고객 리뷰에서 제품의 특정 기능에 대한 불만이 많다는 정보를 얻어, 해당 기능을 개선하기 위한 제품 개선 계획을 수립할 수 있었습니다.


이와 같은 방법으로 데이터를 정보로 변환하면, 온라인 쇼핑몰의 매출 증대와 마케팅 최적화를 위한 구체적이고 실행 가능한 전략을 수립할 수 있습니다.


이렇게 지식 피라미드의 정보 단계에서도 데이터 분석가, 비즈니스 분석가, 마케팅 분석가, 재무 분석가의 분석 결과 보고서가 기업체나 조직 내 의사결정자에게 중요해졌고, 각 역할에 있어 전문가 확보의 필요성이 대두되고 있습니다.

이전 04화빅데이터가 주는 세상