빅데이터가 주는 세상

3. 현대 사회의 연료인 데이터

by 자유로운 영혼

1. 데이터는 1940년대 이후 자연과학과 함께 다양한 사회과학이 발전하면서, 과거 관념적이고 추상적인 개념에서 기술적이며 사실적인 의미로 변화되었습니다.

데이터는 ‘주어진 것’ 이란 의미를 갖는 라틴어에서 유래되었는데요, 일부러 만든 것이라기 보다는 누군가가 준 것이라는 의미를 나타냅니다. 다시 말하면 특별한 목적을 가지고 일부러 만든 결과물이 아니라, 정보나 지식을 얻기 위해 수집한 기존 자료들을 말하는 것입니다. 데이터는 관찰이나 측정을 통해 수집된 사실이나 값들의 집합으로, 의미 없이 나열된 상태로 존재하는 것입니다. 이는 숫자, 문자, 기호 등의 형태로 나타나며 맥락 없이 존재하는 원시적인 정보를 말하는 것입니다.

예를 들어 김치를 만들 때 재료가 되는 배추, 무, 파, 고춧가루 등을 단순히 모아 놓았다고 해서 김치가 되는 것이 아닙니다. 김치를 만들 때의 재료처럼 데이터란 그 자체로 의미가 없는 단순한 자료로 적절히 수집, 저장, 처리, 분석되어야 유용한 정보를 제공할 수 있습니다.

데이터는 일상생활에서 의도하든 의도하지 않았든 자연스럽게 생성되고 끊임없이 만들어지고 있습니다. 그럼 주변의 모든 자료를 데이터라고 할 수 있을까요?

마트에 진열된 소고기나 아이스크림을 소고기 데이터, 아이스크림 데이터라고 말하지는 않습니다. 하지만 마트에 있는 아이스크림의 종류와 수량을 조사한 자료 파일이 컴퓨터에 저장되어 있다면 이것은 데이터라고 말할 수 있습니다.


이런 데이터를 잘 관리하기 위해서는 데이터를 분석하거나 이해하는데 도움이 되는 속성이나 특징들을 알아야 합니다. 데이터의 주요 특징들에 대해 알아보겠습니다.


첫 번째는 데이터의 양을 의미하는 크기(Size) 로 데이터 파일의 크기를 말합니다. 데이터의 특징을 나타내는 파일 크기는 데이터의 양과 복잡성에 따라 달라집니다. 파일 크기는 데이터를 저장하는 데 필요한 디지털 공간을 의미하며, 컴퓨터가 조작하는 정보의 최소 처리 단위는 바이트(Byte)입니다. 기본적으로 바이트(B), 킬로바이트(KB), 메가바이트(MB), 기가바이트(GB) 등의 단위로 측정됩니다. 전통적 데이터의 처리 규모는 기가바이트(GB)이하였으나 빅데이터를 처리하는 규모는 테라바이트(TB)이상인 페타바이트(PB), 엑사바이트(EB), 제타바이트(ZB), 요타바이트(YB)입니다. 페이스북에는 매일 수백만 개의 게시물이 올라오는데 이 엄청난 양이 데이터의 크기를 나타낸다고 할 수 있습니다.


두 번째는 데이터가 가지고 있는 변수나 특징의 수를 말하는 차원(Dimension)입니다. 차원은 데이터의 복잡성과 구조를 결정하는 중요한 요소로, 분석에서 자주 다루어집니다. 예를 들어 학생들의 키, 몸무게, 나이, 성별, 학년 등이 데이터의 차원을 의미합니다. 데이터의 차원이 많은 고차원 데이터는 더 많은 정보를 담을 수는 있지만, 분석이 복잡해질 수 있습니다. 이것은 ‘차원의 저주’라 하여 데이터 간 거리가 기하급수적으로 커지는 문제로 인해 모델의 성능이 저하될 수 있습니다. 따라서 데이터의 차원을 이해하고 관리하는 것은 효과적인 데이터 분석에 중요한 요소 중의 하나입니다.


세 번째는 데이터가 저장된 형태를 말하는 형식(Format)으로 데이터를 저장하거나 표현하는 방식입니다. 형식은 데이터의 구조와 읽기 또는 쓰기 방법에 영향을 미치는 것으로 데이터의 처리와 분석 효율성을 결정하는 중요한 요소입니다.

가장 기본적인 형태로는 데이터를 단순한 텍스트 형식으로 저장하는 텍스트 파일 (.txt)이 있습니다. 그리고 마이크로소프트 엑셀 프로그램을 사용하여 데이터를 표 형식으로 저장하는 엑셀 파일(.xls나 .xlsx)과 데이터를 태그로 구조화하여 저장하는 형식인 웹 서비스가 있습니다. 또한 데이터베이스에서 많이 사용되는 XML 파일(.xml)도 데이터의 형식 중 하나입니다. 이진 형식으로 저장되어 컴퓨터가 직접 처리하기 용이한 형태의 데이터인 이미지(.jpg, .png), 오디오(.mp3), 비디오(.mp4)파일도 있습니다. 이러한 데이터들을 대규모로 관리하고 처리하기 위해 구조화된 방식으로 저장하는 형식으로는 데이터베이스에 저장되는 데이터베이스 파일이 있습니다.

각 데이터 형식은 저장 공간, 처리 속도, 데이터 분석 도구와의 호환성에 따라 선택되며, 분석 목적에 맞는 적절한 형식으로 데이터를 관리하는 것이 중요합니다.


네 번째는 데이터의 정확성(Accuracy)으로 데이터가 실제 값이나 사실과 얼마나

일치하는지를 의미하는 중요한 개념입니다. 이 개념은 정확하고 일관성 있게 최신 정보를 반영하여 관리되고 유지되어야 합니다. 데이터의 정확성을 유지하기 위해서는 잘못된 값이나 입력, 오타, 계산 실수 등의 오류가 데이터에 없어야 하고 측정 장비나 방법에 의해 수집된 데이터가 실제 측정 대상의 특성을 정확하게 반영해야 합니다. 정확하지 않은 데이터는 개인이나 기업체에 잘못된 결론을 도출하게 만들 수 있으며, 분석 결과의 신뢰성을 떨어뜨리므로, 데이터를 처리하고 사용할 때 정확성을 보장하는 것이 중요합니다.


다섯 번째는 데이터의 완전성(Completeness)으로 데이터가 정확하고 일관되며 신뢰할 수 있도록 유지되는 것을 의미합니다. 이것은 데이터를 저장하고 전송하는 과정에서 오류나 변경이 발생하지 않도록 보호하는 것이 핵심입니다. 데이터의 완전성에는 정확성, 일관성, 신뢰성, 보안의 요건이 여러 가지 방법과 기술로 관리, 보호되고 있습니다. 예를 들어, 회원의 전화번호가 정확히 입력되고, 모든 데이터 시스템에 동일한 전화번호여야 합니다. 입력된 전화번호는 일관된 상태로 남아있어야 하고, 암호화되어 접근제한이 있어야 하는 것이 데이터의 완전성을 적용한 것이라고 볼 수 있습니다.

데이터의 완전성은 데이터 세트에 필수적인 값들이 빠져있지 않아야 하며, 필요한 모든 변수와 항목이 포함되어야 합니다. 그리고 데이터가 분석하려는 주제나 문제를 충분히 설명할 수 있도록 모든 관련 데이터가 존재해야 하며, 각 데이터 포인트가 동일한 수준의 정보를 포함하고 있어야 합니다.


여섯 번째는 데이터가 얼마나 최신 상태인지를 의미하는 적시성(Timeliness)으로 최신 데이터일수록 현재 상황을 반영하는 분석이 가능합니다. 즉 데이터가 최신 상태로 필요한 순간에 실시간으로 접근할 수 있음을 뜻하는 것입니다. 예를 들어, 이틀 전에 재고가 떨어졌는데 아직 재고 관리 시스템에 반영되지 않았다든지, 기상 정보를 제공할 경우 날씨 변화를 빠르게 업데이트하지 않아 비 예보를 사람들이 놓쳤다든지, 주식 가격 정보가 실시간으로 제공되지 않아 투자 결정을 못한 경우들이 데이터의 적시성이 떨어진 것을 의미합니다.

데이터가 자주 변화하는 경우, 데이터의 적시성 유지를 위해서는 주기적으로 업데이트되어 적시에 사용할 수 있어야합니다. 일부의 경우 즉시 분석 및 의사 결정에 활용할 수 있도록 실시간 데이터를 제공하는 것도 중요합니다.

적시성이 떨어지면 오래된 데이터로 인해 잘못된 결론을 도출하거나, 시의적절한 대응을 할 수 없게 되므로, 데이터는 상황에 맞게 적절한 시점에 제공되는 것이 중요합니다.


일곱 번째는 동일한 데이터가 여러 번 기록되었는지 여부를 의미하는 데이터의 중복성(Duplication)으로 중복된 데이터는 여러 가지 문제와 분석 결과의 왜곡을 일으킬 수 있습니다. 데이터의 중복은 저장 공간을 낭비하여 시스템의 성능 저하로 이어질 수 있고 어디에 얼마나 중복되어 있는지 파악해야하는 관리의 어려움 문제도 발생할 수 있습니다. 특히 재고 관리 시스템에서 같은 상품의 정보가 여러 번 기록되어 있다, 재고 수량이 정확하지 않아 주문 처리에 혼란을 초래할 수 있습니다.

중복성을 최소화하면 데이터 관리가 용이해지고 성능이 향상되며, 데이터 일관성과 정확성을 유지할 수 있습니다. 이를 위해서는 데이터 통합, 정규화 등의 기법을 통해 중복성을 줄이는 것이 중요합니다.

마지막으로 여덟 번째는 데이터의 변동성(Volatility)으로 데이터가 얼마나 자주 변경되는지를 의미하는 것이며, 변동성이 큰 데이터는 실시간 분석이 필요할 수 있습니다. 우리 주변에서 변동성이 높은 데이터를 쉽게 찾아볼 수 있는데요, 주식 가격이나 날씨 데이터, 제품 재고 데이터 등이 실시간으로 변하는 대표적인 예입니다. 반대로 인구 통계 데이터는 비교적 천천히 변하는 변동성이 낮은 데이터에 해당됩니다. 변동성이 높은 데이터는 적시에 업데이트하고 관리하는 것이 중요하며, 변동성을 잘 이해하고 다루는 것이 분석과 의사결정의 정확성을 높이는 데 큰 역할을 할 수 있습니다.


이러한 속성들은 데이터를 효과적으로 사용하고 분석하는 데 필수적입니다.

데이터를 수집하고 관리할 때 이 속성들을 고려한다면, 데이터의 품질을 높일 수 있고, 직무에서 더 나은 의사결정을 할 수 있을 것입니다.





2. 이전부터 사람들은 쇼핑을 하고, 거리에는 CCTV가 있었으며, 버스 카드도 사용해왔는데 왜 최근에야 빅데이터가 중요해졌을까요?

오늘날 빅데이터가 중요해진 이유는 여러 매체와 편리한 디지털 기기의 발달로 과거에 비해 데이터의 양이 폭발적으로 증가했기 때문입니다. 예를 들어 칩이 내장된 운동화를 신으면 걷고 뛰고 움직일 때마다 그 데이터가 클라우드 서버에 실시간으로 저장이 된다든지, 마트에 있는 카트에 칩을 설치하면 고객이 물건을 골라 카트에 담을 때마다 물건의 가격이나 유통기한 같은 데이터가 실시간으로 만들어져 축적되는 것처럼 기술이 발전하면서 더 많은 데이터를 수집할 수 있게 되었습니다.

또 빅데이터가 중요해진 이유는 과거 방대한 양의 데이터를 분석할 때 큰 비용이 들었던 것이 요즘에는 적은 비용으로도 가능해졌기 때문입니다. 많은 양의 자료를 초고속으로 분석할 수 있는 슈퍼컴퓨터는 가격이 비싸 특별한 목적이 있는 정부 기관이나 연구소 등에서만 사용이 가능했으나 최근 기술의 발달로 성능이 뛰어난 개

인용 컴퓨터로도 데이터 분석이 가능할 수 있게 되었기 때문입니다.


그러면 구체적으로 어떤 기술이 발전했기 때문에 빅데이터 시대가 열린 걸까요?

바로 데이터 마이닝(Data Mining)이라는 기술입니다. 마이닝(Mining)은 ‘캐다’ 는 뜻으로 마치 광부가 땅을 파서 금을 찾는 것처럼 데이터에서 가치 있는 정보나 지식을 뽑아내는 과정이라고 말할 수 있습니다. 데이터를 통해 숨겨진 정보나 패턴을 찾아내는 과정으로 많은 데이터를 분석해서 유용한 정보를 발견하는 것입니다.

데이터 마이닝은 예측하기 위한 목적과 규칙을 찾아내기 위한 목적이 있습니다.

다양한 데이터를 분석하여 특정한 결과를 예측하는 것은 비가 올지 말지를 예측하거나 신제품이 얼마나 팔릴지를 예측하는 것 등을 말합니다. 데이터들 사이의 관계를 추측하여 규칙을 찾아내는 것도 데이터 마이닝의 또 다른 목적입니다. 예를 들어 우유를 좋아하는 사람은 젤리도 좋아한다는 분석결과를 얻으면, 제품을 진열할 때 우유 옆에 젤리를 놓아두는 것이 데이터 마이닝을 적용한 것이라 볼 수 있습니다.데이터 마이닝의 과정과 주요 기법을 이해하면 여러 분야의 직무에서 훨씬 체계적으로 많은 데이터를 수집하고 활용할 수 있을 것입니다.


그러면 데이터 마이닝은 어떻게 하는 걸까요?

먼저 데이터 마이닝의 과정을 따라가 보겠습니다.


첫 번째 단계는 데이터 수집으로 어떤 데이터에서 정보를 캘 것인가를 먼저 결정하고 필요한 데이터를 모으는 것을 말합니다. 예를 들어, 원활한 교통 흐름을 위한 신호등 체계를 바꾸려한다면 해당 도로에 설치되어 있는 교통 카메라의 데이터를 수집하는 것이고, 고객들의 니즈를 파악하기 위해 고객의 구매 내역을 수집하는 것도 이에 해당됩니다.


두 번째 단계는 데이터 전처리로 데이터에서 그 의미나 패턴을 찾기 위해서 데이터를 조정하거나 수집한 데이터를 정리하는 것을 말합니다. 예를 들어, 교통 카메라의 데이터에는 여러 가지 정보들이 혼재되어 있는데 이 중에서 혼잡 시간대에 오가는 자동차 데이터만 뽑아내는 것이 이에 해당됩니다.

잘못된 데이터나 중복된 데이터를 제거하고 분석하기 쉬운 형태로 변환하는 것도 데이터 전처리 단계에서 이루어져야 합니다.


세 번째 단계는 패턴 찾기로, 데이터를 분석해서 의미 있는 패턴이나 규칙을 찾는 것입니다. 쉽게 말해서, 데이터 수를 조정하고 분석할 수 있는 수식을 만드는 것을 말합니다.

예를 들어, 어떤 제품을 함께 구매하는 경우가 많은지를 알아내거나 혼잡 시간대의 자동차 데이터와 신호등 점멸 시간 등으로 수식을 만드는 것이 이에 해당됩니다.


네 번째 단계는 결과 평가로, 도출된 결과를 통해 해석하고 발견된 패턴이나 규칙이 실제로 유용한지 평가하는 것을 말합니다. 예를 들어, 고객에게 추천할 상품을 결정할 때 얼마나 도움이 되는지 확인하는 것이나 도로의 혼잡도를 가장 낮출 수 있는 시간 간격을 찾아내어 교통신호가 이 간격으로 바뀌었을 때 효과가 있는지 확인하는 것이 이에 해당합니다.


다섯 번째 단계는 적용 및 활용으로 유용한 정보를 실제로 활용하는 것을 말합니다. 예를 들어, 고객 맞춤형 광고를 보내거나 고객이 쇼핑할 때 비교 제품을 보여주는 것이 이에 해당합니다.


이렇게 의미 있는 패턴이나 정보를 추출하는 과정을 위해 다양한 기법들이사용됩니다. 데이터 마이닝의 주요 기법들에 대해 알아보겠습니다.


첫 번째는 분류(Classification) 로 데이터를 특정 그룹으로 나누는 것을 말합니다. 예를 들어 이메일을 ‘스팸’과 ‘정상’으로 분류하거나 고객을 ‘VIP’와 ‘일반’ 으로 분류하는 것이 해당됩니다.


두 번째는 군집화(Clustering) 로 비슷한 특성을 가진 데이터를 그룹으로 묶는 것을 말하며 이 그룹은 미리 정의되지 않고, 데이터 자체에서 패턴을 찾아 형성됩니다. 예를 들어 구매 패턴을 분석하여 고객을 여러 그룹으로 나누어 각 그룹에 맞게 마케팅 전략을 수립하는 고객 세분화나 비슷한 색상이나 질감을 가진 픽셀을 묶어서 이미지의 구역을 나누는 이미지 분할 등이 해당됩니다.


세 번째는 회귀 (Regression) 로 데이터 간의 관계를 분석하여 미래의 값을 예측하는 기법이며 주로 연속적인 값을 예측하는 데 사용됩니다. 예를 들어 지난 판매 데이터를 기반으로 다음 달 판매량을 예측하거나 과거의 주택 가격 데이터를 바탕으로 새로운 주택의 가격을 예측하는 것 등이 해당됩니다.


네 번째는 연관 규칙 (Association Rules) 으로 데이터 항목 간의 연관성을 찾는 것과 어떤 항목이 함께 나타나는지 분석하여 규칙을 발견하는 것을 말합니다.

예를 들어, 고객들이 어떤 상품을 함께 자주 구매하는지 알아내어 이를 바탕으로 제품 추천 시스템을 구축한다는 것 등이 해당됩니다.


이와 같은 데이터 마이닝의 과정과 기법으로 온라인 쇼핑몰은 고객이 자주 함께 구매하는 상품을 찾아서, "이 상품을 구매한 사람은 이런 상품도 구매했습니다"라는

추천 기능을 제공할 수 있고 은행에서는 고객의 거래 데이터를 분석해서 사기 거래를 탐지할 수 있습니다. 또한 의료에서는 환자의 병력 데이터를 분석해서 질병을 조기에 예측하고 예방할 수 있습니다.

데이터 마이닝을 적용하면 대규모 데이터 집합에서 숨겨진 패턴과 유의미한 정보를 발견할 수 있었습니다. 데이터 마이닝은 금융, 마케팅, 의료 등 다양한 분야에서 데이터 기반 인사이트를 제공하는 중요한 도구인 것입니다.


keyword
이전 02화빅데이터가 주는 세상