통계, 데이터마이닝 기술 요약
최근 세계의 관심사는 단연 미국 대통령 선거였습니다.
선거 이전에 바이든이 큰 표 차이로 이길 것이라는 내용이 제법 있었지만, 과거 힐러리 클린턴 우세 여론을 뒤집고 당선된 트럼프였기에 결과를 예측하기 어려웠습니다. 최종적으로는 바이든이 당선됐지만요.
이처럼 결과 예측이 어려운 상황에서, 오늘날에는 선거 활동에도 빅데이터가 활용됩니다.
과거 2012년 재선에 성공했던 오바마는 당시 전략적인 선거 활동을 펼치기 위해 데이터마이닝 전문가를 모집했습니다. 데이터마이닝은 통계학과 관련이 있는데요, 데이터마이닝과 그 사례를 요약했습니다.
데이터마이닝의 사전적인 의미는 "대용량의 데이터 안에서 체계적이고 자동적으로 통계적인 규칙이나 패턴을 발굴하는 것" 입니다. 마이닝(Mining)이 채굴, 채광이라는 뜻이므로 많은 양의 데이터 안에서 무언가 의미있고 유용한 지식을 발견한다는 취지입니다.
1. 첫째는 연관성 분석입니다. 이는 데이터 간에 얼마나 유사한지를 살펴보는 것입니다. 연관성 분석을 보여주는 대표적인 예시가 '장바구니'입니다. 이를테면 감자 칩을 구매한 고객이 동시에 맥주를 구매할 확률이 높다면, 두 상품은 연관성이 높다고 합니다.
과거 월마트가 이 연관성 분석을 이용한 예시가 있습니다. 월마트에서는 고객 데이터를 분석해 기저귀를 사는 젊은 남성은, 맥주를 구매할 확률이 높다는 것을 발견합니다. 월마트는 이러한 근거를 따라서 매장을 상품에 전략적으로 배치합니다.
연관성 분석은 보통 동시에 발생하는 사건들의 연관성을 따집니다. 시간의 순서가 있는 경우 '연속성 분석'으로 부르는데요. 기존 구매 고객이 또 구매할 확률이 높다거나 냉장고를 구매한 고객이 한 달 내에 오븐도 구입할 확률이 높은 상황에 해당합니다. 연속성 분석의 대표적인 예시도 월마트에서 찾아볼 수 있습니다.
다시 한번 월마트는 허리케인이 상륙하기 전, 딸기 과자와 맥주가 많이 팔렸다는 사실을 발견합니다. 따라서 허리케인의 진행 경로에 있는 월마트 지점에 딸기 과자와 맥주를 우선 배치하여 매출 실적을 높였습니다.
2. 둘째는 분류 분석입니다. 분류 분석은 데이터를 특정 기준으로 나누어 분류하는 것을 의미합니다. 이를테면, 신용 평점 데이터를 바탕으로 저신용자, 고신용자 등을 분류하거나 과거 보험 수혜 내역, 건강 기록 등을 바탕으로 고위험군 보험 가입자를 분류하는 등이 해당합니다.
이러한 분류 기법을 이용해 경쟁사를 선호하는 고객과 자사를 선호하는 고객의 특성을 나눌 수 있습니다. 타겟을 나누어 프로모션이나 광고를 집행할 수 있겠습니다.
3. 셋째는 군집 분석입니다. 군집 분석도 분류분석과 같이 데이터를 나누는 기법입니다. 다만, 차이가 있다면 군집 분석은 특정 기준을 미리 설정하지 않습니다. 아무 기준도 없는 상황에서 비슷하게 행동하는 데이터를 묶어서 나누면, 그것이 군집이 됩니다.
제조업에서 군집 분석의 기법을 사용할 수 있습니다. 불량품을 줄이기 위해서 발생한 불량품의 과거 데이터를 이용하는 것인데요. 불량품들이 어떤 군집으로 묶이는지 분석하여, 이들 군집의 공통된 특징을 역으로 찾아내는 것입니다.
4. 넷째는 예측 분석입니다. 기존의 데이터 패턴을 기반으로, 미래에도 특정 사건이 일어날 것을 예측합니다. A 제품이 특정 소비자에게 많이 팔렸다는 정보를 바탕으로, B 제품의 판매 확률 및 수요를 판단하는 것에 해당합니다.
이외에도 최근에는 인공신경망 분석 등 '인간이 내리는 의사결정'과 유사한 알고리즘들이 도입되고 있습니다. 대용량 데이터에서 패턴을 찾도록, 기계 학습 알고리즘을 사용하는 것입니다.
앞에서 언급한 연관성 분석, 연속성 분석의 대표적인 예시를 인터넷에서 찾아볼 수 있습니다. 바로 구글 '독감 트렌드' 서비스입니다. 구글 검색어에서 '감기' 키워드 검색량이 증가할 때, 독감이 유행한다는 패턴을 발견한 구글은 국가, 지역별 독감 유행 시기를 예측하는 알고리즘을 개발합니다. 실제로 이 결과는 미국 질병관리본부보다 1주 빠르게 독감 유행 시기를 예측했다고 전해집니다.
예측 분석을 응용한 예시는 큐레이션이 대표적입니다. 기업마다 내부에 축적된 고객 데이터가 있을 것이고, 이 데이터를 바탕으로 고객별 맞춤형 서비스를 제공하는 것입니다. 이러한 추천 서비스는 넷플릭스, 유튜브, 아마존 등의 주요 IT기업에서 이미 사용하는 방식입니다.
데이터마이닝은 이미 데이터가 있는 상황에서, 분석해서 패턴을 찾는 것입니다. 따라서 데이터마이닝은 데이터를 구하고, 그것을 정제하는 과정이 필수적입니다. 데이터 전처리가 제대로 이루어지지 않은 경우, 분석 결과도 엉망이 될 수 있습니다. 이를 지적한 유명한 표현이 "Garbage In, Garbage Out"입니다. 쓰레기 값을 넣으면 쓰레기가 나온다는 것입니다.
이렇게 데이터를 전처리하는 작업이 분석하는 것보다 보통은 오래 걸린다고 합니다. 가장 대표적인 예시는 데이터의 형태와 관련됩니다. 어떤 데이터는 성별과 같이 이진형 데이터이고, 어떤 데이터는 소득 수준과 같이 연속적인 데이터라서, 이를 적절한 단위로 지정하는 작업이 필요합니다.
이외에도 함수 표현식에 따라서 오차가 크게 발생할 수 있습니다. 이를테면 Log 함수는 0과 1 사이에서 발산하는 형태입니다. 이 값을 포함한 데이터는 Log 모델에 넣기는 힘들다는 것을 계량경제학/회귀분석에서 대표적인 예제로 다루고 있습니다.
이외에도 데이터 자체를 다루는 일은 법적인 문제를 내포할 우려가 있습니다. 과거에 워낙 정보 유출 사고가 많았다 보니, 기업이 개인의 데이터를 수집하는 것을 좋지 않은 뉘앙스로 받아들이실 겁니다. 게다가 반대의 사례도 있습니다. 회사 홈페이지의 자료를 크롤링해서 개인이 무단으로 이용하는 것에 대해 왈가왈부가 많은데요. 데이터를 합법적으로 이용할 수 있는 플랫폼을 구축하는 것이 중요해 보입니다.
한국에서는 공공데이터 포털에서 자료가 공개되어 있습니다. 도로명주소, 대기오염, 교통사고 등 다양한 정보가 있네요.