빅데이터가 주는 세상

9. 빅데이터의 테크닉 (1)

by 자유로운 영혼

1. 빅데이터는 그 방대한 양과 복잡성에도 불구하고 적절히 활용될 때 엄청난 가치를 창출할 수 있는 잠재력을 지니고 있습니다. 다양한 산업과 분야에서 빅데이터는 의사결정을 혁신적으로 변화시키고, 맞춤형 서비스 제공을 가능하게 하며, 효율성을 극대화하는 데 기여하고 있습니다. 그러나 이러한 잠재력을 실현하기 위해서는 빅데이터의 특성과 활용 방법을 잘 이해하고, 이를 뒷받침하는 핵심 요소들을 정확히 파악하는 것이 중요합니다. 빅데이터 활용을 위해 반드시 고려해야 할 3대 요소에 대해 자세히 살펴보겠습니다.


빅데이터 프로젝트가 성공적으로 수행되기 위한 필수적인 세 가지 요소는

자원(Resource), 기술(Technology), 인력(People)입니다.


첫 번째 요소인 자원(Resource)은 빅데이터 프로젝트의 핵심인 빅데이터 자체를 말합니다. 빅데이터를 활용하려면, 대규모 데이터를 저장하고 처리할 수 있는 인프라가 필요합니다. 이는 데이터 센터, 클라우드 스토리지, 강력한 서버 등의 물리적 자원을 포함합니다. 아마존의 사례로 자원을 설명하자면, 아마존은 방대한 양의

고객 데이터를 저장하고 분석하기 위해 강력한 클라우드 인프라를 활용하고 있습니다. 아마존 웹 서비스는 자사뿐만 아니라 외부 고객에게도 클라우드 스토리지와 컴퓨팅 자원을 제공합니다. 이를 통해 대규모 데이터를 효율적으로 처리하고 분석하여 고객 맞춤형 추천 시스템을 구축하는 등 다양한 빅데이터 활용 사례를 구현하고 있습니다. 빅데이터를 가치 있게 활용하기 위해서는 자원이 되는 소셜 미디어 데이터, 웹 로그, 센서 데이터, 거래 기록, 고객 피드백 등을 실시간으로 수집해야 하고, 수집된 데이터는 전처리 과정을 통해 품질을 향상시켜야 합니다.


두 번째 필수 요소는 기술(Technology)로, 빅데이터 분석을 위해서는 고급 분석 기술과 도구가 필요합니다. 이러한 도구에는 데이터 처리 기술, 분석 알고리즘, 머신러닝 및 인공지능 기술 등을 포함합니다.

스트리밍 서비스를 제공하는 넷플릭스를 살펴보면, 넷플릭스는 머신러닝 알고리즘과 빅데이터 분석 기술을 활용하여 개인화된 추천 시스템을 운영하고 있습니다. 넷플릭스는 사용자의 시청 기록, 검색 기록, 평가 등을 분석하여 각 사용자에게 최적화된 콘텐츠를 추천하고 있고, 이를 위해서 아파치 하둡, 스파크 등의 빅데이터 처리 기술과 머신러닝 알고리즘을 활용하고 있습니다.

빅데이터 처리 기술에는 분산 파일 시스템을 통해 대용량 데이터를 분산 처리할 수 있는 기능과 데이터 마이닝 등을 통해 데이터를 분석 및 시각화할 수 있는 기능이 포함되어 있습니다. 또한 데이터를 스스로 학습하고 처리할 수 있는 AI 기술을 활용할 수 있어야 합니다.


세 번째 주요 요소는 인력(People)입니다.

빅데이터 분석을 위해서는 데이터를 다루고, 분석하고, 해석할 수 있는 데이터 과학자, 데이터 엔지니어, 분석 전문가 등 전문 인력이 필요합니다. 이들은 데이터 수집, 정제, 분석, 시각화 등을 통해 의미 있는 인사이트 도출을 담당하고, 이를 바탕으로 의사 결정을 지원합니다. 세계적인 기업인 구글은 전 세계에서 수집되는 방대한 데이터를 분석하기 위해 데이터 과학자와 데이터 엔지니어 팀을 운영하고 있습니다. 이들은 검색 알고리즘 개선, 광고 타겟팅, 사용자 경험 최적화 등 다양한 프로젝트를 수행하고 있습니다. 예를 들어, 구글의 데이터 과학자들은 사용자 검색 패턴을 분석하여 검색 엔진의 정확도와 효율성을 지속적으로 개선하고 있고, 데이터 분석 전문가는 복잡한 분석 작업을 수행하고 있습니다. 그리고 데이터 엔지니어는 데이터 인프라를 구축 및 관리를 하고, 비즈니스 분석가는 분석 결과를 비즈니스 전략에 반영하고 있습니다.

이와 같은 핵심 전문가만 인력에 필요한 것이 아닙니다. 보조 인력인 비즈니스 분석가는 프로젝트의 비즈니스 목표를 설정하고 요구사항을 정의하는 작업을 하고, 프로젝트 매니저는 빅데이터 프로젝트를 계획, 실행, 모니터링하며 팀을 조율하는 작업을 담당하고 있습니다. 또한 데이터 거버넌스 전문가는 데이터 품질 관리와 규정 준수에 관한 담당자이고, AI/ML 전문가는 머신러닝 모델 설계와 배포를 담당하고 있습니다.


이와 같이 자원, 기술, 인력은 빅데이터 프로젝트의 성공을 위해 반드시 필요한 요소들입니다. 데이터는 분석의 원천이며, 기술은 데이터를 처리하고 분석하는 도구를 제공하며, 인력은 데이터를 통해 실제 가치를 창출합니다. 적절한 자원을 바탕으로 최신 기술을 채택하여 프로젝트의 목표를 달성함으로써 자원과 기술의 조화를 이루고, 전문가들이 기술 도구를 효과적으로 활용할 수 있도록 교육과 지원을 하는 인력과 기술의 융합이 필요합니다. 모든 자원, 기술, 인력이 프로젝트의 비즈니스 목표와 정렬되어 각 요소가 상호 보완적으로 작용한다면, 데이터의 가치를 최대한 활용하여 비즈니스 가치와 경쟁력을 극대화할 수 있을 것입니다.





2. 빅데이터는 방대한 양의 데이터를 통해 유의미한 인사이트를 도출하고, 이를 기반으로 효과적인 의사결정을 내리는 데 핵심적인 역할을 합니다. 이러한 데이터는 다양한 출처에서 실시간으로 생성되며, 그 형태도 구조화된 데이터에서부터 비구조화된 데이터까지 매우 다양합니다. 빅데이터의 잠재력을 최대한 활용하려면 기본적인 테크닉을 이해하고 적절히 적용하는 것이 필수적입니다. 지금부터 빅데이터 활용을 위한 기본 테크닉을 적절한 사례로 살펴보겠습니다.


빅데이터 활용을 위한 연관규칙학습(Association Rule Learning) 테크닉입니다.

연관 규칙 학습 테크닉은 대규모 데이터 집합인 데이터베이스에서 항목 간의 흥미로운 상관관계를 발견하기 위한 데이터 마이닝 기법입니다. 이 기법은 특히 거래 데이터에서 유용하며, 어떤 항목들이 자주 함께 발생하는지를 파악하는 데 사용됩니다. 이 기법은 고객 장바구니 분석과 같은 다양한 분야에서 활용되며, "A를 구매한 고객은 B도 구매할 확률이 높다"와 같은 형태의 규칙을 추출하는 것을 말합니다.


우선 연관규칙학습을 이해하기 위해 연관규칙학습의 기본 개념에 대해 알아보겠습니다.

연관규칙학습의 기본 개념 중 지지도(Support)는 특정 항목 집합이 전체 거래 중에서 얼마나 자주 나타나는지를 의미합니다. 예를 들어, 전체 100개의 거래 중에서 10개의 거래에 우유와 빵이 함께 포함되어 있다면, 우유와 빵의 지지도는 10%가 되는 것입니다.

연관규칙학습의 기본 개념 중 신뢰도(Confidence)는 "A를 구매한 고객이 B도 구매할 확률"을 의미합니다. 예를 들어, 우유를 구매한 20명의 고객 중 15명이 빵도 구매했다면, "우유 → 빵"의 신뢰도는 75%입니다.

또 다른 연관규칙학습의 기본 개념인 향상도(Lift)는 특정 항목 집합이 독립적으로 발생하는 경우에 비해 얼마나 자주 함께 발생하는지를 나타냅니다. 높은 향상도는 두 항목이 함께 발생하는 경향이 높다는 것을 의미하는 것으로 이는 연관 규칙이 얼마나 유용한지를 평가하는 데 사용되고 있습니다.


이를 이해하기 쉽게 설명하기 위해 적절한 사례들을 들어보겠습니다.


첫 번째 사례로 고객에게 제품을 추천하는 목표를 가진 전자 상거래 추천 시스템입니다. 데이터로 고객의 구매 기록, 검색 기록, 장바구니 목록을 수집하고 분석하여 고객이 특정 제품을 구매하거나 검색했을 때 관련 제품을 추천해주는 개인별 추천으로 적용했습니다. 또한 고객이 더 비싸거나 업그레이드 된 상품을 구매하도록 하는 업셀링과 특정 상품과 연관된 카테고리의 상품을 함께 제시해주는 크로스셀링으로 추가 판매 유도에 적극 활용하였습니다. 이런 적용을 구체화해보면 "노트북을 구매한 고객은 노트북 가방을 구매할 확률이 높다"라는 규칙을 통해 노트북 구매 고객에게 노트북 가방을 추천하는 것이라 할 수 있습니다.


두 번째 사례로 사기 거래 탐지를 목표로 하는 금융 서비스의 사기 탐지 시스템입니다. 데이터로 거래 내역, 고객 정보를 수집하고 비정상적으로 발생하는 거래 패턴을 분석하여, 이상 거래를 탐지하고 사기를 예방하는데 적용하였습니다. 또한 사기 거래 패턴을 발견하여 리스크 관리도 가능하게 됩니다. 이런 적용을 구체화하면 "고액의 현금 인출과 동시에 새로운 신용카드 신청이 발생하면 사기일 확률이 높다"라는 규칙을 발견하여 사기 탐지 시스템에 적용할 수 있는 것입니다.


세 번째 사례는 사용자에게 맞춤형 콘텐츠를 추천하는 온라인 콘텐츠 추천 시스템입니다. 데이터로 페이지 조회, 좋아요, 댓글과 같은 사용자 활동 기록을 분석하여 사용자가 관심을 가질 만한 기사나 동영상을 개인화된 뉴스 피드를 만들었습니다. 그런 다음, 개인화된 뉴스 피드와 연관된 콘텐츠 추천으로 사용자 참여를 유도하는데 적용할 수 있었습니다. 이렇게 온라인 콘텐츠 추천 시스템에서 적용하면 "스포츠 기사를 읽은 사용자는 운동 관련 비디오를 볼 확률이 높다"라는 연관 규칙을 통해 스포츠 기사를 읽은 사용자에게 운동 비디오를 추천하는데 적용할 수 있습니다.


네 번째 사례는 학습 패턴을 분석하고 교육성과를 향상시키는 교육 데이터 분석 시스템입니다. 데이터로 과제 제출, 시험 성적, 출석 기록과 같은 학생들의 학습 활동 기록을 분석하여 학습 활동과 성적 간의 연관관계를 발견하여 학습 성과를 예측하거나 학생들의 학습 패턴에 맞춘 교육 자료나 활동을 맞춤형 교육으로 제공할 수 있습니다. 연관 관계 테크닉을 적용하여 교육 데이터를 분석한다면 "온라인 강의를 정기적으로 수강하는 학생은 높은 시험 성적을 받을 확률이 높다"라는 연관규칙을 발견하고 학생들에게 정기적인 수강을 독려할 수 있는 것입니다.


이처럼 연관 규칙 학습 테크닉을 활용하여 빅데이터를 분석한다면 다양한 분야에서 유의미한 패턴을 발견할 수 있고, 또 이를 바탕으로 비즈니스 전략을 수립하거나 문제를 해결하는 데 매우 유용한 기법이 될 수 있습니다.







3. 빅데이터 활용을 위한 기본 테크닉으로 유형분석(Cluster Analysis) 테크닉에 대해 알아보겠습니다.

유형분석 테크닉은 대량의 데이터를 통해 숨겨진 패턴이나 트렌드를 발견하고 분류하는 과정으로, 문서를 분류하거나 조직을 그룹화할 때 많이 사용되는 테크닉입니다. 예를 들어, 소셜 미디어 데이터를 분석하여 사용자들의 관심사나 감정을 파악하거나, 고객 구매 데이터를 통해 서로 다른 소비자 그룹을 식별하는 데 사용됩니다. 이 과정에서는 다양한 데이터 마이닝 기법과 알고리즘을 활용하여 데이터를 그룹화하고 각 그룹의 특징을 도출할 수 있습니다. 이로 인해서 보다 개인화된 마케팅 전략을 수립하거나 효율적인 의사 결정을 지원해 줄 수 있는 것입니다.

유형분석 테크닉은 데이터를 비슷한 특성을 가진 그룹으로 나누는 기법이며, 이렇게 나눈 그룹을 클러스터(Cluster)라고 부릅니다. 각 클러스터 내의 데이터는 서로 비슷하지만, 다른 클러스터와는 차이가 크게 나타납니다.


유형 분석을 쉽게 설명하기 위해 학생들의 성적 데이터를 예로 들어보겠습니다.

학교에서 학생들의 성적 데이터를 유형 분석으로 그룹화한다고 가정해 보겠습니다.

학생들의 수학, 영어, 과학 성적을 데이터로 비슷한 성적을 가진 학생들을 그룹화 해보겠습니다. 그룹화하기 위해 사용되는 것이 데이터를 나누는 기준이 되는 특징(Feature)인데요, 학생들의 성적 데이터를 분석할 경우는 수학, 영어, 과학 성적이 특징이 될 수 있습니다.

먼저, 각 학생의 수학, 영어, 과학 성적 데이터를 수집한 후 데이터를 분석하기 위해 데이터 전처리 과정을 통해 데이터를 필요한 형태로 정리하고, 이상치나 결측치를 처리합니다. 다음으로 미리 정한 K개의 클러스터로 데이터를 나누는 알고리즘인 K-평균 클러스터링 알고리즘을 사용해 데이터를 클러스터로 나눕니다. 학생들의 성적 데이터는 K=3 인 3개의 클러스터로 나누면 성적이 비슷한 학생들이 3개의 그룹으로 나뉘게 됩니다. 나뉘게 된 각 클러스터의 특성을 분석하여 결과를 해석하면 첫 번째 클러스터는 수학 성적이 높은 학생들, 두 번째 클러스터는 영어 성적이 높은 학생들, 세 번째 클러스터는 과학 성적이 높은 학생들로 나눌 수 있었습니다.

이러한 유형분석 테크닉은 보다 다양한 분야에서 유용하게 활용될 수 있습니다.


몇 가지의 적절한 사례를 살펴보겠습니다.


첫 번째 사례는 환자를 유사한 증상이나 치료 반응을 보이는 그룹으로 나누어 맞춤형 치료를 제공하는 의료 데이터 분석입니다. 환자의 진단 정보, 치료 기록, 유전자 데이터 등으로 유형분석을 적용하면 각 환자 그룹에 맞는 치료 방법을 추천하는 맞춤형 치료 계획이 가능하고, 특정 그룹에 속한 환자들에게 공통적으로 나타나는 증상을 분석하여 질병 예측 모델을 개선할 수 있습니다. 구체적으로 당뇨병 환자의 경우, 증상과 치료 반응에 따라 클러스터를 나누어 각각의 그룹에 맞는 약물 치료와 생활습관 개선 프로그램을 제공할 수 있습니다.


두 번째 사례는 도시 내 지역에서 유사한 특성을 가진 클러스터로 나누어 도시 계획과 교통흐름을 분석하는 것입니다. 교통 및 인프라 관리의 최적화를 목표로 교통 흐름, 인구 밀도, 공공 서비스 이용 데이터 등을 활용하여 출퇴근 시간대의 교통 패턴과 혼잡도를 분석할 수 있습니다. 이 유형분석 결과를 통해 주요 교통 클러스터에 추가 노선을 제공하거나 운행간격을 조정해 교통 체증을 완화할 수 있고, 각 클러스터별로 공공 서비스의 자원을 배분하여 각각의 클러스터에 맞는 개선 조치가 가능해졌습니다.


이처럼 유형분석은 데이터를 이해하고 시각화하는 데 유용하고 비즈니스 전략을 세우는 데 도움이 되어 다양한 분야에서 활용할 수 있습니다. 반면에 클러스터의 수를 미리 정해야 하는 경우가 많고 데이터의 특성에 따라 클러스터링 결과가 달라질 수 있어 복잡한 데이터 구조를 완벽하게 반영하기는 어려울 수 있습니다.

그럼에도 불구하고 유형 분석은 다양한 데이터에서 유사한 특성을 가진 그룹을 찾아내고, 이를 바탕으로 맞춤형 전략을 수립하는 데 매우 유용한 기법이므로 이를 통해 데이터의 이해도를 높이고, 효율적이고 효과적인 의사결정을 내리는 데에 많이 활용되고 있습니다.

keyword
이전 08화빅데이터가 주는 세상