빅데이터 비즈니스 이해와 활용

경영학도와 일반 독자들을 위한 입문서

by BranU


빅데이터는 새롭거나 어려운 것이 아니다.


저번 달부터 파이썬을 공부하게 되면서 이 김에 ‘빅데이터’에 대해서 더 공부해봐야겠다는 결심이 생겼다. 그래서 회사 독서교육을 신청하였고, 이번에 신청한 책은 <빅데이터 비즈니스 이해와 활용>이란 책이다. 내가 나를 아는데 나는 이런 딱딱하고 재미없는 책을 그냥 읽으려고 사면 절대 안 읽는다. 저번에 하버드생들이 배우는 중국 특강인가 하는 책도 있었는데 너무 어려워서 1/10도 못 읽고 포기했다. 아... 그 책 꽤 비쌌는데... 그 책도 산 지 1년도 안됐는데 먼지가 고이 쌓여가고 있다. 이제 생각해보니 그 책은 아빠가 읽기에나 알맞은 책이지. 나 같은 독서 초보에겐 너무 힘든 책이었다.


나도 올해가 돼서야 알게 된 사실이지만 난 참 재밌는 일이 아니면 뭔가 강제성이 있어야 행동을 하는 편이다. 한마디로 할 수밖에 없는 상황에 몰아붙여지지 않으면 뭘 안 하는 성격이다. 그래서 학사 시절 온라인 강의가 100%였던 교양과목 <세계 여행>도 강의를 한 개도 제대로 안 듣고 막판에 벼락 치기만 해서 C+이 나왔던 거다.


그래서 이번에 회사 독서교육을 신청했다. 회사 독서교육을 신청하면 공짜로 책을 준다. 그리고 매주 퀴즈를 풀어야 하고, 마지막 주에는 3문제의 시험을 보기에 책을 안 읽을 수 없게 되어 있다. 물론 퀴즈와 시험을 안 본다 해서 나의 인사에 불이익이 있는 것은 아니지만 해당 교육을 패스하지 않으면 거금 8만 원을 토해내야 하기에 어쩔 수 없이 하게 된다.


20대 후반에도 수동적으로 움직이는 게으른 동물이라니,,10년전 고등학생 때 꿈꿔온 커리우먼의 모습은 절대 찾아볼 수 없었다. (5년 뒤엔 나아졌으면...)




궁금하실 분들을 위해 목차!


이 책은 목차가 참 잘 정리되어 있다.


part1 빅데이터 현상을 어떻게 바라볼 것인가?

part2 빅데이터를 활용하여 무엇이 가능한가?

part3 빅데이터 기술

part4 케이스 스터디

part 5 빅데이터 시대의 과제와 미래


이론만 있다면 재미없었을 책을 활용을 넣어줌으로써 재미요소를 더했다. 나도 computer science를 전공했지만 컴퓨터의 이론적인 이야기는 참 재미없다. 학사 시절에도 너무 재미가 없어서 자주 딴짓을 했는데 이번 책은 나와 같은 일반인들을 위해 잘 구성되어 있는 것 같다. 특히 교수님이 쓰셔서 그런지 마치 눈앞에서 강의를 듣는 것 같은 구성이 재밌다. 그렇지만 이론만 있지 않아서 너무 좋다는 사실!


나도 작년에 알게 된 건데 내가 기술적인 부분만 있는 것은 재미없어 하지만 그 기술을 활용하여 실제 어떻게 썼고, 앞으로 가업 경영에 있어 어떻게 적용할지에 대해 고민하는 것에는 꽤 흥미를 가지고 고민한다는 것이다. 나는 내가 전공과목도 지루해하다 보니 컴퓨터 기술에 관련된 것들은 전부 싫어하는 줄 알았다. 그런데 작년 Retail value creator이라는 Al 교육을 들으면서 해당 기술을 어떻게 기업에 활용할 수 있는지에 대해 듣다 보니 너무 재밌는 거다. 돈 주고 또 듣고 싶을 정도로 알차고 유익한 강의였다. 그래서 part2 부분이 특히 관심이 갔다.


해당 책에서는 내가 관심이 가고, 나와 같이 마케팅을 하면서 데이터까지 관심이 있는 분들을 위해 필요한 부분만 브런치에 올려본다. 아래부터는 해당 책에서 우리가 알면 좋은 내용을 몇 개 뽑아본 것이다.




빅데이터 시대의 등장 배경


#IT기술의 발전에 따른 빅데이터의 필연적 출연

1. 컴퓨터 연산속도의 증가

2. 데이터 저장 및 처리비용 감소

3. 정보를 감지하는 센서 기술의 발전

(센서 기술은 자동차와 스마트폰으로 인해 급격히 발전함. 최근 제조되는 차량에 평균적으로 탑재되는 센서는 30여 종 200개 이상)

4. 데이터 처리 기술 발전


#데이터가 범람하여 유통되는 사회 (사회적 경제적 배경)

1. 데이터의 폭발적인 증가

- 2018년 1월 기준 유튜브 1분당 400시간 분량의 동영상

- 페이스북 1분당 330만 건 포스트

- 인스타그램 1분당 6만 5천 장 사진

2. SNS 사용의 증가

3. 정보 흐름 방식의 변화와 관심의 자원화

매스미디어의 일방향적 정보 송수신 -> 소셜미디어의 쌍방향적 정보 전달


데이터 마이닝 기법의 종류


1. 연관관계 분석

한 가지 대상과 다른 대상의 관련성을 분석하는 것.

예를 들어 과일, 야채를 구매한 빅데이터가 존재할 때 두 데이터 간의 구매 방향성에 대해 알고 싶다면 우리는 변수 간의 상관관계를 분석하면 된다.


2. 의사결정 나무


3. 인공 신경망

사람 뇌의 신경망 구조를 모방하여 데이터의 패턴과 구조를 인식, 이를 분석 및 예측에 활용하는 방법이다. 인공 신경망은 회귀 분석처럼 비선형적이며, 상호 관련성이 높은 데이터 또는 데이터 사이즈가 작고, 노이즈 등이 많은 불완전 데이터에도 비교적 높은 예측력을 보인다.


4. 사례기반 추론

과거 사례를 기반으로 새로운 사례의 결과를 예측하는 방식이다.


5. 텍스트 마이닝

우리가 일성적으로 사용하는 언어를 자연어라고 한다. 빅데이터 분석이 가장 활발한 영역이 바로 자연어 처리 분야라고 할 수 있다.

형태소 분석

구문분석

의미 분석


6. 웹 마이닝

웹마이닝은 인터넷 웹 페이지의 패턴을 분석하거나 원하는 정보를 파악하는 기술을 말한다. 이러한 웹 페이지의 패턴에는 페이지 간의 연결 관계 또는 웹 사용 패턴 등이 있다. 웹 사용 마이닝의 경우에는 웹 서버에서 수집되는 IP주소, 접근 시장 등 사용자의 데이터 내역을 수집한다.


7. 오피니언 마이닝

어떤 대상에 대해서 포털 게시판, 블로그, 쇼핑몰 등 대규모 웹 문서를 기반으로 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것이다. 기본적으로는 전체 데이터를 개별 문장으로 나누고, 텍스트 마이닝을 통해 단어, 형태소 형태로 나누어 대상에 대한 표현이 긍정적인지, 부정적인지, 또는 중립적인지를 분류하여 전체적인 스탠스 룰 파악하게 된다. 오피니언 마이닝은 상품, 서비스의 고객 반응 및 입소문을 분석하는데 주로 활용할 수 있다.


8. 소셜 네트워크 분석

최근 들어 페이스북 인스타 등 sns를 통해서 관심사와 취미, 위치, 또는 자신의 다양한 의견을 표현하고 이러한 콘텐츠를 기반으로 상호 관계를 맺으며 정보를 습득하고, 자신의 사회적 지위를 형성하고자 하는 경향이 강해졌다.


소셜 네트워크 분석이란 이처럼 SNS와 같은 네트워크 구조의 정보에 대하여 다양한 대상(노드)들 간의 링크 형태와 정도를 도출하는 것을 말한다.


빅데이터 분석 도구 소개 (무료 빅데이터 설루션)


1. 구글 트렌드 https://trends.google.co.kr/trends/

구글이 수집하는 검색어 통계를 보여주는 도구

현재 어떤 키워드들이 많은 관심을 받고 있는지 알려주며, 해당 키워드에 대한 관심도가 시간의 흐름에 따라서 어떻게 변했는지, 지역에 따라서는 얼마나 반응이 있는지 등을 보여준다. 검색어는 사용자의 관심을 대변한다는 점에서 구글 트렌드는 대중의 관심도를 파악할 수 있는 유용한 도구가 된다.


2. 네이버 데이터랩 http://​datalab.naver.com

구글과 유사한 서비스를 제공한다

국내 검색시장 점유율 75% 수준의 포탈이므로 국내 소비자의 관심사를 파악하는 데는 구글 트렌드보다 효과적이다.





* 클라우드 컴퓨팅 : 한 번에 복수의 사용자에게서 들어온 처리 요청을 처리함과 동시에 사용자의 요구에 따라 처리능력을 증가시켜야 하기 때문에 매우 많은 서버가 필요함


* 하둡: 분산처리기술 (구글이 개발함)

하둡은 대용량 웹 데이터를 효율적으로 처리하기 위해 고안한 분산 파일 시스템과 맵리듀스 기술을 바탕으로 만들어진 오픈소스 프로그램이다. 사용자에게서 처리 요구를 받으면 그것을 수천 개의 작은 처리 파일로 분산해 수천 개의 서버에 일제히 분산시킨다. 대용량 데이터 처리 분석을 위한 대규모 분산 컴퓨팅 지원 프레임 워크로서 여러 개의 컴퓨터를 마치 하나인 것처럼 활용할 수 있게 해준다.

ex) 1990년대 초 1초당 수천 장의 이미지 검색만 가능했으나, 최근에는 1초당 1억 장 수준에 육박함 (30년도 안돼서 십만 배 빨라짐)


* sns : 인터넷을 매개로 특정 목적을 위해 타인과 정볼르 공유하거나 사회적 관계 형성을 돕는 쌍방향 소통 서비스

sns는 1995년 클래스메이트라는 서비스에서 시작한 것으로 본다. 국내에서는 1999년 싸이월드와 아이러브스쿨이 최초의 sns 서비스로 보통 언급된다.


*매스미디어라는 용어 자체가 정보 송수신이 일방향적이며 메시지를 대량으로 전달한다는 의미를 내포하고 있다. (신문, 잡지, 텔레비전, 라디오)

*소셜미디어는 쌍방향적 정보 전달의 정점을 보여준다.(sns, 메일링, 뉴스레터 구독, rss피드)


*데이터 마이닝은 기업이 봉한 데이터에서 상호 연관성과 패턴을 찾아내는 방법론으로 1960년대 초 미국 통계학자 제임스 마이어와 에드워드 포지가 처음 고안한 개념이다.

(1990년대 중반 월마트에서 기저귀와 맥주를 묶음 판매하자 실제로 매출이 상당히 늘어난 일)



keyword