brunch

You can make anything
by writing

C.S.Lewis

by 엠케이랩 Jan 27. 2020

빅데이터, 그리고 데이터 사이언스란?

문송이도 이해하는 데이터 사이언스

정보통신기술의 발전과 더불어, 데이터 분석이 필요한 분야는 끊임 없이 늘어나고 있습니다. 24시간 우리의 삶을 파고든 스마트폰과 스마트센서, GPS 등의 하드웨어는 물론, 소셜미디어와 전자상거래, 온라인 광고, 블록체인 등의 소프트웨어 기술까지 데이터에 관한 기술은 진보에 진보를 거듭하고 있죠.


사실 빅데이터와 이를 기반으로 하는 데이터 분석에 관한 관심은 하루아침에 생겨난 것이 아닙니다. 이미 10년 전인 2010년대 초부터 ‘빅데이터’라는 용어가 해외의 유명 저널과 블로거를 중심으로 사용되기 시작했는데요. 이때부터 수많은 기업들이 데이터 분석에 대한 역량과 기술을 키워나가기 시작해 2010년대 후반부터 이를 실제 업무에 활용하기 시작했죠.


2017년 영국의 유명 경제지 이코노미스트(The Economist)는 


세상에서 가장 가치 있는 자원은 더이상 기름(oil)이 아니다.
데이터(data)이다.


라는 요지의 기사를 게재하여 화제가 되었으며, 이를 증명하기라도 하듯 2019년 기준 글로벌 기업 시가 총액 랭킹 상위 5개사인 애플과 아마존, 마이크로소프트, 구글 페이스북 모두 데이터 분석을 기반으로 경영 원칙과 전략을 수립하고 있음을 밝히고 있죠.


글로벌 트렌드보다 조금은 뒤쳐진 감은 있지만 우리나라의 수많은 기업들 역시 경영 전략에 데이터 분석 기법을 도입하고 있습니다. 2013년 삼성경제연구소는 그해의 10대 트렌드 중 하나로 빅데이터를 지목했으며, 현재는 네이버와 카카오 등의 IT 기업은 물론 금융, 출판, 뷰티 등 산업의 거의 전 분야에서 데이터 분석이 이루어지고 있죠.


그렇다면 빅데이터란 도대체 무엇일까요?


이는 말 그대로 ‘엄청나게 큰 규모의 데이터’를 말합니다.


조금 더 구체적으로는 규모와 주기, 형식 등이 너무 크고 복잡해 수집과 저장, 분석이 난해한 데이터를 이야기하죠. 개별 기업이 수집하는 데이터의 종류와 양은 어마어마합니다. 게다가 각 데이터마다 속성이 다르며, 수많은 서버에 산재해 있어 그냥 두면 쓸모가 없는 경우가 대부분인데요. 하지만 효과적인 분석 방법과 발전된 기술을 활용하면 이전에는 알 수 없었던 데이터간의 연결고리를 확인할 수 있습니다. 현재 상황을 정확히 파악하고, 미래를 예측할 수 있는 기반이 바로 데이터인 것이죠.



데이터 사이언티스트는 흔히 4V를 활용해 V를 창출해 내는 사람이라고 일컬어집니다. 4V란 크기(Volume)와 속도(Velocity), 다양성(Variety), 정확성(Veracity)를 일컫는 말입니다. 방대한 양의 데이터가 이전에는 상상도 할 수 없었던 속도로 쌓이며, 기초적인 데이터뿐만 아니라 상세 가격 변동 및 거래량 등으로 대표되는 마이크로 데이터와 이미지 및 동영상으로 대표되는 비구조화 데이터 등 다양한 데이터가 쌓여가고 있습니다. 이렇게 수집된 정보는 왜곡이 불가능하기에 이전 대비 훨씬 정확하다고 이야기할 수 있죠. 그리고 데이터 사이언티스트가 만드는 V는 가치(Value)입니다. 변화된 데이터 환경에 유연하게 대처하고, 그러한 데이터를 분석하여 새로운 가치를 창출해 내는 것이 그들의 역할인 것이죠.


이제 우리는 앞으로 데이터 분석 전반에 대한 이해와 이를 실행하기 위한 기초적인 분석 기법을 공부해 볼 예정입니다. ‘문송’한 우리도 할 수 있는 데이터 분석, 시작할 준비되셨나요?

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari