brunch

You can make anything
by writing

C.S.Lewis

by 마르코 Aug 09. 2018

데이터 전쟁

빅데이터를 넘어 패스트 데이터 시대로

사실 최근 들어서 데이터 관련 분야 및 직종에 관심이 많이 커졌지만 이전에 데이터 관련 업무가 존재하지 않았던 것은 아니다. 내가 2014년에 들었던 국비지원 프로그래밍 과정 이름이 ‘빅데이터 전문가 과정’이었으니 당시 한창 빅데이터 관련해서 기사가 많이 나왔던 거 같다. 하지만 그 수십 년 이전에도 수많은 사람들이 밤낮없이 엑셀과 SQL만 가지고 데이터를 분석하던 시기가 분명히 있었다.

사실 엑셀은 데이터 분석에 있어서 정말 강력한 툴이다. 직관적으로 숫자를 눈으로 볼 수 있고, 조작이 간편하고, 단축키에 익숙해지면 정말 빠르게 인사이트를 도출하기에 엑셀만 한 것이 없다는 생각이 든다. 그래서 여전히 엑셀은 데이터 분석을 위한 훌륭한 도구임에 틀림이 없다.

어떻게 빅데이터(Big Data)가 등장했는가?

그런데 엑셀의 가장 큰 문제점은 분석한 데이터의 사이즈에 크게 제한이 있다는 점이다. 그리고 템플릿을 미리 만들어 놓을 수 있다고 하나, 자동화에는 다른 프로그래밍 도구들에 비해 제한이 많다. 엑셀이라는 프로그램은 기본적으로 일반 사용자가 데이터를 분석하기 위한 도구이다. 따라서 많은 기능들이 간단한 버튼 조작 혹은 단축키로 조작 가능하도록 만들어진 프로그램이기 때문에, 대용량의 데이터를 한 번에 처리하기에 성능 문제가 발생하게 된다.

때마침 하드웨어의 성능이 급격하게 향상하면서, 일반 컴퓨터에서는 하드 드라이브라고 부르는 데이터 저장소(Storage) 가격이 급격하게 떨어지기 시작했다. 그리고 클라우드 서비스가 대중화 되면서 이런 저장소를 사서 설치하지 않아도 돈만 내면 얼마든지 저장소를 늘리고 줄일 수 있게 되었다. 그래서 예전에는 데이터 몇 백 줄을 데이터베이스에 보관하는 것조차 큰 부담이었는데, 이제는 수천만 건의 데이터가 하루 만에 발생해도 그것의 장기적인 가치가 더 크다고 보고 저장해야겠다고 생각하게 된 것이다.

예를 들어, 간단한 게시판 사이트를 생각해보자. 여전히 많은 서비스들이 게시글의 조회수를 데이터베이스에 저장할 때 그 게시글이 열린 횟수를 데이터베이스에 업데이트하는 방식으로 저장한다. 데이터 하나를 저장하는데 비용이 상대적으로 컸기 때문에, 이 방식에는 누가 언제 어떤 게시글을 읽었는지 같은 정보들은 소실된다.

게시글 아이디, 제목, 조회수
1, 첫 게시글, 15
2, 그다음 글, 20
…

그런데 빅데이터의 시대에는 조회수만 업데이트하지 않는다. 대신 어떤 사용자가 어떤 게시글을 어떤 시간에 열람했는지 저장한다. 이런 식으로 저장된 데이터를 바탕으로 한 게시글의 조회수는 자연스럽게 뽑아낼 수 있고, 어떤 사용자가 어떤 종류의 게시글을 좋아하는지에 대한 인사이트 등도 뽑아낼 수 있게 되는 것이다.

게시글 아이디, 사용자 아이디, 열람 시간
1, 1, 2018/08/11 10:10:00
1, 2, 2018/08/11 10:11:10
2, 1, 2018/08/11 10:12:05
1, 3, 2018/08/11 10:12:10
…

뿐만 아니라, 어떤 사용자가 어떤 페이지에 얼마나 머물렀는지, 이 사이트에 들어오기 전에 어느 사이트에 머물렀는지 등 정말 다양한 정보를 바탕으로 한 사용자의 행동을 예측하고 그걸 의사 결정에 반영한다. 그야말로 하둡(Hadoop)의 시대였다.

모든 데이터는 똑같이 가치가 있는가?

그런데 이런 빅데이터 시대가 무르익기 시작하면서, 사람들에게는 하나의 의문이 들기 시작했다. 과연 모든 데이터가 동일한 가치가 있는가? 일단 발생하는 데이터를 모두 저장하고 있긴 한데, 데이터가 많아지면서 데이터를 처리하는데 많은 시간이 걸리기 시작했다. 짧게는 몇 시간, 길면 며칠, 몇 주의 기간이 걸려서 데이터를 받아볼 수 있게 되었는데, 제법 많은 경우에 이렇게 얻은 데이터가 의미가 없어지는 경우가 발생하기 시작했다. 바로 그 데이터가 가지고 있는 콘텍스트가 일정 시간이 지난 이후에는 의미 없는 것이 되어버렸기 때문이다.

예를 들어, 한 드라마가 방영이 시작하면서 특정 제품의 판매가 급격하게 늘어나는데, 데이터 분석 시스템 설계 문제로 한 달 뒤에야 제대로 된 인사이트를 얻을 수 있다면 어떻게 될 것인가? 이미 이 기업은 한 달 동안 얻을 수 있는 예상 수익을 잃은 것이 된다. 혹은 재고 관리에 실패해서 없어서 못 파는 상황이 될 수도 있다.

그래서 데이터는 속도가 중요해졌고, 방대한 데이터를 모아뒀다가 한 번에 처리하는 것이 아니라 몇 분에서 몇 시간 단위로 주기적으로 데이터를 처리해서 즉각적으로 시스템에 반영이 가능하도록 시장의 요구가 생겨났다. 스파크(Spark)는 기존 하둡에 비해 10배 빠르게 데이터를 처리할 수 있다고 주장하며 시장의 선두주자가 되었다.

패스트 데이터(Fast Data)의 시대

시장의 요구는 점점 더 실시간 데이터를 향해서 달려가게 된다. 빠르게 발전하는 IT 산업에서 10분의 데이터 분석 속도 차이가 경쟁에 큰 차이를 만들어내게 된 것이다.

그래서 이제 데이터를 스트리밍 하는 시대가 되었다. 스트리밍은 동영상을 볼 때만 하는 것인 줄 알았는데. 이제는 데이터가 한 곳에 저장되어있다가 필요할 때 불러지는 것이 아니다. 이제는 데이터가 끊임없이 흐른다. 때로는 한 데이터가 여러 줄기로 나눠서 흘렀다가 가공되어서 다시 한 줄기로 합쳐지기도 한다. 이렇게 한 소스에서 나온 데이터가 여러 종류의 전혀 다른 인사이트를 발견하는 데 사용된다. 카프카(Kafka)와 플링크(Flink)는 이런 시대를 만들어나가고 있다.

물론 이런 실시간 데이터의 시대에는 또 다른 기술적 도전들이 존재한다. 실시간 데이터라고 하지만, 데이터는 언제든지 시스템의 상황에 따라 느리게 도착할 수 있기 때문에 이런 걸 처리하는 워터마크 기법이라든지, 혹은 실시간 데이터의 양에 따라 인프라를 확장할 수 있는 스케일링 기술들이 정말 중요하게 다뤄지고 있다. 물론 이런 인프라를 구축하고 안정적으로 운영하는 것이 쉽지 않기 때문에, 이 분야에 진출해서 시장이 직면한 문제들을 해결하고 있는 IT 기업들의 발전도 정말 눈이 부시다.

패스트 데이터의 시대에는 현재 일어나고 있는 일들이 서비스에 즉각 반영되는 일들을 어렵지 않게 볼 수 있을 것이다. 네이버의 실시간 검색 순위 같은 것들이 대표적이다. 네이버 검색 순위는 단순히 변화 내용을 보여주는 것에서 그치지만, 이런 변화가 서비스에서 사용자에게 즉각적으로 반영된다면? 사람들은 서비스가 살아있다고 느끼고, 그 살아있음 속에서 브랜드를 하나의 인격체로 인지하게 될 것이라고 생각한다.

세상의 한 편에서는 데이터가 고객에게 도달하는 시간을 1초 더 줄이기 위한 전쟁이 벌어지고 있다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari