# 빅데이터란
빅데이터의 사전적 정의는 대량의 데이터가 체계적인 집합을 이루고 있는 것을 의미한다. 어떤 데이터 집합의 세 가지 측면이 매우 클 때 우리는 이 데이터 집합을 빅데이터라고 부를 수 있는데, 그 세 가지 측면은 각각 양과 속도, 그리고 다양성이다. 우리는 이를 빅데이터의 3V라고 부른다.
1) 양(Volume) : 우선 빅데이터는 수집되어 저장된 데이터의 사이즈가 매우 크다. 데이터셋의 사이즈가 매우 커서 인간의 육안으로는 쉽게 인지하거나 분석할 수 없으며, 기존의 엑셀 또한 이 엄청난 양의 데이터를 감당해내기 쉽지 않다.
2) 속도(Velocity) : 빅데이터는 데이터를 송수신하는 속도 또한 매우 빠르다. 데이터는 스트리밍 방식이나 배치 방식을 통해 전송이 되는데, 이러한 빅데이터의 전송은 거의 실시간으로 발생하거나 혹의 거의 실시간에 준하는 속도로 발생한다.
3) 다양성(Variety) : 빅데이터의 마지막 특징은 데이터의 형태가 매우 다양하다는 것이다. 빅데이터는 SQL이나 CSV와 같은 기존의 정형화된 데이터를 포함할 뿐만 아니라 JSON이나 HTML 같은 반(半)정형화 데이터, 그리고 댓글이나 블로그 포스트, 트위터, 비디오 클립 같은 매우 비정형화된 데이터를 모두 포함한다.
# 빅데이터와 시장의 알파
퀀트 투자자들이 빅데이터를 수집하고 분석하는 목적은 당연히 이를 통해 금융시장에 숨겨져 있는 새로운 알파를 찾아내기 위함일 것이다. 그런데 과연 빅데이터는 어떻게 알파를 제공할 수 있는 것일까?
빅데이터 혁명이 새로운 알파를 제공할 수 있는 방법은 크게 두 가지이다. 하나는 빅데이터 자체가 그야말로 새로운 그리고 좀 더 빠른 데이터이기에 투자자들로 하여금 정보적 우위를 제공하는 것이고, 다른 하나는 머신러닝 기법과 같은 데이터 과학을 사용해 데이터 이면에 숨겨진 투자 시그널을 발견하는 것이다.
그중에서도 빅데이터가 가지고 있는 정보적 우위(Informational Advantage)는 바로 스마트폰, 인공위성, 소셜미디어 등과 같은 신기술에 의해 창조된 새로운 유형의 데이터셋으로부터 나온다. 주식시장에서 돈을 벌기 위해 가장 확실한 방법은 내부자 정보와 같이 남들은 모르는 정보를 나 혼자만 알고 있는 경우 아니던가. 전통적인 투자자들은 기존 방식대로 분기마다 발표되는 경제지표를 보고 의사결정을 내리지만, 만약 빅데이터를 수집해 지금 현재 시점의 물가와 GDP 정보를 알 수 있다면 우리는 시장에서 우위를 점할 수 있다.
이러한 빅데이터의 정보적 우위 그리고 이에 기반한 알파 창출은 이제 더 이상 매니저의 감, 업계 인맥, 기업 경영진과의 연줄 등과 관련이 없음을 우리는 단번에 알 수 있다. 이제 중요한 것은 많은 양의 데이터를 수집하고 이를 적절하게 분석할 수 있는 능력뿐이다. 이러한 관점에서 빅데이터는 기존의 투자 지평을 확연히 변화시킬 힘이 있으며, 이에 따라 투자산업의 트렌드는 기존의 재량적(Discretionary) 스타일에서 보다 계량적(Quantitative) 스타일로 변모하게 될 것이다.
# 빅데이터 혁명을 가능케 한 세 가지 트렌드
1) 가용 데이터 양의 기하급수적 증가
IBM의 리서치에 따르면 현재 전 세계에 존재하는 데이터의 90%는 불과 2년 만에 생성된 것이라고 한다. 그만큼 우리 인류는 엄청난 속도로 데이터를 만들어내고 또 이를 저장하고 있다. 이러한 데이터 홍수의 유속은 훨씬 더 거세질 것으로 예상되며, 2015년 4.4 제타바이트였던 세상의 데이터 양은 2020년 말까지 44 제타바이트가 될 것으로 보고 있다.
이처럼 엄청난 양의 데이터가 생성될 수 있었던 것은 바로 모든 가전기기에 센서를 부착한 사물인터넷의 발전과 스마트폰 기술의 발전으로 인한 실시간 데이터 수집, 그리고 인공위성 기술 사용에 대한 비용 감소를 들 수 있다. 이러한 과학기술의 발전은 대용량의 데이터, 그리고 새로운 유형의 대체 데이터를 실시간으로 수집하여 빅데이터를 형성할 수 있기 위한 기반으로 작용하였다.
2) 컴퓨팅 파워의 상승 및 데이터 저장 용량 증가
빅데이터 혁명을 야기한 두 번째 트렌드는 바로 컴퓨팅 파워의 상승과 데이터 저장용량의 증가이다. 병렬 및 분산 컴퓨팅 그리고 저장용량의 증가는 소위 클라우드 컴퓨팅(Cloud Computing)이라고 불리는 기술에 의해 가능해졌다. 빅데이터 회사 CSC에 따르면 2020년 말에 전 세계 모든 데이터의 1/3 이상이 클라우드에 저장되어 있을 것이라고 한다. 또한 구글을 사용한 단 한 번의 검색 결과는 현재 1000개 이상의 컴퓨터가 협업해 낸 결과이다. 전문가들은 앞으로도 이러한 컴퓨팅 파워의 기술이 훨씬 더 빠르게 발전할 것으로 예상하고 있다.
시간이 지날수록 아파치 스파크와 같은 분산 클러스터 컴퓨팅 기술을 위한 오픈 소스 프레임워크는 점점 더 인기를 얻고 있으며, 기술 벤더들은 SaaS(Software-as-a-service), PaaS(Platform-as-as-service), IaaS(Infrastructure-as-a-service)와 같은 클라우드 시스템을 통해 데이터 원격 접속 서비스를 제공하고 있다. 이러한 클라우드 서비스의 발전은 대량의 데이터 처리와 분석에 대한 진입장벽을 아주 급격히 낮춰주었고, 이는 펀더멘털 투자자들과 퀀트 투자자들이 보다 효율적으로 데이터 기반의 전략을 개발할 수 있도록 만들어 주었다.
3) 빅데이터 분석을 위한 머신러닝 방법론
빅데이터 혁명을 가능케 한 마지막 요인은 바로 패턴 인식 영역에서의 괄목한 만한 발전을 꼽을 수 있다. 우리는 이러한 분석 방법론을 흔히 머신러닝(Machine Learning)이라고 일컫는데, 이는 통계학과 컴퓨터과학의 한 갈래이다. 머신러닝 기술의 가장 큰 장점은 바로 대용량의 비정형 데이터셋에서 우리 인간이 보지 못하는 비선형적 패턴들을 찾아준다는 점이다. 우리는 머신러닝 분석을 통해 얻어낸 패턴을 이용해 금융시장에서 트레이딩 전략 수립에 활용할 수 있다.
고급 통계학으로 인식되었던 다소 고전적인 영역의 머신러닝 기법 이외에도 최근에는 딥러닝(Deep Learning)과 강화 학습(Reinforcement Learning)을 활용한 투자 전략 개발이 각광을 받고 있다. 사실 인공 신경망이라는 개념은 최근에 만들어진 것이 아니며 이미 수십 년 전부터 학계에서 논의되었던 아이디어이다. 다만 최근 들어 이것이 주목을 받고 있는 이유는 컴퓨팅 기술의 발달로 인해 전산업군에 걸쳐 이를 활용해 비즈니스 수익을 창출할 수 있는 토대가 마련되었기 때문이다. 우리는 이미 2016년부터 아마존 에코, 구글 홈, 그리고 애플 시리와 같이 딥러닝 알고리즘을 토대로 한 스마트 상품들을 접한 바 있다. 이러한 고급 머신러닝 알고리즘은 아주 복잡한 문제들을 풀어내는데 매우 성공적인 결과를 보여주었고, 투자업계에서도 이러한 알고리즘을 활용해 금융적 문제를 해결하고자 고군분투하고 있다.
# 빅데이터 개척시대
우리는 이제 일상생활에서 빅데이터라는 단어를 매우 흔히 들을 수 있다. 그만큼 빅데이터에 대한 사람들의 관심, 특히나 계량 투자를 기반으로 하는 퀀트 투자자들의 관심은 어느 때보다 강하다. 하지만 이러한 현재의 상황은 단지 시작에 불과하다.
MIT 테크놀로지 리뷰에 따르면 전 세계에 존재하는 데이터 중 고작 0.5%만이 현재 분석되어 사용되고 있을 뿐이라고 한다. 다시 말해, 지구에 존재하는 데이터의 95.5%는 아직 존재하기만 할 뿐 그 효용가치가 생성되지 않았다. 매일매일 새롭게 만들어지는 신규 데이터까지 포함하면 절대적인 양의 관점에서 아직 분석되어야 할 데이터는 거의 무한대에 가깝다고 볼 수 있다.
빅데이터 혁명은 19세기 서부 개척시대를 생각나게 한다. 1848년 캘리포니아에서 금광이 발견되면서 그 당시 사람들은 부푼 꿈을 안고 금을 찾아 서부를 개척해나갔고, 이른바 골드러시를 만들어냈다. 앞으로 금융업의 미래는 결국 누가 먼저 양질의 대체 데이터를 찾아내고 분석하여 그 속에서 알파를 창출해낼 수 있는가의 싸움이 될 것이다. 데이터 금맥을 찾기 위한 데이터 러시는 이제 시작일 뿐이다.