# 대체 데이터와 정보 우위
투자운용업계에서 빅데이터 트랜스포메이션(Bigdata Transformation)을 가능케 한 핵심은 바로 정보의 우위를 제공하는 새로운 형태의 데이터 소스다. 우리는 이처럼 기존에는 없었던 새로운 형태의 데이터를 대체 데이터(Alternative Data)라고 부른다.
이러한 정보의 우위는 크게 두 가지 방법으로부터 나온다. 하나는 전통적인 데이터가 가지고 있지 않은 새로운 정보를 발견하는 것에 있고, 다른 하나는 동일한 정보를 남들보다 좀 더 빠른 속도로 입수하는 것에 있다. 예를 들어, 원자재 공급 차질에 대한 소식이 뉴스에 나오기 전에 우리는 광산이나 논밭에 대한 인공위성 이미지 분석을 통해 이러한 정보를 보다 빠르게 얻을 수 있으며, 이를 활용해 금융시장에서 초과수익을 얻을 수 있다.
빅데이터를 분류하는 방식에는 크게 두 가지가 있다. 첫 번째는 그 데이터가 생성된 원천에 따라 분류하는 방식이며, 두 번째는 투자 전문가들이 관심있어할만한 데이터의 속성을 기준으로 분류하는 방식이다. 이러한 속성들에는 자산군, 투자스타일, 알파의 크기, 데이터의 퀄리티 등이 있다.
# 생성 원천에 의한 분류
투자 업무에 필요한 대체 데이터를 분류하는 첫 번째 방식은 데이터가 생성된 소스에 따라 분류하는 것이다.
대체 데이터는 생성된 소스에 따라 개인(SNS, 블로그, 뉴스, 인터넷 검색 등), 비즈니스(거래 내역, 회사 데이터, 정부 기관 등), 그리고 센서(위성, 지리 정보, 기상, CCTV 등)로 구분된다. 아래의 그림은 이러한 분류를 매우 직관적으로 보여주고 있는데, 이러한 분류 방법은 2015년에 발간된 「Revision and Further Development of the Classification of Big Data」라는 UN 레포트에서 사용한 방식에 기반하고 있다.
이러한 분류 방식을 선택한 이유는 각각의 카테고리 내의 데이터들이 해당 카테고리가 공유하는 공통적인 성질, 분석방법론, 그리고 장단점들을 함께 공유하고 있기 때문이다. 예를 들어, 개인에 의해 생성된 데이터는 일반적으로 비정형화된 텍스트의 형태를 띠며, 따라서 이러한 데이터를 처리하기 위해서는 보통 자연어 처리 기술이 요구된다. 또한 신용카드 거래내역과 같이 비즈니스를 통해 만들어진 데이터는 해당 데이터에 접근하고 이를 사용하기 위한 법적인 이슈 그리고 개인 정보 보호와 같은 프라이버시 이슈 등에 대한 고려가 필요하다는 특징을 가지고 있다. 마지막으로 각종 센서에 의해 생성된 데이터는 물체의 개수를 세거나 인공위성에 잡힌 구름, 날씨 변화의 효과를 제거해 주는 것과 같은 특수한 데이터 처리 기술이 필요하다. 따라서 이러한 분류 방식을 사용하면 특정 데이터에 대한 수집 및 전처리 방식, 그리고 분석방법론에 대한 아이디어를 직관적으로 생각해볼 수 있다.
1) 개인에 의해 생성된 데이터
대부분의 데이터는 텍스트 형태를 가지고 있기에, 이러한 데이터는 비정형화되어 있으며 다양한 플랫폼으로부터 생산된다. 이러한 플랫폼은 좀 더 디테일하게 분류해보자면 1) 트위터, 페이스북, 링크드인과 같은 SNS, 2) 각종 상품 리뷰 웹사이트, 그리고 3) 웹사이트 검색 기록으로 나눌 수 있다.
2) 비즈니스 과정에서 생성된 데이터
이것은 회사 혹은 공공기관들로부터 만들어지고 수집된 데이터를 의미한다. 여기에는 신용 카드 사용 기록과 같은 매우 중요한 데이터가 포함되어 있으며, 은행 이체 기록, 슈퍼마켓 바코드 기록, 공급망 데이터 등 또한 포함된다. 개인이 만들어낸 비정형 데이터와는 다르게 비즈니스 데이터는 고도로 정형화되어있는 것들이 많다. 또한 이러한 데이터는 저빈도로 발생하는 기업실적, 재무제표 데이터 등의 선행지표 역할을 하고 있다. 공공기관으로부터 만들어지는 데이터 또한 비즈니스 데이터로 분류가 되는데, 최근 API를 통해 수집이 가능한 정부 부처 및 공공기관 데이터들이 바로 여기에 해당한다.
3) 각종 센서에 의해 생성된 데이터
이는 컴퓨터, 냉장고, 세탁기, CCTV 등과 같이 각종 기기에 부착된 센서를 통해 기계적으로 수집되는 데이터를 의미한다. 보통 센서에 의한 데이터는 비정형화되어 있으며 개인 혹은 비즈니스 데이터보다 상대적으로 그 양이 엄청나게 많다. 대표적인 예시는 바로 앞에서 언급했던 인공위성 이미지인데, 이는 건설, 운반, 제조, 농업 등 다양한 경제활동들을 실시간으로 모니터링하는 데 사용이 가능하다. 사물인터넷의 발전으로 미래에는 센서 데이터가 가장 중요한 데이터 소스가 될 것이다.
# 투자 포지션에 따른 분류
대체 데이터를 분류하는 또 다른 방법은 바로 사용자가 관심있어할만한 데이터의 속성에 따른 분류이다. 예를 들어, 유통 섹터 포트폴리오 매니저는 그것이 주차장 인공위성 사진이던 고객이 제공한 데이터이던, 회사가 발송한 모바일 영수증이던 상관없이 유통 업체의 매출에 관련된 데이터라면 무조건 관심을 가진다. 또한 고빈도 매매를 수행하는 퀀트 트레이더는 트위터나 뉴스피드와 같이 장중에 빠르게 얻을 수 있는 시그널에 관심을 가지고 있으며, 상대적으로 시간이 오래 걸리는 데이터에는 별로 관심이 없다. 마지막을 데이터 퀀트는 데이터 수집, 이상치와 결측치를 제거하는 방법과 같이 그것들을 처리하는 방식에 따라 분류하는 것을 선호한다.
즉, 같은 투자업계라고 하더라도 각각의 포지션에 따라 그들이 선호하는 데이터의 종류와 방식은 서로 상이하기 마련이다. 따라서 우리는 대체 데이터를 각각 포지션과 관련된 데이터 속성을 기준으로 새롭게 분류해 볼 수 있다. 아래의 그림은 CIO, 포트폴리오 매니저, 트레이더, 퀀트, 데이터 과학자 등 각각의 투자 전문가들이 관심을 가질만한 데이터의 속성에 따라 분류를 해놓은 것이다.
1) 자산군
첫 번째 분류 기준은 바로 자산군(Asset Class)이다. 대부분의 빅데이터들은 여전히 주식이나 원자재와 같이 장내 시장에서 거래되는 상품들에 초점이 맞춰져 있고, 채권, 외환과 관련된 대체 데이터의 양은 상대적으로 적다. 왜냐하면 장외시장에서 거래가 되는 상품들에 대한 대체 데이터가 아직까지는 그렇게 많지 않을 뿐만 아니라 장외시장에 접근하는 것 자체가 그렇게 쉽지만은 않기 때문이다.
2) 투자스타일
두 번째 분류 기준은 투자스타일(Investment Style)이다. 대부분의 데이터는 주식과 섹터 기반이며, 그렇기 때문에 이는 주식 롱숏 투자자들에게 매우 유용한 데이터이다. 물론 소매판매, 중국 경제활동, 물동량 데이터 등과 같이 매크로 기반의 투자자들에게도 도움이 되는 데이터들 또한 상당량 존재한다. 나아가 특정 종류의 대체 데이터는 전통적인 시장 위험 지표를 대체하여 사용되기도 하며, 몇몇 데이터들은 매매 시그널로 변환되어 퀀트 트레이더에게 유용한 정보를 제공하기도 한다.
3) 알파
어쩌면 투자업계에서 가장 중요한 데이터의 속성은 바로 데이터가 가지고 있는 잠재적 알파(Alpha)일 것이다. 이러한 데이터셋의 알파는 데이터를 구매하고 구현하는 전체적인 맥락 안에서 고려되어야 한다. 즉, 데이터의 실질적인 알파를 계산할 때는 반드시 데이터를 구하기 위해 소요되는 비용을 차감해야 한다는 의미이다.
사실 대체 데이터에 대한 비용은 데이터의 종류에 따라 천차만별이다. 일례로, 센티멘트 분석을 위한 데이터는 단지 몇십만 원에서 몇백만 원의 비용밖에 들지 않으나, 대용량의 신용카드 사용 기록과 같은 데이터를 구하기 위해서는 1년에 최소한 몇억 원의 비용이 든다.
대체 데이터에 기반한 트레이딩 전략이 백테스팅 과정을 거치게 되면 우리는 그러한 백테스팅 결과로부터 알파의 크기를 추정해볼 수 있다. 우리는 이를 통해 해당 데이터셋이 충분한 알파를 가지고 있는지, 따라서 그 전략을 단독으로 운용해도 되는지에 대한 판단을 할 수 있다. 하지만 일반적인 경우 대부분의 데이터는 낮은 샤프 비율을 제공하기 때문에 트레이딩 전략이 단독으로 사용되는 경우는 거의 없다. 그럼에도 불구하고 대체 데이터가 가치 있는 이유는 데이터에 의한 여러 가지 시그널들을 통해 포트폴리오 전략을 만들 수 있기 때문이다. 물론 대체 데이터라고 해서 모든 데이터가 알파를 가지고 있는 것은 아니기 때문에 데이터를 사용하는 사람은 항상 이를 염두에 두어야 한다.
알파 이외에도 우리는 여러 데이터셋에 담겨있는 정보들이 서로 독립적인지, 즉 직교성(Orthogonality)을 띠는지 체크해보아야 한다. 왜냐하면 아무리 많은 데이터를 가지고 있다고 해도 모든 데이터가 모두 같은 정보를 제시하고 있다면 많은 데이터를 가지고 있는 것이 무의미하기 때문이다. 더불어 어떤 데이터를 활용해 트레이딩 전략을 수립한다고 할 때 해당 전략의 자금 수용력(Capacity)이 얼마나 되는지 또한 체크해보아야 한다.
4) 데이터의 공개 정도
앞서 언급한 알파는 결국 해당 데이터셋이 얼마나 많은 사람들에게 공개되어 있는가(How Well-Known)와 깊은 관계를 맺고 있다. 사람들이 매우 쉽게 접근할 수 있고 널리 알려진 데이터일수록, 높은 샤프 비율을 가진 전략을 만들 수 있는 가능성은 낮아진다. 예를 들어, PER, PBR과 같이 사람들에게 널리 알려진 정보들은 알파가 크지 않으며, 이를 활용한 전략을 단독으로 운용하기는 쉽지 않다.
대부분의 빅데이터는 기존의 전통적 데이터에 비하면 상대적으로 덜 알려져 있으며, 이러한 데이터셋은 매우 빈번한 속도로 계속해서 새롭게 업데이트된다. 어떤 데이터셋이 얼마나 잘 알려져 있는가를 평가하기 위해서, 투자 매니저는 데이터를 제공하는 업체에게 얼마나 많은 고객들이 해당 데이터 서비스를 이용하고 있는지를 물어볼 수 있다. 또한 만약 초창기 고객이라면 데이터 수집의 범위와 큐레이션에 영향을 미칠 수 있도 있고, 한정판 데이터에 대한 배타적 권리를 요청할 수도 있다. 알파의 크기와 데이터의 공개 정도는 매우 긴밀한 관계를 맺고 있기에, 이처럼 양질의 데이터를 먼저 확보하기 위한 전쟁은 계속될 것이다.
5) 데이터의 처리 정도
다섯 번째 분류 기준은 바로 데이터의 처리 정도(Stage of Processing)이다.
펀더멘털에 기반한 투자자들은 보통 대량의 원자료 데이터보다는 이미 잘 정제가 되어 있는 데이터를 선호한다. 가장 처리가 많이 된 데이터는 바로 우리가 흔히 잘 알고 있는 애널리스트의 리서치 레포트와 그들이 제시하는 트레이딩 아이디어다. 이보다 처리가 덜 되어 있는 데이터로는 트레이딩 모델에 입력 변수로 들어가는 매매 시그널을 들 수 있다.
대부분의 대체 데이터셋은 어느 정도 전처리가 된 형태를 띠는데, 이러한 데이터셋은 주로 CSV, JSON, XML의 형태를 가진다. 그렇지만 이러한 데이터셋에는 여전히 이상치와 결측치가 존재하기도 하며, 따라서 트레이딩 모델에 바로 투입될 수는 없어 사용자가 추가적인 전처리를 수행해 주어야 한다.
마지막으로 전처리가 하나도 되어 있지 않은 원자료가 있는데, 대부분의 투자자들에게 있어 이러한 원자료는 그렇게 효용가치가 높진 않다. 원자료의 대표적인 예가 바로 인공위성이 촬영한 오일탱크의 이미지 파일인데, 이 파일 자체는 이미지 처리와 같은 스킬이 없는 대부분의 투자자에게 단지 사진의 역할만 할 뿐이다. 이를 투자에 사용하기 위해서는 원래 이미지에서 계절 효과나 날씨 효과와 같은 노이즈를 제거해 주는 작업이 필요하며, 저장소의 종류를 식별할 수 있는 고도의 알고리즘 또한 필요하다.
6) 데이터 퀄리티
데이터의 퀄리티(Quality)는 데이터의 중요한 속성 중 하나이며, 이는 특히 데이터를 전문적으로 다루어야 하는 데이터 과학자나 퀀트들에게 더욱더 중요하다.
우선 데이터의 기간이 길면 길수록 데이터의 퀄리티는 높다고 여겨지며, 보통 인공위성 이미지는 3년 이상, 센티멘트 데이터는 5년 이상, 그리고 신용카드 데이터의 경우 7년 이상일 때 충분한 데이터라고 볼 수 있다. 데이터의 결측치와 이상치 또한 매우 널리 알려져 있는 주요 고려사항이다. 만약 데이터의 결측치가 주변 값으로 채워져 있다면, 어떤 방식으로 결측치의 값을 채워 넣었는지에 대한 정보가 반드시 있어야 한다. 또한 결측치가 랜덤하게 비어 있는지 혹은 어떤 패턴을 가지고 비어 있는지에 대한 정보도 필수적이다.
대체 데이터는 대체 데이터의 특성상 비정형화된 형태를 지니고 있다. 또한 시간이 지날수록 데이터 표본을 추출하는 방식도 계속해서 바뀌고 있다. 다시 말해, 아직까지 대체 데이터의 세계에서는 어떤 것도 표준화되어있는 것이 없다는 의미이다. 그렇기 때문에 데이터 제공업체는 이러한 대체 데이터의 특성을 염두에 두고 고객들에게 보다 안정적인 구조의 대체 데이터셋을 제공할 수 있어야 한다.
7) 기타 기술적 측면
마지막으로는 빅데이터와 대체 데이터와 관련한 몇 가지 기술적 측면들에 대한 고려사항들이 있으며, 이들은 간단하게 기술하자면 다음과 같이 정리할 수 있다.
- 데이터 빈도(Frequency) : 장중, 일간, 주간, 월간 등
- 데이터 지연(Latency) : 데이터 제공업체는 보통 배치 형태로 데이터 묶음을 제공하기 때문에, 이 과정에서 데이터 수집, 처리, 그리고 법적인 제약 등에 의해 데이터의 전송 및 처리에 지연 시간이 발생할 수 있다.
- 데이터 형태(Format) : 각각의 데이터는 그에 걸맞은 적합한 포맷을 가져야 한다. CSV나 JSON 같은 형태가 대표적인 예시이다.
- API : API는 안정적이면서 견고해야 한다. 또한 API 때문에 추가적인 지연 시간이 발생해서는 안 되며, 다양한 프로그래밍 언어와 호환이 가능하도록 유연성을 가지고 있어야 한다.
- 이해 상충과 법적 리스크 : 만약 데이터 제공업체가 데이터를 제공하기에 앞서 스스로 데이터를 이용하여 트레이딩을 한다면 이는 심각한 이해 상충의 문제를 발생시킬 수 있다. 또한 대체 데이터의 사용은 언제나 최소한의 법적 리스크를 내재하고 있다. 따라서 대체 데이터를 판매하는 데이터 제공업체와 이를 사용하는 고객들은 항상 이러한 이슈에 대해 숙지를 하고 있어야 한다.
# 새로운 알파를 위한 대체 데이터 그리고 머신러닝
지금까지 우리는 크게 두 가지 방법을 통해 대체 데이터를 분류해보았다. 하나는 데이터가 생성되는 원천에 따른 분류였으며, 다른 하나는 데이터의 사용자가 관심을 가질만한 데이터의 속성에 따른 분류였다. 이 밖에도 다른 분류 방법이 있지만 대체 데이터를 활용한 퀀트 투자의 영역에서는 이러한 분류 기준이 가장 자주 사용되는 관행적 방법론이다.
기존의 전통적인 투자방법만을 사용해서는 이제 금융시장에서 알파를 창출하는 것이 거의 불가능해졌다. 많은 사람들이 기존의 알파에 대해서 인지하고, 또 그것을 얻으려고 할수록 알파는 필연적으로 계속해서 줄어들기 때문이다. 그렇기 때문에 투자자들은 이제 새로운 대안의 알파를 찾고 있으며, 결국 시간이 갈수록 투자업계에서 대체 데이터를 활용한 투자의 비중은 점점 늘어나게 될 것이다. 왜냐하면 대체 데이터야말로 새로운 알파의 원천이기 때문이다.
그렇다면 대체 데이터를 얻은 후에 우리는 어떻게 해야 하는가? 사실 대체 데이터 자체는 빅데이터 시대의 퀀트 투자 프레임워크를 구성하는 반쪽짜리 조각에 불과하다. 결국 그것을 제대로 활용할 줄 알아야 우리는 그 속에서 알파를 찾을 수 있기 때문이다. 나머지 반쪽은 바로 머신러닝이 담당하고 있다. 즉, 머신러닝 기술은 이러한 대체 데이터로부터 우리가 보지 못하는 새로운 패턴을 찾아내 우리에게 알파를 안겨다 주는 채굴 도구인 것이다. 머신러닝이 필요한 이유는 바로 이 때문이다.