brunch

You can make anything
by writing

C.S.Lewis

by 퀀트대디 Sep 23. 2020

금융 머신러닝의 시대


# 빅데이터와 머신러닝 혁명

인터넷과 정보통신 기술의 발달로 인해 이제는 우리 인간이 남기는 모든 기록이 데이터로 측정되어 저장되는 시대가 되었다. 이러한 작금의 상황은 과연 무엇을 시사하는가? 이는 원칙적으로 투자자들이 아주 방대한 양의 시장 관련 데이터들을 실시간으로 얻을 수 있다는 것을 의미한다.


예를 들어, 우리는 이제 아마존에서 팔리는 수백만 가지 상품들의 가격을 실시간으로 얻을 수 있으며, 이로 말미암아 실시간 인플레이션을 추정할 수 있다. 또한 온라인 쇼핑몰에 얼마나 많은 고객들이 방문하는지 트래킹할 수 있으며, 이를 통해 회사들의 매출을 꽤 정확하게 추정할 수 있다. 더불어 인공위성 이미지를 통해 농작물의 작황이나 원유 생산량을 알 수도 있게 되었다. 바야흐로 대체 데이터(Alternative Data)의 시대가 도래한 것이다.


역사적으로 이러한 경제 데이터 - 예를 들어 월간 CPI, 주간 원유 굴착장비 수, USDA 농작물 리포트, 소매판매, 분기 실적 등 - 를 얻기 위해서 우리는 최소 몇 주에서 몇 달을 기다려야 했고, 대부분의 경제지표들은 분기 발표가 대부분이었다. 그만큼 데이터를 얻기 위한 대기 시간이 꽤 길었고 그만큼 데이터 자체의 효용성은 다소 떨어졌었다.


하지만 빅데이터 시대의 도래와 컴퓨팅 파워의 발전 덕분에 이제 실력 있는 퀀트들은 더 이상 전통적인 저빈도 데이터가 필요 없는 상황이 되었다. 이제 퀀트들은 각종 대체 데이터를 실시간으로 수집하여 실시간 경제 지표나 기업 정보를 생산해낼 수 있고, 또한 이를 이용해 투자 의사결정에 즉각적으로 반영할 수 있다.


머신러닝 기법은 이러한 대량의 비정형 데이터를 사용해 데이터 이면에 숨겨 있는 새로운 정보와 패턴들을 발견할 수 있게 만드는 도구이다. 빅데이터 시대가 도래하면서 엄청난 데이터 더미에 숨겨져 있는 보석을 인간의 직관만으로는 발견할 수 없게 되었으나, 머신러닝 기술은 인간의 한계를 뛰어넘어 매우 빠르게 의미 있는 결과물을 생산해 낼 수 있다.


금융산업에서도 이러한 빅데이터와 머신러닝 혁명은 업계의 판도를 바꿔놓고 있으며, 퀀트들은 좀 더 나은 트레이딩 전략, 좀 더 나은 투자전략을 수립하기 위해 보다 적극적으로 빅데이터와 머신러닝을 받아들이고 있다.



# 금융 머신러닝을 위한 두 가지

빅데이터를 활용한 투자를 위해서는 크게 두 가지가 필요하다. 하나는 빅데이터를 수집하는 것이며, 다른 하나는 이렇게 수집된 데이터를 분석하기 위한 적절한 방법론, 즉 머신러닝을 사용하는 것이다.


우선 대체 데이터는 기본적으로 크게 세 가지 경로를 통해 입수된다. 가장 첫 번째는 소셜 미디어, 후기, 검색 기록과 같은 개인들에 의한 데이터이며, 두 번째는 수출입 거래 내역, 신용카드 사용 기록, 원장 기록과 같은 비즈니스 과정으로부터 생성되는 데이터, 그리고 마지막으로 인공위성 이미지, 교통 정보, 사물인터넷 등과 같은 각종 센서에 의한 데이터이다. 대부분의 대체 데이터는 바로 사용될 수 없기에 실제 트레이딩 전략에 사용되기 전 필수적으로 전처리 및 선가공의 과정을 거쳐야만 한다.


빅데이터가 갖추어졌다면 그다음에 필요한 것은 바로 데이터를 분석하기 위한 통계 방법론, 특히 머신러닝 기법이다. 머신러닝 기법은 데이터를 분석하고자 하는 목적에 따라 지도 학습, 비지도 학습, 딥러닝, 강화 학습 등으로 분류되며, 특히 딥러닝과 강화 학습은 데이터 안에 숨겨져 있으나 인간이 발견하기 힘든 비선형적 패턴을 포착하는 데 주로 사용된다. 투자 혹은 트레이딩 성과가 우리가 만들어내야 할 요리라고 한다면, 빅데이터는 요리를 위한 재료이며, 머신러닝 기법은 요리를 위한 레시피이다.



# 빅데이터와 인공지능에 대한 두려움

대부분의 전통적 방식을 고수하는 투자자들에게 있어 이러한 새로운 종류의 데이터는 매우 생소할 뿐만 아니라 종종 그들은 머신러닝 기법을 받아들이는 것에 불편함과 언짢음을 느낀다. 하지만 이러한 빅데이터나 머신러닝에 대한 개념은 사실 그렇게 새로운 방식의 접근법이 아니다. 다소 제한적이긴 하지만 많은 투자자들은 이미 예전부터 대체 데이터와 몇 가지 머신러닝 기법을 사용해 왔다.


가장 대표적인 사례로, 월마트의 창업자인 샘 월튼은 1950년대 이미 비행기를 타고 돌아다니며 주차장의 주차 대수를 카운트하여 부동산 투자를 위한 의사결정에 사용했다. 최근 인공위성 이미지 분석과 같은 케이스는 기술적으로만 발전이 된 것뿐이지 사실 샘 월튼의 아이디어와 결코 크게 다르지 않다.


머신러닝 기법들도 사실은 이미 널리 알려진 통계적 분석 방법론들을 한 단계 더 연장하여 발전시킨 것뿐이다. 지도 학습은 두 데이터셋 간의 관계를 밝혀내고 이를 이용해 한 데이터로부터 다른 데이터의 값을 예측하기 위해 사용된다. 이러한 방법론은 기존의 선형 회귀 모델처럼 매우 단순하다. 이는 시장 국면을 포착하거나 데이터 이상치를 잡아내고, 변수 간의 상관관계를 파악하는 데 사용된다. 비지도 학습은 데이터들이 형성하고 있는 그룹 관계, 즉 구조를 이해하고 그 뒤에 숨어 있는 주요 동인이 무엇인지를 파악하기 위해 쓰이는 기법이다. 이러한 모델은 주성분 분석과 같은 기존에 잘 알려진 통계 분석 방법론과 깊은 연관을 맺고 있다.



# 빅데이터와 머신러닝은 어떻게 투자의 지평을 바꿀 것인가?

빅데이터와 머신러닝이 야기할 업계 내의 변화는 매우 크고 광범위할 것으로 예상된다. 점점 더 많은 투자자들이 새로운 형태의 대체 데이터를 받아들이게 될 것이며, 이에 따라 시장은 지금보다 더 빠르게 반응하고 나아가서는 기존의 전통적 데이터 자체를 예측하려는 시도를 하게 될 것이다. 이러한 변화는 새로운 형태의 데이터와 분석 방법론을 배우고 받아들이려는 퀀트 투자자들에게 보다 나은 우위를 제공하게 될 것이다.


새로운 형태의 산업혁명이 도래함에 따라 기존의 구체제들이 몰락해왔던 역사의 사이클처럼 이러한 변화는 구시대적 데이터를 과거의 유물로 취급하게 될 것이고 빅데이터는 점점 더 정형화된 모습을 갖추게 될 것이다. 또한 투자자들은 고빈도 데이터를 찾기 위한 끊임없는 노력을 하게 될 것이고, 기존의 전통적 데이터를 개량하거나 보강하기 위한 시도를 계속할 것이다.


더불어 머신러닝 기법은 금융업계에서 일반적인 분석 도구로 자리매김해 나가고 있다. 비단 퀀트 투자자들뿐만이 아니라 기존의 펀더멘털 방식의 투자자들에게 있어서도 이러한 머신러닝은 필수적인 스킬셋이 되어가고 있다. 또한 위험 프리미엄, 추세추종, 주식 롱숏과 같은 각종 계량투자전략(QIS; Quantitative Investment Strategies)들은 다른 누구보다 이러한 머신러닝 도구 및 방법론들을 빠르게 받아들이고 있다.


이러한 빅데이터 생태계(Big Data Ecosystem)는 금융업에서 새로운 종류의 비즈니스 모델들을 만들어내고 있다. 그중 하나는 새로운 종류의 비정형 데이터를 수집하고 가공해서 판매하는 데이터 벤더 비즈니스이고, 다른 하나는 이러한 데이터를 분석하여 고객들에게 투자의 방향과 새로운 인사이트를 제공하는 리서치 비즈니스이다. 다른 산업 군들에서도 공통적으로 찾아볼 수 있듯이 이제는 금융업에서도 데이터 자체가 비즈니스를 위한 새로운 연료로써 작용하고 있다. 이제 데이터라는 것이 없이는 어떠한 의사결정도 내릴 수 없는 시대가 되었다. 투자업계 또한 누구보다 먼저 이러한 빅데이터 주도권을 갖기 위해 끊임없이 경주하게 될 것이다.


마지막으로 빅데이터 생태계가 진화할수록 기존의 높은 샤프 비율을 가지고 있던 전략들은 점점 그 알파를 잃어가게 될 것이다. 즉, 이는 이전처럼 단일 전략으로 높은 수익률을 내던 시대는 점점 저물어가고 있음을 시사한다. 많은 투자자들이 모두 빅데이터를 사용하여 의사결정을 하려 한다면, 결국 그 방법론을 통한 알파는 자연스럽게 줄어들기 때문이다. 하지만 그렇다고 해서 빅데이터와 머신러닝이 무용지물이 될 것이라는 의미는 아니다. 여러 가지 전략을 합성하여 안정적이고 견고한 수익모델을 창출하고자 하는 퀀트 포트폴리오의 문맥 상에서 빅데이터와 머신러닝은 여전히 강력한 파워를 자랑하게 될 것이다.



# 빅데이터와 머신러닝의 잠재적 위험

물론 빅데이터 프레임워크로의 대전환이 항상 좋은 결과만을 가져다주는 것은 아니다. 당연히 이 과정에서 우리는 피치 못할 문제와 리스크에 봉착하기도 한다.


예를 들어, 알파가 전혀 존재하지 않는 데이터를 수집할 가능성도 있고, 투자를 위한 자금수용력이 매우 적은 트레이딩 시그널을 입수할 가능성도 있다. 혹은 생각했던 것보다 알파가 빠르게 사라지는 경우도 있으며, 어떤 데이터의 경우는 그것을 구입하는 비용이 천문학적으로 많이 들어 실무적으로 사용이 불가능한 경우도 있다. 또한 큰 돈을 들여 복잡한 모델링을 위한 인프라를 구축해놓았음에도 불구하고 이것이 성과 개선에 전혀 도움이 되지 않을 가능성 또한 존재한다. 즉, 빅데이터 혁명이 모든 문제를 해결할 수는 없으며, 이 또한 이것 자체의 위험과 문제점을 가지고 있다.


따라서, 머신러닝 알고리즘은 인간의 직관과 통찰력을 완벽하게 대체할 수는 없다. 자칫 잘못된 방향으로 빠지게 된다면 머신러닝을 사용한 매우 복잡한 모델은 아주 쉽게 과최적화를 발생시키거나 가성적인 분석 결과를 제시할 가능성이 높기 때문이다. 그렇기 때문에 금융 머신러닝에서 순전히 머신러닝 기법이나 빅데이터 분석에만 몰두하는 것은 어찌 보면 새로운 종류의 비즈니스 위험으로 작용할 수 있다. 왜냐하면 금융시장, 금융상품, 그리고 금융산업에 대한 도메인 지식(Domain Knowledge)이 전무한 데이터 과학자는 실제 투자에 도움이 되지 않는 전혀 엉뚱하거나 혹은 비현실적인 결과물을 제시하게 될 것이기 때문이다. 이것이 바로 금융공학에서 흔히 말하는 이론과 현실의 괴리에 의한 리스크이다.


AI 빅데이터 전문가인 서대호 작가의 저서 「1년 안에 AI 빅데이터 전문가가 되는 법」에서도 저자는 비즈니스 현장의 문제가 무엇인지 정확하게 인지하고 어떻게 비즈니스 문제를 해결한 것인가에 대한 통찰력을 발휘하는 것이 AI 빅데이터 전문가에게 가장 중요한 능력임을 설파한 바 있다.


결국 금융 빅데이터 그리고 금융 머신러닝을 구현해냄에 있어 가장 중요한 것은 아주 복잡한 테크니컬 솔루션을 제시할 수 있는가가 아니라 데이터 그리고 시그널 이면에 있는 경제적 함의를 이해할 수 있는가이다. 많은 빅데이터, 머신러닝, 인공지능 관련 금융 솔루션들이 겉보기에는 번지르르하지만 실제 투자 성과가 좋지 못한 이유는 바로 금융시장이 가지고 있는 비이성성과 그로 인한 비정상성을 심각하게 고려하지 않은 채 기교와 테크닉에만 집중하기 때문이다. 빅데이터와 머신러닝은 결국 문제를 해결하기 위한 도구일 뿐이다. 본질은 금융시장에서 금융적 문제를 해결하고자 하는 것이기에 데이터 과학자는 금융 도메인 지식을 얻는 것을 게을리해서는 안 된다.



# 금융 머신러닝 시대, 인간과 기계의 역할

금융 머신러닝 시대를 맞아 많은 사람들이 궁금해하고 있는 것은 바로 '금융 산업에서 인간 그리고 기계가 앞으로 각각 어떤 역할을 맡게 될 것인가?'일 것이다.


우선, 보다 단기적 시계열로 갈수록 기계는 점점 더 큰 비중을 차지할 가능성이 높다. 이미 고빈도 마켓메이킹의 영역에서는 사람이 맡고 있는 역할은 거의 없는 상황이다. 또한 기계는 중기적 관점의 투자에서도 그 영향력을 점차 넓히고 있다. 기계는 매우 빠르게 뉴스 기사와 트위터를 분석하고, 재무제표를 처리하며, 웹사이트를 스크래핑하고 즉각적으로 이를 반영해 매매를 수행할 수 있기 때문이다.


하지만 장기적 투자로 넘어가면 상황은 다소 다른 양상을 보인다. 장기적 관점의 투자를 집행하는 데 있어 인간 투자자들은 여전히 그 우위를 점할 것으로 예상되는데, 그 이유는 여전히 인공지능이 시장의 국면 변화를 파악하는 데 있어 그리 좋지 못한 성과를 보이기 때문이며, 정치가나 중앙은행 인사들의 발언에 의한 시장 참여자들의 반응을 제대로 예측하지 못하기 때문이다.


결국 금융 머신러닝 시대의 도래가 인간 트레이더 혹은 인간 투자자를 전부 멸종시키지는 못할 것이다. 오히려 인간과 기계는 금융 문제를 해결하기 위한 협업을 모색할 가능성이 높다. 노구치 류지의 저서 「AI 시대, 문과생은 이렇게 일합니다」에서도 저자는 트레이딩, 투자와 같은 예측 분석의 업무 영역에서는 사람의 능력을 인공지능이 증강시켜주는 방향의 O자형 분업 스타일로 금융산업 구조가 발전해 갈 것임을 제시한 바 있다.


결론적으로 좋든 싫든 간에 빅데이터와 머신러닝 그리고 인공지능은 향후 투자 지평의 새로운 세계를 열게 될 것임은 자명한 사실이 되었다. 애널리스트와 펀드매니저, 트레이더와 리스크 매니저 그리고 CIO에 이르기까지 금융권에 종사하는 모든 사람들은 이제 빅데이터 그리고 머신러닝 방식을 활용한 투자에 익숙해져야만 한다. 이러한 시류는 불가역적이며 펀더멘털 투자자와 퀀트 투자자 모두에게 적용되며, 모든 자산군에 동일하게 적용이 될 것이다.




브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari