# 다시 부상하는 머신러닝 기술
1990년대 인공신경망이라는 개념의 출현은 이를 금융시장에 적용할 수 있을 것이라는 생각에 관한 연구들을 쏟아내었고, 이러한 행보는 이것이 금융시장 예측을 매우 잘할 수 있을 것이라는 사뭇 과장된 주장을 동반했다. 하지만, 안타깝게도 대부분의 연구들은 그들이 기대하는 것보다 수준 이하의 결과를 보여주었다. 이에 따라 이러한 주제들의 연구들은 더 이상 세상의 빛을 보지 못한 채, 부상당해 벤치에만 앉아있는 운동선수들마냥 후선으로 계속해서 밀려났다.
하지만 랜덤 포레스트, 서포트 벡터 머신, KNN 분류 같은 새로운 형태의 머신러닝 기법들 및 컴퓨팅 파워의 발전은 다시금 이러한 비선형 모델링을 통해 금융시장을 예측하려는 시도들의 부활을 야기했고, 꽤 많은 연구결과들이 금융시장 예측에서 머신러닝 기술의 잠재성이 있다는 주장을 하고 있다. 하지만 이러한 주장도 결국 하나의 가설일 뿐 이것이 진짜인지 아닌지는 여전히 결판나지 않은 상태이다.
# 백만 개의 모델로 테스트를 하다
이러한 배경 하에서 알고리즘 기반의 헤지펀드인 Systematic Strategies LLC의 CEO 조나단 킨레이(Jonathan Kinlay)와 그의 동료 댄 리코(Dan Rico)는 최근 실제로 이러한 머신러닝 기술이 시장에 대한 예측력을 가지고 있는지 확인하기 위한 한 편의 논문을 발표했다. 이 논문의 제목은 「Can machine learning techniques be used to predict market direction? - The 1,000,000 model test」로 그들은 논문의 제목처럼 정말 백만 가지 모델을 전부 테스팅하여 실제로 이 모델들이 시장의 방향을 예측할 수 있는지를 검증했다. 그들은 기존 연구에서 제시한 기본적인 머신러닝 모델들뿐만 아니라 이 모델들의 앙상블 모델, 즉 모델들을 적절히 블렌딩한 새로운 모델들까지도 테스트하여 비선형적 테크닉을 사용하고 있는 가능한 한 모든 경우의 수를 고려하기 위해 고심하였다. 과연 머신러닝 기술은 주식시장의 방향성을 예측할 수 있을까?
그들의 실험 결과는 매우 실망스러웠다. 그들은 그들이 사용한 전체 모델들 중 어떤 한 가지 모델도 유의미한 예측력을 보여주지 못했다고 밝혔다. 물론 머신러닝 모델이 예측을 하기 위해 학습을 했던 표본 내 데이터를 그대로 사용한다면 당연히 백테스팅 성과는 떼돈을 벌 수 있다고 나온다. 아래의 그림은 표본 내 데이터를 사용하여 백테스팅을 돌린 결과이다. 한마디로 말도 안 되는 결과가 나온다. 전형적인 과최적화이다.
연간 평균 수익률이 120%에다가 손실 구간은 거의 찾을 수 없고, 승률은 78%에 정보비율이 7.8에 달한다. 한 마디로 이런 전략이 있다면 우리는 여기에 있는 돈 없는 돈, 은행 대출, 담보 대출, 신용 대출 모두 영끌해서 풀베팅 가즈아를 외쳐야 한다. 이런 전략이 있다면 부동산 따위는 거들떠도 안 봐도 된다.
하지만 실제 트레이딩 결과는 어떨까? 위의 데이터로 학습을 끝낸 이 머신러닝 모델로 실제 시장에서 트레이딩을 시켜본다고 하면 결과는 우리가 예상한 것과는 판이해진다. 아래는 표본 외 데이터를 사용해서 백테스팅을 한 결과이다.
연평균 수익률은 9%로 감소하고, 심각한 MDD가 발생한다. 또한 승률은 51.5%, 정보비율은 0.52로 급감한다.
# 머신러닝과 금융 시계열 데이터
우리는 이미 일상생활에서 머신러닝, 딥러닝 기술의 파워를 매일매일 실감하고 있다. 매일 사용하는 구글, 네이버, 유튜브에서부터 수많은 온라인 쇼핑몰에 이르기까지 이제는 머신러닝 기술이 사용되지 않은 곳이 없을 정도로, 머신러닝과 딥러닝은 현재 우리 삶의 꽤 깊숙한 곳까지 관여를 하고 있다. 이미 이런 분야에서 머신러닝, 딥러닝 기술의 예측력, 즉 정답률은 7,80%를 가볍게 뛰어넘어 90% 그 이상을 아주 쉽게 넘보고 있는 상황이다.
그럼에도 불구하고 금융시장에서만 유독 힘을 못 쓰고 있는 이유는 무엇일까? 여러 가지 이유가 있지만 그중에서도 가장 큰 이유를 들자면 바로 금융데이터의 독특한 성질 때문이다. 기본적으로 금융데이터는 시계열 데이터가 주류를 이룬다. 시계열 데이터는 시계열이라는 것이 의미하는 것처럼 순서가 중요하다. 온라인 쇼핑몰의 매출내역처럼 순서 없이 분석할 수 있는 성질의 것이 아니다. 또한 시계열 데이터는 역사적으로 한 번만 존재한다. 따라서 시계열 데이터는 데이터의 개수에 한정이 있을 뿐 아니라 순서가 꼬이면 안 된다. 그리고 금융 시계열 데이터는 정상성을 만족하지 않을뿐더러 시장의 집단 심리에 의해 그 통계적 성질이 계속해서 바뀐다. 한마디로 데이터가 가지고 있는 패턴이 계속해서 바뀔뿐더러 그것이 언제 바뀔지 어떻게 바뀔지 알 수가 없는 것이다. 이건 마치 수십만 장의 강아지 사진을 학습한 머신러닝 모델이 갑자기 눈이 세 개고 다리가 8개 달린 강아지 사진을 만난 상황이다. 새로운 패턴을 맞닥뜨린 모델은 학습한 적이 없는 패턴이기 때문에 머신러닝 모델은 이게 대체 무엇인지 판단할 수 없다. 올해 여러 퀀트 펀드들이 손실을 경험한 이유도 이와 무관하지 않다.
# 그럼에도 불구하고
그렇다고 머신러닝, 딥러닝 기술이 금융권에서는 쓸모가 없으니 쓰지 말아야 한다고 말할 수 있을까? 그건 절대 아닐 것이다. 오히려 퀀트 투자가 저변을 넓혀갈수록 반대로 금융권에서는 딥러닝, 머신러닝 기술에 대한 학습 및 투자를 계속해나갈 것이라고 예상할 수 있다.
왜 그럴까? 우선은 대체 데이터의 부상, 그리고 이에 따른 빅데이터 인프라의 구축을 들 수 있다. 투자 업계는 시간이 갈수록 점점 더 새로운 형태의 데이터를 분석에 사용하고 있으며, 그러한 데이터의 종류는 기존의 수치 데이터에서 벗어나 텍스트 데이터, 음성 데이터, 이미지 데이터로 확장되고 있다. 이처럼 새로운 형태의 데이터를 가공하고 처리하는 데는 머신러닝 기술만 한 것이 없다. 또한 이러한 대체 데이터는 기본적으로 그 양이 매우 방대하다. 그렇기 때문에 이는 자연스럽게 빅데이터 인프라의 구축으로 연결되는데, 머신러닝의 에지는 바로 이 빅데이터를 통해 발현된다.
머신러닝 기술이 금융권에서 계속 사용될 수밖에 없는 또 다른 주요 원인은 바로 퀀트 투자, 즉 계량적 방법론이라는 본질 때문이다. 이제 스마트한 투자자들은 전통적인 분석방법에서 탈피하여 보다 계량적이고 측정 가능한 투자 기법들과 방법론들을 적극적으로 받아들이고 있다. 이미 인간이 비합리적인 존재라는 것을 주장하고 있는 행동경제학의 논리를 이해했기 때문이다. 퀀트 펀드가 손실을 경험할 수는 있어도 합리적이고 객관적인 방법을 사용한다는 점은 의심의 여지가 없다. 이는 결국 수익이나 손실이 났으면 대체 왜 그랬는지 데이터로 설명할 수 있다는 의미이다. 또한 퀀트들은 계량적인 방법이라면 무엇이든 그것을 그들의 도구상자 안에 보관해둘 것이고, 그 도구의 장점과 단점, 어떨 때 써야 하는지 그리고 어떨 때는 쓰지 말아야 하는지를 계속해서 분석할 것이다. 결국 머신러닝도 퀀트의 주요 도구로 자리매김하게 될 것이다.