AI 자산운용 보고서 (3)

AI 드리븐 자산운용 시스템

Jun 22. 2020

자동화된 퀀트리서치

퀀트 헤지펀드의 보수가 비싼 이유는 앞서 본 것처럼 알파를 찾는 과정에서 몸값이 높은 고급인력이 엄청나게 투입되어야 하기 때문이다. 퀀트펀드에 입사한 아이비리그를 졸업한 수재들은 데이터를 정리하고, 전처리하고, 가능성 있는 여러 아이디어를 백테스팅함으로써 초과수익전략을 찾아낸다. "공시가 나온 이후 모멘텀 전략이 잘 먹히는 듯 하다"라는 아이디어가 생겼다면, 수재들은 여러가지 버전의 백테스팅 및 포워드테스팅을 통해 알파를 찾아낼 것이다. 어떤 유니버스에 대해 더 잘 작동하는지 / 어떤 공시에 대해 더 잘 작동하는지 / 어떤 measure를 기반으로 한 모멘텀 전략이 더 잘 작동하는지 / 공시 후 얼마동안 더 잘 작동하는지 / ... 해볼 것은 너무 많고, 대부분은 무위로 돌아가며 엄청난 시간을 소모하게 된다.

1) 특정 목표에 대한 포트폴리오 초과수익전략을 연구하는 속도를 높일 수 있다면,

2) 더 나아가 몸값 비싼 퀀트리서처들을 갈아넣지 않고도 자동으로 포트폴리오 운용전략을 추출할 수 있게 된다면,

THEN

알파를 액티브인덱스 ETF의 형태로 지금보다 많은 투자자들에게 저비용으로 제공하는 것이 가능해질 것이고, 엄청난 규모로 빠르게 성장하고 있는 액티브인덱스 시장에서 매우 유리한 고지를 점하게 될 것이다.

이 혁신이 가능한지를 따져보기 위해서는 문제를 보다 명확하게 정의하는 것이 필요할 것 같다.

자동 운용전략 추출의 문제와 AI

f(X,U) = P

X: 데이터집합 U: 투자유니버스 P: 성과

포트폴리오 운용전략을 찾는 것은 투자유니버스(U)와 인풋데이터(X)에 대하여 향후 성과가 좋을 것으로 예상되는 함수 f 를 찾는 것과 같다. 예를 들어, S&P500 지수의 투자유니버스는 [미국대형주]/ 인풋데이터X는 [시가총액] / 함수f는 [시가총액 비율대로 투자/ 분기마다 리밸런싱] 이다.

퀀트들이 하는 일은 위의 구조에서 간단히 정의하면 좋은 퍼포먼스를 가져올 것으로 예상되는 / 투자유니버스 U와 데이터 X를 인풋으로 하는 / 적절한 함수 f를 찾아내는 것이다.

예전에는 데이터 X의 후보로 모든 개별주식 가격데이터, 좀 더 나아가면 각 주식들의 재무데이터와 금리, 환율, 지수, 경제지표 등의 매크로데이터 정도만 고려하면 충분했다. (지금도 대부분의 퀀트는 이 세종류의 데이터만을 사용한다) 예를 들어, 전체 주식 중 PBR이 낮은 하위 10%의 주식을 매수하고 매년 리밸런싱한다는 함수는 인풋데이터로 주가와 순자산가치만 있으면 된다.

그러나 이러한 단순한 함수는 전략C와 마찬가지로 더이상 좋은 성과가 나지않는다. 이미 너무나도 많은 투자자들이 사용하고 있기 때문이다. 제로썸의 시장에서 남보다 먼저 발견하고, 남들도 같이 발견하기 쉽지 않은 투자전략 f를 찾아야 꾸준한 초과수익을 얻을 수 있다.

좀더 세분화하면,

[데이터 차별화] 남들이 잘 보지않는 데이터 X를 파라메터로 쓰는 경우

[투자유니버스 차별화] 투자유니버스가 동적으로 정의되는 등 복잡한 경우

[함수 차별화] f 자체가 복잡하거나 비선형 관계를 나타내고 있는 경우

에는 다른 리서처들이 상당기간 발견하기 어려울 것이다.

1. 데이터 차별화

데이터를 차별화하려는 시도는 듣기에는 팬시하지만, 의외로 성공사례가 거의 없다. 아무리 차별화된 데이터라도 실제 포트폴리오의 움직임과 무관한 데이터는 소용이 없고, 알파소스를 풍부하게 포함하면서 프라이빗한 데이터는 생각보다 잘 없기 때문이다. 다음의 사례들이 대표적이다.

대형 퀀트펀드 시타델은 자체 인공위성을 통해 빙하의 크기 등을 측정하고, 이를 통해 천연가스 선물 트레이딩(기온에 민감하다)에 활용하려는 계획을 세우고 실제 인공위성을 쏘아올렸으나, 성과미비로 결국 프로젝트를 폐기하고 위성을 모두 매각했다.

월마트 주차장의 주차대수를 위성으로 측정한 데이터를 트레이딩에 사용하려는 시도는 결국 실패했다.

뉴스를 자연어처리하여 종목별 센티멘트(투자자들의 기분)를 계산하고, 이를 통해 트레이딩을 했던 헤지펀드는 성과미비로 전략을 변경한다고 발표했다.

트위터 멘션 데이터를 트레이딩에 이용하려는 목적으로 만들어진 교수팀의 헤지펀드는 언론의 주목을 받으며 화려하게 오픈하였으나 성과미비로 조용히 문을 닫았다.

물론, 위의 사례들을 일반화할 수는 없다. 분명히 숨겨진 좋은 데이터를 사용하면 우위를 가지게 될 것이다. 그러나, 현재까지의 결과들을 보면 비공개 데이터를 통해 우위를 가져가려는 시도보다는 공개데이터에서 보다 좋은 전략을 찾아내려는 시도가 더 성공적이었음은 분명한 것 같다.

그 이유는 1) 비정형 데이터 중 상당수는 주가에 후행하고, 2) 데이터 샘플이 충분하지 못하거나 과거 데이터에 대한 충분한 백테스팅이 어려워서 오버피팅의 가능성이 높고, 무엇보다 3) 프라이빗 데이터에 존재하는 알파가 실제로는 별로 크지 않기 때문이 아닌가 추측된다.

어마어마한 양의 구글검색데이터를 접하면, 언뜻 느끼기에는 트레이딩에 도움이 될 엄청난 정보가 숨겨져있을 것 같지만, 실제 알파의 크기로 보면 가격데이터보다도 훨씬 적은 양의 정보만 존재하고 있는 것이 현실이다.

2. 함수 차별화 / 투자유니버스 차별화

주어진 데이터에 대해서, 남들이 미처 보지 못한 복잡한 패턴을 인지해서 이용할 수 있다면 초과수익을 얻을 가능성이 높아진다. 문제는, 사람의 뇌 구조가 비선형 패턴을 인지하는데 상당히 약한 모습을 보인다는 것이다.

저 PBR 주식에 투자하면 향후 주가가 오를 확률이 높다거나, 많이 오른 주식에 투자하거나 많이 내린 주식에 투자하면 향후 주가가 오를 확률이 높다는 식의 선형 패턴은 인간의 인식구조에 친화적이다. 그러나 예를 들어, 주가가 다음의 식을 상당한 확률로 따른다고 하더라도(아래의 식은 그냥 랜덤이다), 노이즈가 좀 끼어있다면 인간의 인식력으로 찾아내기는 쉽지 않을 것이다.

아무렇게나 만들어본 비선형 관계식

저렇게 복잡한 식이 아니더라도 기업의 사이즈에 따라 PBR 의 예측력이 달라지는 현상도 매우 간단한 비선형 패턴이고 잘 동작하는 알파의 원천이지만 찾아내기가 쉽지 않다. 연간 40% 이상의 수익률을 1985년~2005년까지 20년간 기록한 조엘 그린블라트의 단순한 마법공식도, 쉽게 발견되지 않았다는 것을 생각해보자. (마법공식도 전략C와 마찬가지로 1980년대 컴퓨터 기술의 도입과 더불어 백테스팅이 쉬워지면서 그린블라트에 의해 발견될 수 있었다)

즉, 함수 차별화를 위해서는 비선형 패턴을 쉽게 발견할 수 있는 도구가 필요하다. 전략C의 발견을 위해서 정리된 데이터와 컴퓨터가 필요했던 것처럼.

투자유니버스 차별화도 마찬가지이다. 크래프트테크놀로지스(필자가 몸담고 있는 회사이다)는 미국대형주의 개별종목이 공시이후 1~2개월간 모멘텀투자/가치투자 등의 팩터투자가 매우 잘 동작한다는 연구결과를 발표했다. 이 결과를 사람이 쉽게(더 나아가서는 자동으로) 찾아내기 위해서는, 미국대형주 개별종목에 대해 공시 이후 1~2개월간 특정 패턴이 어떻게 되는가를 쉽게 백테스팅할 수 있는 도구가 필요하다. 물론, 이 도구가 없이도 이론적으로 복잡한 코딩을 거쳐 해당 전략을 백테스팅할 수는 있다.

그러나, 찾을 수 있는 것과 찾는 것은 다르고, 이미 찾아낸 것을 듣고 백테스팅하는 것과 아무것도 없이 처음 찾아내는 것은 완전히 다르다. 사람들이 간단한 전략C를 (그 이전에도 충분히 할 수 있었지만) 데이터와 컴퓨터없이 쉽게 눈치채지 못했던 것처럼, 다이나믹한 투자유니버스(이 전략의 경우, 미국 대형주 중 공시가 나온지 얼마 안된 종목 유니버스)를 쉽게 다룰 수 있는 도구가 없다면 저런 투자전략은 찾을 수 없다.

즉, 투자유니버스를 더이상 고정된 상수로 다루지않고 다이나믹한 함수로 다룰 수 있는 도구가 있었기 때문에 다이나믹 투자유니버스에 대한 전략을 발견할 수 있었던 것이다.

그리고, 잘 설계된 딥러닝 모델은 이러한 비선형 관계 및 다이나믹 투자유니버스를 포함한 함수 f를 찾아내는 데 최고의 성능을 발휘한다.

3. 차원의 문제

백테스팅해볼 함수의 조합은 엄청나게 많다. 퀀트 리서처들이 사용할 수 있는 데이터 항목은 수천개가 넘으며, 투자유니버스의 자유도까지 생각하면 각 데이터 항목과 투자유니버스를 가지고 만들 수 있는 함수의 조합은 사실상 무한대이다. 바둑게임과 같은 상황이다. 모든 수를 다 테스트하여 함수(전략)을 발견하는 brute force 방식은 불가능하다.

경험많은 퀀트 리서처는 프로 바둑기사와 같이 모든 수를 굳이 둬보지 않더라도 어떤 데이터가 주가에 의미가 있을 것인지에 대한 리즈닝(인과관계 파악)과 유력한 함수의 형태를 직관적으로 파악함으로써 경우의 수를 좁히고 우수한 투자전략의 발견확률을 높인다. 경험많은 퀀트 리서처 없이 좋은 전략을 자동으로 추출하려면, 방대한 서치스페이스를 좁혀야 한다. 알파고는 딥러닝 기술을 포함한 몇가지 테크닉을 적용하여 이 문제를 해결하고, 인간의 능력을 초월하게 되었다.

딥러닝 기술은 알파고에서 보여준 것처럼 엄청난 차원의 스페이스에서 적절한 함수(투자전략)을 찾아내는 문제를 해결할 수 있다.

4. 오버피팅의 문제

오버피팅의 문제는 운용전략의 질을 담보하기 위해 반드시 해결해야하는 문제이다. 주어진 데이터를 전부 사용해서 모델을 피팅하는 것은 위험하다. 백테스팅 결과는 너무 좋게 나오겠지만 아웃오브샘플 테스트, 즉 실전에서는 절대 그런 성과가 나오지 않기 때문이다. 특히, 금융시장 데이터의 경우 시계열의 크기가 짧고 시장의 특성이 워낙 자주 바뀌므로 오버피팅의 문제에 대응하는 것이 쉽지 않다.

인간 리서처는 과거 데이터셋 전체에 잘 맞는 모델을 찾는 것도 많은 시간이 걸리기 때문에 과최적화를 감수하고 전체 데이터셋을 사용해서 모델을 만들고 리즈닝(전략의 합리성을 따져봄)을 통해 과최적화 확률을 줄이는 경우도 많다.

딥러닝을 적용하여 함수 f 를 자동으로 찾는 시스템을 구축한다면, 특정 시점의 예측(inference)에 그 시점 이전의 데이터만 사용하여 학습하도록 할 수 있다. 이는 과최적화 확률을 크게 감소시킨다.

5. 녹슨 전략의 문제

퀀트 리서치 방식으로 열심히 만들어놓은 전략은 기본적으로 정적인 투자전략이다. 즉, 매일매일 들어오는 새로운 데이터가 전략에 반영되지 않는다. 시간이 지나 전략이 시장과 괴리되어 잘 맞지 않게되면, 폐기하거나 새로운 데이터를 통해 전략을 유지보수해야만 하는 것이다. 그러나, 딥러닝 모델의 형태로 만들어진 투자전략은 매일매일 새로운 데이터를 피딩받아 학습하고, 신경망의 가중치가 약간씩 변하는 형태로 시장을 따라가게 되어 투자전략의 수명이 훨씬 길다. (물론 딥러닝 모델도 새로운 데이터 등이 입수되는 경우, 데이터 엔지니어와 AI 엔지니어가 모델 엔지니어링을 새로 해야하는 경우도 있다.)

AI 자산운용 보고서 (4)

AI 자산운용 보고서 (5)

keyword

작가의 이전글AI 자산운용 보고서 (2)AI 자산운용 보고서 (4)작가의 다음글