AI 가 노벨경제학상을 탈 수 있을까?

AI를 통한 자동 팩터 탐색

Nov 26. 2020

2013 노벨경제학상

스웨덴 왕립과학원은 '자산가격에 대한 경험적 분석' 등에 대한 공로로 유진파마 (Eugene Fama) 시카고대 교수 와 로버트 실러 (Robert Shiller) 예일대 교수 등을 2013년 노벨경제학상 수상자로 선정했다. 유진파마 교수는 시장의 비효율성을 활용하여 초과수익을 올리는 것은 불가능하다는 효율적 시장가설을 정립하였으며, 파마 프렌치 팩터 모델 등을 발표한 유명한 재무학자이다. 재미있는 것은 유진파마 교수는 효율적 시장가설을, 로버트실러 교수는 시장은 비이성적이라는 주장을 펼치는 학자인데, 노벨상 위원회는 전혀 다른 뷰로 경제학에 많은 공헌을 한 두 명을 2013 노벨경제학상 공동수상자로 결정했다는 점이 재미있다.

경제학에서 말하는 팩터 또는 시장 이상현상(market anomaly)은 시장 대비 초과성과를 보이는 기업이 공통적으로 갖는 특성을 의미한다. 이러한 특성을 발견할 수 있다면, 초과수익을 올릴 수 있기 때문에 학계 및 자산운용업계에서는 이에 대해 많은 연구가 이루어지고 있다. (다만, 효율적 시장가설 하에서 이러한 팩터들은 리스크 요인이 캡쳐되는 것으로 해석되고, 팩터는 alpha 가 아닌 exotic beta 로 본다. 즉, 초과수익이 나는 것처럼 보이지만 숨겨진 리스크 요인이 있는 것이므로 진정한 초과수익은 올릴 수 없다고 보는 개념이다.)

주가수익률의 시계열-횡단면 변동과 관련된 특성에 관한 연구의 시초는 샤프지수로 유명한 Sharpe(1964)가 제안한 CAPM 모델이다. 이후 재무학자들은 size factor(소형주가 초과수익), value factor(시장가격 대비 장부가치가 높은 주식이 초과수익), momentum factor(상승추세인 주식이 초과수익), quality factor(재무건전성을 가진 주식이 초과수익) 등을 발견하였고, 지금도 많은 연구를 통해 자산가격모형을 업데이트 하고 있다. 이러한 팩터들이 시장의 비효율성이 캡쳐되는 것인지 아니면, 효율적 시장 하에서의 아직 발견되지 않은 리스크 요인들이 캡쳐되는 것인지는 여전히 논란이 많지만 이러한 자산가격모형에 대한 연구는 재무 분야에서 가장 활발한 연구가 진행되고 있는 주제 중 하나이다.

팩터의 연구는 결국 주가데이터를 통한 검증이 필수적이다. 주가를 움직이는 요인에 대한 그럴듯한 가설과 이론을 만들어도, 그 결과가 실제 주가데이터와 정합하지 않는다면 의미가 없다. 2013년 노벨경제학상 선정이유가 자산가격에 대한 "경험적(귀납적)" 분석인 것은 그 때문이다.

재무학자들이 팩터를 연구할 때 하는 일은 무엇일까? 가장 쉽게 생각해볼 수 있는 방법은 데이터 입수가 가능한 모든 요인들을 다 백테스팅 해보는 것이다. 주가를 설명할 수 있는 요인을 구성하는 데이터는 S&P Compustat database 에서 12개월 수익률, 6개월 수익률, 3개월 수익률 등의 가격 관련 데이터 및 시가총액, 기업가치, ROE, 자본, 자산, 영업권, 워킹캐피탈, ... 등의 펀더멘탈 데이터 등 약 2000가지 이상의 항목을 피딩받을 수 있다. 안타깝게도 이 수천개의 데이터 항목 중에 유효한 팩터가 있는지는 이미 재무학자들이 대부분 연구해보았고, 이 중에 초과수익을 꾸준히 가져오는 기업사이즈 데이터 항목 등은 이미 size factor 로 연구되어 있다.

단일 데이터 항목으로 팩터찾기가 불가능하다면, 이러한 데이터를 조합한 함수를 백테스팅하는 것이 다음 수순일 것이다. 역시 노벨상 업적으로 들어가 있는 "장부가치/시장가치" 같은 밸류 팩터가 그 좋은 예이다. 문제는 이제부터 백테스트 해야할 경우의 수가 급격히 증가하기 시작한다. 밸류팩터와 같이 [data1][연산자][data2] 형태로 되어있는 함수의 경우의 수는 연산자의 수를 10개로만 제한하고 데이터 후보를 2000개로 제한하더라도, 2000*10*2000 = 총 4000만개의 경우의 수가 나온다. 함수의 모양이 여기서 조금만 복잡해져도 경우의 수는 바로 경 단위 숫자를 훌쩍 뛰어넘게 된다. 현존하는 가장 강력한 슈퍼컴퓨터를 사용해도 연산이 불가능한 스케일이다. 결국, 재무학자들은 본인들의 직관과 경험을 통한 가설 및 topdown 이론을 세우고, 이 가설이 과거 데이터에 정합하기를 바라면서 백테스팅을 반복할 수 밖에 없다.

우리는 이런 상황을 바둑 게임에서도 똑같이 경험한 적이 있다. 바둑에서 가능한 수의 조합 역시 우주적인 스케일이고, 이때문에 그동안 어떠한 슈퍼컴퓨터도 brute force 방식으로 인간을 이길 수 없었다. 그러나, 딥러닝 강화학습 기술의 등장으로 확률높은 수 후보들의 개수를 극적으로 줄일 수 있었고, 그 결과 이제는 바둑에서는 더이상 인간이 AI를 이길 수 없다. 그렇다면 혹시 팩터탐색의 문제에서도 비슷한 일이 일어날 가능성이 있지 않을까?

크래프트 팩터팩토리

필자가 몸담고 있는 AI 자산운용 스타트업인 크래프트테크놀로지스에서는 팩터를 트리방식으로 표현하고, (가능한 팩터트리 경우의 수를 모두 테스트해보는 것이 아니라) 유효한 팩터가 될 확률이 높은 팩터트리를 찾는 딥러닝 강화학습 모델을 개발하여 팩터팩토리라는 이름을 붙여서 사용하고 있다.

Expression Tree

위 그림은 트리구조로 함수를 표현한 것으로 (a+b)*c+7 을 의미한다. a, b, c, 가 있는 자리에 ROE, 자산, 시가총액, 영업권, 부채, 주가수익률, ... 등 수천개의 금융 데이터 변수가 들어갈 수 있다. 연산자 자리에는 더하기, 빼기, power, z-normalize 등 수십개의 연산자가 들어갈 수 있다. 위 그림과 같은 형태의 경우 데이터후보를 2000개, 연산자 후보를 10개로만 제한해도, 연산자 3개 변수 4개의 조합으로 총 1경 6천조개의 경우의 수가 존재하고, 이를 모두 탐색하는 것은 물리적으로 불가능하다.

이러한 팩터트리 탐색문제의 효과적인 해결을 위해서는

1) 어떤 팩터트리를 인풋으로 던졌을때, 정확하고 빠르게 백테스팅 결과를 알 수 있는 데이터 플랫폼과

2) 어떤 기준으로 팩터의 유효성을 판정할지 (+오버피팅 최소화)

3) 방대한 경우의 수에서 유효한 팩터의 후보를 효과적으로 좁혀줄 수 있는 DRL 모델

에 대한 연구가 필요하다. 크래프트는 이를 구현하고 고도화하기 위해 다년간 연구를 진행 중이고, 1)의 연구의 결과는 데이터벤더가 보내주는 데이터를 실시간 병렬연산을 통해 데이터의 바이어스 및 상호 의존성을 전처리해서 제거해주고 통합해주는 KIRIN Data Platform 이 되었고, 2) 와 3)은 Factor Factory가 되었다. 그리고 이 기술은 NYSE 에 상장된 크래프트의 AI ETF 운용에 적용되어 좋은 성과를 보여주고 있다.

참조
https://brunch.co.kr/@qraft/7 크래프트 AI 자산운용에 대한 좀더 자세한 내용
https://bit.ly/2V1gpHg 크래프트 팩터팩토리 기술에 대한 좀더 자세한 내용
https://bit.ly/364cOyK 크래프트 팩터팩토리 실험 리포트 (본 아티클의 원문)

팩터팩토리는 상당히 긍정적이고 재미있는 결과를 보여준다.

Decreasing Alpha

팩터포트폴리오의 구간별 알파 분포

먼저 팩터팩토리 AI 에 의해 자동으로 탐색된 1851개의 팩터의 초과수익률(알파)의 분포를 보면, period1(1990-1999), period2(2000-2009), period3(2010-2019) 로 기간을 나누었을때 최근으로 올수록 알파의 크기는 줄어들고 있다. 또 분산은 작아지고 첨도는 커지고 있어서, 예전같이 슈퍼알파 몇개에 의존하는 액티브운용이 왜 점점 어려워지고 있는지와 퀀트 헤지펀드들이 왜 많은 리서처를 통해 최대한 많은 초과수익전략을 찾고 이를 조합하여 투자할 수 밖에 없는지를 잘 보여준다.

Robustness of Alpha

학습-테스트 구간에서의 알파

X축은 학습데이터에서 발생한 알파의 크기이고, Y축은 학습과정에서 AI 가 보지 못한 테스트셋데이터(Out of sample data)에서 발생한 알파의 크기이다. 과거 성과가 좋았던 전략이 미래에도 좋은가 / 학습과정에서 오버피팅의 문제가 얼마나 심한가를 가늠해볼 수 있는 데이터이다. 오버피팅을 완전히 피할 수는 없기 때문에 파란색 분포 쪽으로 치우쳐 있는 것을 볼 수 있으나 (빨간 점은 학습과정에서 나타난 알파보다 실제에서 알파가 더 좋았던 경우를 의미한다.) 학습기간에 성과가 좋았던 팩터가 테스트 구간에서도 성과가 좋았음이 뚜렷하게 관찰된다. 즉, 팩터팩토리에서 좋다고 뽑힌 팩터들이 향후에도 성과가 좋을 가능성이 높다는 것이다.

팩터 포트폴리오의 성과

이러한 팩터를 사용하여 롱숏 포트폴리오를 구성할 경우 위와 같이 꾸준히 좋은 성과를 보여준다. (2015년 이후는 Out of Sample 테스트)

재무논문의 재현

재미있는 사실은, 기존에 논문들로 발표된 팩터들도 상당수가 팩터팩토리에서 재발견된다는 것이다. 재무학자들이나 팩터팩토리 AI 나 모두 같은 데이터를 사용하기 때문에 사실 이는 당연한 결과이다. 알파고 제로도 인간은 배워서 알고 있는 바둑의 정석들을 아무런 가이드 없이 강화학습만으로 재발견한다.

팩터팩토리를 1시간 정도 학습시키면 (크래프트 GPU 서버 환경 기준) 다음과 같은 재무학 역사적으로 유명한 팩터들이 발견되기 시작한다.

사이즈 팩터

장부가치/시장가치 팩터(밸류팩터)

EPS 팩터

워킹캐피탈 팩터

동전주 팩터

금융데이터만 주어진 상태에서 아무런 사전지식없이 재무학자들이 발견한 유명 팩터들이 AI에 의해 재발견되는 것이다. (팩터트리가 나타내는 식에서 보듯이 완전히 동일하게 나오지는 않지만 의미는 유사하다) 재미있게도 발견되는 순서도 논문이 발표된 순서와 대략 유사하다. 물론, 재무학자들이 기존에 발견한 팩터들은 상대적으로 단순한 구조이기 때문에 발견되기 쉽다는 것도 한 몫을 한다. 시간이 지나면, 좀더 복잡한 구조의 팩터들도 발견되기 시작한다.

AI 가 발견한 좀더 복잡한 팩터들

AI 가 발견한 위 이미지의 Factor A는 모멘텀 계열의 팩터로 과거 12개월 수익률에서 최근 6개월 수익률을 뺀 값이 큰 종목이 초과수익을 가져온다는 의미를 가지고 있다. 재미있게도 이는 유명 재무학자인 R.Novy Marx가 2012년 Journal of Financial Economics (임팩트팩터 5.162의 재무 탑저널이다)에 발표한 논문 "Is momentum really momentum?"의 내용과 완전히 일치한다.

심지어 저 논문은 2012년 Fama-DFA 프라이즈(유진파마 교수와 자산운용사 Dimensional Fund Advisor 가 공동으로 만든 상으로 자산가격모형에 대한 우수한 논문에 대해 수여)를 수상하기도 했다. 물론, asset pricing model 논문의 가치가 단순히 팩터의 발견에만 있는 것은 아니고 그에 대한 해석과 함의에 대한 연구도 중요하지만, AI가 경제학상을 수상하는데 기여하는 것이 그렇게 이상한 일만은 아닐 수도 있는 것이다.

AI에 의한 경제학 논문

인간이 바둑에서 AI를 이길 수 없듯이 팩터 탐색 분야에서도 인간이 AI를 이기기는 어려워보인다. 팩터팩토리에서 자동으로 탐색된 복잡한 팩터들의 구조를 보면 사실상 인간의 직관에 따른 top down 방식(가설 설정 후 검증)으로는 절대 찾을 수 없는 수준이다. 이는 바둑게임에서 강화학습을 통해 학습된 신경망이 내놓는 수(특히 자유도가 높은 게임 초반에서)를 인간이 탐색하기 어려운 것과 비슷한 상황으로 보인다. 이는 인간의 능력부족이라기 보다는 방대한 서치 스페이스 안에서 확률적 계산이라는 미션에서 인간이 AI 를 따라가기는 불가능하기 때문이다. (반면에 이미 탐색된 팩터에 대한 리즈닝과 해석에서 AI 가 인간의 역량을 따라잡기는 아직 어렵다.)

이런 점들을 보면 향후 재무학에서 팩터(Market Anomaly) 논문의 방향은 AI 가 복잡한 팩터를 탐색해서 찾으면 그 팩터의 의미를 인간 재무학자들이 해석하여 논문이 완성되는 방향으로 가게 될 것으로 예상된다. (재미있게도 바둑게임은 알파고 사태 이후 복기의 중요성이 훨씬 커지고, AI가 즐겨쓰는 극초반 3.3 침투가 정석화되는 등 이러한 방향으로 이미 빠르게 변화했다.)

크래프트 역시 이러한 트렌드를 앞당기기 위해 Factor Factory 에서 AI 가 찾아낸 팩터를 자산운용에 적용하는 것을 넘어서, 경제학자들과의 협업을 통해 AI 가 찾아낸 팩터 + 경제학자의 해석의 형태로 진행되는 재무 논문 시리즈를 저널에 퍼블리싱하는 프로젝트를 기획하고 있다. (관심있으신 학자 분 또는 단체는 연락부탁드립니다!) 이 프로젝트가 성공한다면 알파고가 명예단증을 수여받은 것처럼 크래프트 팩터팩토리(또는 관련 엔지니어)가 유명 재무학 논문의 공저자로 올라올 수 있는 날이 생각보다 빨리 올지도 모른다;

팩터팩토리의 확장과 궁극의 AI 헤지펀드 모델

꾸준한 초과수익의 유지는 다음과 같은 공식이 만족되어야 한다.

Velocity(Finding New Alpha) * Size(New Alpha) >
Velocity(Decay of Exisitng Alpha) * Size(Existing Alpha)

초과수익은 제로썸이고, 초과전략은 영원하지 않고, 결국에는 남들도 같이 발견하는 순간 사라지게 된다. 그래서 꾸준한 초과수익의 유지는 기존에 가지고 있는 알파가 사라지는 속도보다 새로운 알파를 발견하는 속도가 더 빨라야만 가능하다. 특히 최근같이 시장이 점점 빠르게 변하고 과거에 없었던 일들이 벌어지는 상황에서는 기존에 안정적인 퍼포먼스를 보였던 르네상스테크놀로지스나 브릿지워터 같은 유명 헤지펀드들도 -20% 수준의 drawdown을 겪고있다.

대형퀀트펀드들이 다같이 큰 손실을 입는 퀀트 크래시 현상은 2007년 8월, 그리고 최근 코로나 사태 때도 발생했으며 점점 발생빈도가 높아지고 있는데, 이는 결국 퀀트펀드들이 비슷비슷한 알파전략을 발견하여 같이 사용하고 있고, 그 중 한 펀드가 청산되면 다같이 포지션에 손실을 입는 네거티브 피드백 구조가 형성되어 발생하는 현상이다. 이는 남들이 알지 못하는 보다 복잡한 팩터의 발견과 새로운 데이터에 대한 빠른 학습으로만 극복이 가능한 문제다. 그리고 다행히 AI는 이 부분에 분명한 강점이 존재한다. (실제로 코로나 퀀트 크래시 기간동안 크래프트의 AI ETF 라인업은 시장대비 월등한 성적을 냈다.)

팩터팩토리의 알파탐색 방식은 지속적인 확장이 가능하다. 현재의 크래프트 팩터팩토리 버전은 유니버스, 기간, 포트폴리오 구성 방법론 등의 자유도를 가지고 좀더 긴 호흡의 자산운용에 적합하고 재무학 논문에서 나옴직한 형태의 팩터 탐색에 좀더 맞춰져 있다. 그러나, 데이터의 주기 및 데이터의 종류를 늘리고 학습모델을 확장함으로써 미드 프리퀀시, 하이프리퀀시 투자전략의 자동 탐색까지 곧 가능해질 것으로 보인다. 자유도를 늘리는만큼 서치 스페이스는 기하급수적으로 커지고 학습에 쓰이는 모델의 크기와 학습을 위한 컴퓨팅 파워도 엄청나게 소요되겠지만, 다행히 자산운용 분야는 바둑과 다르게 탐색비용에 대한 BEP를 훨씬 뛰어넘는 이익을 가져올 수 있는 몇 안되는 분야이기 때문에 경제성은 충분할 것이다.

크래프트테크놀로지스는

AI 기술을 활용해 자산운용업의 비효율성을 혁신하고 있는 기업입니다. 데이터처리부터 알파리서치, 그리고 포트폴리오 주문집행까지 자산운용업의 각 단계별 비효율성을 기술로써 해결하고, 이를 통해 높은 수준의 알파를 낮은 비용으로 제공하는 것을 목표로 합니다. 복잡한 금융 데이터 전처리를 자동화하고, 병렬컴퓨팅을 통해 고속화하며, 이를 통해 완성된 시뮬레이션 환경에서 autoML 기술을 통해 알파 팩터를 자동으로 서칭합니다. 이렇게 찾아진 알파 팩터들을 활용해 정해진 펀드 컨셉에 따른 펀드 유니버스에 따라 Strategy Factory을 통해 딥러닝 기반의 deep asset pricing model을 만들고, 모델을 통해 생선된 최종 포트폴리오는 강화학습 기반의 주문집행 엔진 AXE로 효율적인 주문집행을 하는 것을 목표로 합니다. 위 시스템을 통해 제작되고 뉴욕증권거래소에 상장된 크래프트테크놀로지스의 AI ETF 라인업은 인공지능 시스템으로 100% 무인운용되고 있으며, 상장 후 1년 반 동안 벤치마크지수(S&P500, S&P500모멘텀 지수)를 20%p 이상 아웃퍼폼하는 등 동종 ETF 중에서 최고의 성과를 보여주고 있습니다.