brunch

You can make anything
by writing

C.S.Lewis

by 홍창수 Jun 20. 2018

퀀트3.0 디지털금융혁명의 미래

 금융 딥러닝(Deep Learning)으로 금융시장을 예측 할수 있는가

나이스피앤아이 홍창수 Ph.D


금융 딥러닝(Deep Learning)으로 금융시장을 예측 할수 있는가


  

                                                                 

우선 이글을 시작하기에 앞서 구글 엔지니어이자 딥러닝 플랫폼인 케라스(Keras)-텐서플로를 쉽게

사용하게끔 만든 랩퍼 - 의 창시자인 프랑소와 숄레(François Chollet)의 “R을 이용한 딥러닝(Deep Learning with R)”5장에 "금융시장과 머신러닝"에 대해 짧막하게 소개한 내용을 살펴보자.

 


“일부 독자들은 여기서 소개한 딥러닝 기법을 활용하여 주식시장의 미래 가격(또는 환율)을 예측하는 문제를 시도하고 있다. 시장은 날씨 패턴과 같은 자연현상과는 다른 통계적 특성을 가지고 있다. 공개적으로 사용가능한 데이터에 의존한 머신러닝기법을 적용해서는 시장을 이기기는 어려운 일이다. 즉, 시간과 자원을 낭비하는 일이된다. 금융시장에 관해서는 과거의 실적이 미래를 예측하는 좋은 지표가 아니라는 점을 기억하자. 머신러닝은 과거가 미래의 좋은 예측치인 데이터 집합에 적용하는 것이 바람직하다. ”


프랑소와 숄레가 금융전문가는 아니지만 핵심적인 코멘트를 했다고 판단된다. 다만, 문장을 자세히 보면 공개되지 않은 금융데이터, 시장이 효율적이지 않아 패턴이 존재하는 경우 머신러닝과 딥러닝을 적용할수 있다는 말이 된다. 시장이 효율적인가 즉, 금융시장을 예측할수 있는가에 대한 문제는 멀게는 옵션가격결정에 대한 루이 바슐리에의 박사학위논문(1900년)부터 가깝게는 2013년에 노벨 경제학상을 공동수상한 유진 파마에 이르기 까지 수많은 사람의 연구가 있었다.  시장을 예측하는 문제에 있어 오류에 빠지는 부분이 효율적인 시장에 대해 방법론 즉 진화된 딥러닝 알고리즘기법 기법과 컴퓨팅 파워로 시장을 이길수 있는가에 대한 문제가 제기된다. 정답은 “아니오”라 할수 있고 데이터에 정답이 있다고 할 수 있다. 물론 딥러닝기법과 컴퓨팅 파워가 중요하지 않다는 이야기는 아니다. 금융 머신러닝과 딥러닝에 관한 수많은 논문(순환신경망(RNN)과 그것의 진화된 버전인 장단기메모리(LSTM)기법을 금융시장에 적용한 논문)에서 진전된 결과를 보고하고 있기는 하다. 그렇다고 시장을 완전하기 이길수 있는 비기(秘技, 비밀기술)을 논문으로 공개한다는것도 말이 되지 않는다고 생각한다. 신경망에 대해서는 3장 딥러닝 기법과 컴퓨팅 파워부분에서 자세히 살펴보기로 한다.



좋은 피처(good feature)를 찾는 것이 가장 중요하다



머신러닝을 이용한 알고리즘 트레이딩”의 저자이며, 필자와도 친분이 있는 에덴체인(Eden Chain) 안명호 대표도 그의 책과 기고문에서 머신러닝 적용을 위한 금융데이터의 정상성 개념을 가장 강조하고 있다. 머신러닝을 이용해 예측하려면 과거의 데이터와 미래의 데이터가 유사한 모습을 보이는 성질을 가져야 한다. 이러한 데이터의 분포를 정상성(Stationarity, 안정성이라 번역되기도 함)이라고 한다. 금융시장의 데이터는 정상성이 없기 때문에 정상성이 없는 데이터라도 정상성이 있도록 데이터를 변환한 후에 머신러닝 기법을 적용하는것이 중요하다고 그는 말하고 있다. 따라서 금융 머신러닝을 적용할 수 있도록 좋은 피쳐를 찾는 것이 중요하고 이러한 데이터를 전처리하여 좋은 결과를 내게끔 처리하는 엔지니어가 필요로 하고 있다. 앞서 좋은 피쳐를 찾기 위해 금융도메인 지식을 가진 전공 실무자가 앞으로 활약하게 될것이다. 또한 이러한 데이터를 머신러닝 딥러닝 기법에 적용할수 있도록 전처리할 수 있는 능력도 중요하게 될것이다.


대체 데이터(Alternative Data)가 새로운 알파 수익 창출요인이다


앞서 말했듯이 금융데이터의 대부분은 패턴이 없는 즉, 정상성이 없기 때문에 머신러닝과 딥러닝을 통해 시장을 예측하기 힘들다. 그러나 투자은행과 헤지펀드의 경우 시장에 공개된 정보외에 공개되지 않은 정보도 사용하기 때문에 머신러닝과 딥러닝을 적극적으로 활용가능하다. 여기서 대두되는 개념이 대체데이터의 개념이다.


[그림1] 인공위성 사진


대체 데이터(Alternative Data)란 무엇인가?


대체데이터의 정확한 뜻을 살펴보기 위해 위키피이아 정의와 사례를 살펴보도록 하자.

“대체 데이터는 투자 프로세스에 대한 통찰력을 얻기 위해 사용되는 데이터를 말한다. 이 데이터는 혁신적인 수익률 알파를 창출하기 위해 기본적 혹은 계량적 분석을 위해 기관투자가들이 많이 사용하고 있다. 대체데이터의 예는 신용카드 거래, 웹사이트 사용기록, 위성 이미지, 소셜미디어 게시물, 제품 리뷰 등 공공기록과 인터넷과 같은 다양한 출처에서 수집될 수 있다.”


빅데이터중에서 대체데이터는 알파수익을 창출할 수 있는 중요한 역할을 하고 있다. 아직 국내에서는 그 개념과 서비스를 제공해주는 회사가 한정적이지만 점차 이 분야의 중요성이 높아질것으로 생각된다. 대체데이터의 예는 금융권에 있는 사람에게는 벌써 익숙한 개념이다. 예를 들어. 2015년 위성 데이터소스를 사용하는 특정 헤지펀드가 대형마트의 주차장 혼잡이 증가하는 데이터를 통해 수익을 창출하였다. 실제 몇 개월이 지난 후 매장의 이익증가에 대한 보도가 나왔을 때 그 마트의 주식은 10%이상 올랐다. 이와 같은 대체데이터는 쇼핑몰 교통량, 석탄 선적량, 석유 저장탱크, 산업플랜트 생산량, 홍수 데이터, 선박위치 데이터, 지리적 태그가 지정된 모바일 트래픽이 포함된다. 다만 작황의 생산량을 정확히 예측하기 위해서는 수년 간의 사진을 면밀히 모니터링 해야한다. 현재의 작물 생산량을 보다 정확하게 예측하기 위해서 머신러닝(machine learning) 기술이 널리 이용된다.


켄쇼, 금융분석을 위한 “구글(Google)형” 검색엔진


켄쇼(Kensho)는 IBM의 왓슨(Watson)과 유사한 워렌(Warren)이라는 소프트웨어를 개발했다. 웨렌은 아마도 웨렌버핏의 성을 따왔을거라 대부분 생각하고 있으나 실제로는 나이가 많고 현명하고 참을성이 있는 삼촌의 이름을 따서 명명되었다고 한다. 이 시스템은 사용자가 일반 텍스트로 “구글 스타일 상자”에 질문을 입력하면 차트와 표를 보여주며 분석결과를 제시해 준다. 예를 들어 회사가 새로운 아이패드를 출시 할 떄 어떤 애플 공급업체의 주가가 가장 많이 상승할지 묻는 다면 워렌은 과거 데이터를 기반으로 애플에 부품을 제공하는 공급업체를 검색하고 가격이 가장 많이 상승한 기업을 확인하여 결과를 제시해준다.  질문에서 분석까지 워렌은 일반적으로 두가지 유형의 머신러닝 작업을 수행한다. 위의 질문을 이해하기 위해 워렌은 자연어 처리(NLP) 기술을 사용하여 텍스트를 분석한 후 이벤트(즉, 사건) 및 회사와 같은 주요 용어 및 매개변수를 식별한다. 그런 다음 과거 데이터를 가져와서 상관관계 분석 및 사건연구(Event Study)를 수행하여 과거에 자산 가격에 대한 사건의 영향을 평가하고 분석한 후 차트로 요약하여 결과를 제시해 준다.


워렌의 분석을 강화하기 위해 켄쇼는 시장정보와 데이터를 지속적으로 자동수집하여 한 곳으로 모으는 “켄쇼 글로벌 사건 데이터베이스”라는 대용량 데이터베이스를 구축했다. 정보 및 데이터는 모두 공개되어 있으며 중앙은행 발표, 제품 공개 및 지정학적 사건과 같은 텍스트도 포함된다. 켄쇼는 모든 데이터를 한 곳에서 정리, 처리 및 저장함으로써 빠른 속도로 많은 분석을 수행할 수 있게 해준다. 켄쇼는 로이터 및 블룸버그와 같은 기존 데이터 공급업체와 차별화된 다양한 데이터 및 분석도를 제공해주고 있다. 그러나, 켄쇼가 사용하는 모든 데이터는 공개된 데이터이므로 기존 데이터 공급업체가 켄쇼를 따라 잡기는 어렵지 않다고 판단된다. 또한 워렌이 수행한 분석유형은 제한적이라 워렌을 사용하는 은행의 사용자는 워렌이 지원하거나 분석한 회사별 개인 데이터가 필요하여 데이터를 다운로드하고 스스로 분석해야한다고 불평하기도 한다고 한다. 


켄쇼 설립자인 "다니엘 나들러"(Daniel Nadler)에게서 듣는 켄쇼 이야기


“저는 2014년 보스턴 연방 준비제도 이사회(Boston FED)에서 객원 연구원으로 일하면서 켄쇼에 대한 아이디어를 생각해 냈습니다. 전 세계 중앙은행 발표, 유럽선거, 유럽위기를 중심으로 중요한 사건이 진행됨에 놀랐습니다. 중동의 혼란 등을 추적하고 그 결과를 분석하여 통찰력있는 분석을 하는 기존의 메커니즘이 없다는 사실에 또한 놀랐습니다. 규제기관이나 은행가 모두 유사한 뉴스가 금융시장에 미치는 영향을 평가할 수 있는 효과적인 방법이 없었습니다. 오래된 뉴스를 파헤지고 수동으로 엑셀 스프레드 시트를 만드는 것이 유일한 대안이었습니다. 저는 친구들과 함께 일하기 시작했으며, 몇 주 안에 소규모 팀을 구성하여 GOOGLE 벤쳐캐피털팀으로부터 초기 자금을 조달했습니다. 켄쇼 테크놀로지는 2013년 5월에 설립되었습니다.”


나들러는 폴란드와 루마니아 출신의 이민자 아들로 캐나다 토론토에서 자랐다. 그의 아버지는 교량과 잠수함에서 미세한 균열을 찾기 위해 소리를 사용하는 방법을 고안한 기술자였다. 아빠는 방과후에 그의 경험을 토대로 아들에게 시험용 수학이 아닌 진짜 수학을 가르쳐줬다. 나들러는 영구적인 운동기계(영구기관)에 대한 다이어그램을 스케치하고 하버드에서 수학과 고전 공부를 하기 1년전에는 고대 그리스를 읽는데 시간을 보냈다. 앞서 나들러가 밝힌 글에서 그는 경제학 박사학위 - 연구주제는 2008년 금융위기에 대한 정치영향에 관한논문- 를 받고 연방준비은행(FED)에서 연구원으로 일할 때 경제분석을 엑셀(Excel)에만 의존 한다는 사실을 알고 기뻐했고 켄쇼에 대한 아이디어를 발견했다고 한다. 초기에는 골드만 삭스가 후원하는 신생기업이었으나, 창업 6년만에 5억달러(인수당시 원달러환율 1100원 기준 원화 5,500억원)에S&P가 인수한 기업이 되었다.


나들러는 하버드에서 경제학 박사과정을 밟으면서 여름이면 일본을 방문하곤 했다고 한다. 일본의 여러 사찰을 두루 다니며 명상 수련을 하곤 했는데 켄쇼도 이러한 명상수련을 하면서 알게된 것을 회사명으로 사용했다. 켄쇼(Kensho) 즉, 견성(見性)은 불교에서 모든 망념과 미혹을 버리고 자기 본래의 성품을 깨닫게 되는 앎 즉 깨달음을 뜻한다. 일반적으로 보는 행위를 견해라 말하며 불교에서 견해라는 것을 벗어나 새롭게 보는 행위를 견성이라 말한다. 견성의 원래 발음은 현성(現性)이며 그 뜻은 성품이 주체적으로 나타난다는 것을 의미한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari