brunch

You can make anything
by writing

C.S.Lewis

by 퀀트대디 Mar 15. 2021

데이터 마이닝

퀀트 투자와 일곱 개의 대죄

# 데이터 끼워 맞추기의 고수, 데이터 마이닝

일곱 개의 대죄, 그 네 번째는 바로 데이터 마이닝(Data Mining)이다. 이 데이터 마이닝이라는 표현은 분야에 따라 그 의미가 매우 다르다. 우선 컴퓨터 과학이나 통계학 분야에서, 데이터 마이닝은 대량의 데이터 속에서 패턴을 찾기 위한 계산적 프로세스, 통계적 기법 및 알고리즘을 의미한다. 하지만 이와 다르게 금융에서의 데이터 마이닝이라는 단어는 부정적인 의미를 지닌다. 구체적으로 데이터 마이닝은 분석가가 보여주길 원하는 어떤 특정한 패턴에 맞추기 위해 데이터를 조작하는 것을 뜻한다.


여기서의 데이터 마이닝이라는 개념은 데이터 스누핑(Data Snooping)이라고도 불리는 후자의 개념을 사용할 것이다. 이것은 모델에 완벽하게 들어맞는 패턴이나 규칙을 찾는 행위를 말한다. 퀀트 투자자들은 종종 백테스팅 결과를 좋게 만들기 위해 패러미터를 미세하게 조정하는 오류를 저지른다.


만약 데이터를 계속해서 고문한다면 우리는 거의 항상 백테스팅의 표본 내 성과를 훌륭하게 만들어줄 수 있는 모델을 언제든지 찾아낼 수 있다. 이것이 바로 앞서 언급했던 데이터 스누핑이며, 아무리 전문적인 퀀트 투자자들이라도 매우 쉽게 이러한 데이터 스누핑의 오류를 저지른다.


# 데이터 마이닝 오류의 예시

모델을 만드는 과정에서 데이터 스누핑이 어떻게 발생하는지 간단한 예시를 통해 살펴보자. 우선, 이미 주식 영역에서 널리 알려져 있는 72개의 팩터들(예를 들어, 모멘텀, 밸류, 퀄리티 등)을 준비해놓는다. 그리고 이 팩터들에 대해 전부 백테스팅을 수행하고 여기서 가장 뛰어난 성과를 보여준 6개의 팩터를 모아 멀티 팩터 모델을 만든다. 같은 기간에 대해 이 멀티 팩터 모델을 백테스팅해보면 어떻게 될까? 이 모델이 엄청난 성과를 낼 수 있다는 것을 확인할 수 있다! 퀀트 따위 뭐 별거 아니네!

표본 내 성과 vs. 표본 외 성과 (출처: Deutsche Bank)

이것이 바로 전형적인 데이터 스누핑의 오류이며, 더불어 여기에는 예견 편향이 작용하고 있다. 우리는 그때 당시에 팩터들의 성과를 알 수 없기 때문이다. 실제로 같은 기간에 대해 동일한 모델의 표본 외 성과를 추적해보면 모델의 성과가 그리 좋지 못함을 확인할 수 있다.


# 데이터 마이닝에 대한 해결책

그렇다면 이러한 데이터 마이닝의 문제를 해결하기 위해서는 어떻게 해야 할까?


사실 이 데이터 마이닝의 오류는 가장 다루기 힘든 문제이다. 어쩌면 이 오류를 완벽하게 제거하기란 불가능할지도 모른다. 하지만 그렇다고 아무것도 하지 않은 채 포기할 수는 없다. 여기서는 적어도 기본적인 점검을 위한 몇 가지 방법을 제시한다.


우선, 데이터 마이닝은 예견 편향과 매우 밀접한 관계를 맺고 있다. 따라서 최소한 예견 편향이 있지는 않은지 체크해보아야 한다. 모델을 만들고 백테스팅 전략을 수립할 때, 우리는 PIT(point-in-time) 데이터를 사용해야 하며 그렇지 못할 경우 다른 방안을 통해 예견 편향 문제를 제거해야 한다.


또한 하나의 데이터셋만을 가지고 백테스팅을 하는 것은 매우 위험한 일이다. 그렇기 때문에 어떤 전략을 사용한다면 다른 국가나 다른 기간의 데이터를 가지고도 테스트해보는 것이 필요하다. 만약 어쩔 수 없이 단일 국가만을 테스트할 것이라면 데이터의 일부를 '검증 표본(Validation Sample)'으로 따로 떼어놓고 실제 모델의 성과를 체크할 때 사용해야 한다.


마지막으로 데이터 마이닝은 팩터에 대한 근본적인 고민보다도 단순한 패턴 찾기에 빠졌을 때 발생할 확률이 높다. 문제는 어떤 패턴을 발견하는 것이 매우 쉽다는 것이다. 데이터를 계속해서 고문하거나 머신러닝 모델을 계속해서 돌리면 모델은 무조건 패턴을 찾아낸다. 하지만 이 패턴은 결국 과최적화의 산물일 수밖에 없다. 따라서 이러한 문제를 해결하기 위해서는 보다 근본적인 해결책인 특성 공학(Feature Engineering)이 필요하다. 특성 공학은 데이터 속에서 실제로 신호나 정보를 가지고 있는 특성이 무엇인지, 또 그 특성의 중요도를 어떻게 측정하고 이를 추출할 것인지를 탐구한다. 우리는 특성 공학을 통해 백테스팅의 과최적화 문제에서 벗어나 수익의 원천을 설명할 수 있는 팩터의 본질을 추구할 필요가 있다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari