brunch

You can make anything
by writing

C.S.Lewis

by 퀀트대디 Mar 11. 2021

예견 편향

퀀트 투자와 일곱 개의 대죄

# 앞날을 미리 내다본 것 같은 착각, 예견 편향

일곱 개의 대죄, 그 두 번째는 생존 편향의 친한 사촌지간인 예견 편향(Look-ahead Bias)이다. 예견 편향은 그때 당시에 알 수 없었던 정보나 데이터를 가지고 백테스팅을 함으로써 발생하게 되는 오류이다. 어쩌면 이러한 오류는 백테스팅 과정에서 가장 자주 발생하는 오류이다. 앞에서 다루었던 생존 편향은 예견 편향의 특별한 케이스라고도 볼 수 있는데, 그 이유는 미래에 어떤 종목이 생존할 것인가 아니면 사라질 것인가를 안다는 것 자체가 과거 백테스팅 시점에 미리 앞을 내다보는 것이기 때문이다.


# 재무제표 공시와 예견 편향

예견 편향의 명백하면서도 대표적인 예시는 바로 기업 재무제표의 공시이다. 기업들은 공식적인 재무제표를 주기적으로 공시해야 하는 의무를 가지고 있다. 문제는 이러한 공시가 회계기간의 마감과 함께 바로 발생하는 것이 아니라 회계기간의 마감 이후 평균적으로 1,2 개월의 시간이 소요되고, 운이 나쁘다면 이보다 훨씬 더 오래 기다려야 할 수도 있다는 것이다. 따라서 올바른 백테스팅을 위해서는 이러한 재무제표 공시의 시간차를 보수적으로 고려하여야만 예견 편향의 오류를 피할 수 있다. 아래의 그림은 미국 기업들의 분기 보고서가 회계기간 이후 얼마나 걸리는지를 보여주고 있다.

공시에 걸리는 기간 (출처: Deutsche Bank)

이보다 더 골 때리는 것은 바로 정정공시이다. 기업들은 다양한 이유 때문에 종종 그들의 재무제표 상에서 수정을 해야 할 일이 발생한다. 문제는 많은 과거 데이터가 최종 수정된 버전의 데이터로만 저장이 되어있다는 점이다. 이렇게 되면 그때 당시의 원래 데이터를 고려하지 않은 백테스팅이 발생하기에 또다시 예견 편향의 오류가 발생한다. 예를 들어, 경제지표 데이터들 또한 원래 발표치와 다른 수정 발표치가 나중에 새로 발표되는 경우가 허다하다. 당연히 처음의 데이터를 사용했는지 아니면 나중에 수정된 데이터를 사용했는지에 따라 우리의 백테스팅 모델이 뱉어내는 결괏값은 달라질 수밖에 없다.


예견 편향 문제를 해결하기 위한 최적의 솔루션은 바로 PIT(Point-in-Time) 데이터베이스를 사용하는 것이다. 이 PIT 데이터베이스란 백테스팅 날짜에 맞게 원래 보고된 데이터와 수정된 데이터를 모두 담고 있는 데이터를 의미한다. Compustat과 Capital IQ, 그리고 Worldscope 같은 데이터 업체들이 이러한 PIT 데이터베이스를 제공하고 있는 대표적인 회사들이다.


# PIT 데이터가 불가능한 경우의 대안

만약 PIT 데이터를 사용할 수 없는 경우에는 어떻게 해야 할까? 이런 경우에는 어쩔 수 없이 보수적인 가정을 적용한다 생각하고 의도적으로 공시 결과에 시차를 주는 방법이 있다. 물론 정확히 얼만큼의 기간을 시차로 줄 것인지를 결정하는 것은 쉬운 일이 아니다. 만약 이 시차를 매우 적게 잡는다면 여전히 예견 편향 문제가 해소되지 않을 것이고, 반대로 너무 넓게 잡는다면 이 정보를 너무 늦게 사용하게 되기 때문이다.


아래는 ROE(Return on Equity) 팩터에 대한 여러 가지 버전의 백테스팅 결과를 보여주고 있다. PIT 데이터를 사용하는 것이 가장 현실적인 백테스팅 결과를 얻을 수 있는 방법이기는 하지만, 그렇지 못한 경우 데이터의 시차를 어느 정도로 하는 것이 적절한가에 대한 힌트를 얻을 수 있다. 실무적으로는 보다 보수적으로 접근하여 3개월 정도의 시차를 두는 것이 일반적이다.


# 액면분할 및 주가 병합 이슈와 예견 편향

마지막으로 기업들은 종종 액면분할이나 주가 병합을 통해 주가 액면금액에 변화를 주는 경우가 종종 있다. 그런데 이러한 기업 이벤트 이슈들은 예견 편향을 아주 교묘하게 발생시키기에 다루기가 매우 까다롭다. 때에 따라 원래의 주가를 사용해야 할지 아니면 이벤트 후의 주가 단위로 통일을 시켜야 할지가 달라지기 때문이다.


우선 대부분의 모델링 과정에서는 기업 이벤트 발생 이후 기준으로 조정된 주가 데이터가 필요하다. 예를 들어, 과거의 주당순이익 데이터를 그대로 가져다 쓴다면 이것은 기업 이벤트 이전의 값이기 때문에 문제가 발생할 수밖에 없다. 즉, 재무제표와 주가가 같은 기준을 가지고 있는지를 확인하여 이를 맞춰줄 필요가 있다.


하지만 다른 경우에는 조정 주가를 사용하는 것이 예견 편향을 초래할 때도 있다. 아래의 백테스팅 결과를 보자. 이것은 가장 낮은 주가를 가지고 있는 25개의 종목으로 포트폴리오를 구성한 결과를 보여주고 있는데, 조정된 주가를 이용한다면 성과가 말도 안 되게 나오는 것을 확인할 수 있다. 이는 전형적인 예견 편향의 사례이며, 이런 경우에는 실제 과거에 존재했던 주가를 사용하는 것이 맞다.

조정 주가 포트폴리오와 실제 주가 포트폴리오의 차이 (출처: Deutsch bank)


# 예견 편향에 대한 해결책

그렇다면 이러한 예견 편향 문제를 해결하기 위해서는 어떻게 해야 할까?


우선, 앞서 언급했듯이 보다 현실적인 백테스팅 결과를 위해서는 PIT 데이터를 사용할 필요가 있다. 예견 편향을 해결하는 근본적인 방법은 이처럼 과거에 존재했었을 실제 데이터를 사용하는 것이다. 이는 생존 편향의 문제를 해결하는 방법과도 일맥상통한다. 만약 PIT 데이터를 사용하지 못하는 경우라면, 공시 결과에 적절히 시차를 주어 보수적인 방법으로 백테스팅을 수행해야 한다. 마지막으로는 상황에 따라 조정 주가를 사용해야 할지 아니면 그대로 원래의 주가를 사용해야 할지에 대한 판단력을 길러야 한다. 이러한 상황적 판단력은 여러 번의 백테스팅 연습을 통해 얻을 수 있다. 언제 어디서 예견 편향이 발생할 수 있는지에 대한 감을 기르는 것이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari