brunch

You can make anything
by writing

C.S.Lewis

by 퀀트대디 May 19. 2021

독립성분분석(ICA)

퀀트 팩터 모델링 #6.

# 독립성분분석

주성분분석이라는 기법은 통계적 팩터를 추출할 때 팩터들 간의 상관관계가 존재하지 않는, 즉 직교하는 팩터들을 만들어냈었다. 이는 팩터들 간의 상관관계가 고려되지 않은 거시경제적 팩터들보다는 더 나은 성질을 가지고 있다고 볼 수 있다. 하지만 사실 이것만으로는 여전히 충분치 않다. 왜냐하면 실제로 상관관계를 가지고 있지 않은 두 팩터들이 여전히 독립적이지 않을 수 있기 때문이다. 이는 2차 통계량인 상관계수가 0이라고 해서 고차 통계량들 또한 0이라고 말할 수 있는 것은 아니라는 사실에 기인한다. 특히나 만약 어떤 최종적 팩터 모델이 헤징을 목적으로 만들어진 것이라면, 이렇게 숨어있는 종속성은 향후 테일 리스크의 관점에서 문제가 될 수 있다.


독립성분분석(ICA; Independent Component Analysis)은 수익률 데이터를 설명할 수 있는 독립적 팩터들을 찾는 기법이다. ICA는 PCA 기법에서는 다소 약했던 직교성이라는 성질을 보다 강화한다. 이를 위해 ICA에서는 데이터의 비정규성(Non-Gaussianity)에 주목하고 있으며, 팩터들 간의 결합 분포 내에 존재하는 특정한 비정규성 수치를 최적화하는 방향으로 팩터들을 찾아낸다. 만약 변수들이 온전히 가우시안적이라면, 상관관계가 존재하지 않음은 독립성을 암시하며, PCA 팩터는 그 자체로 독립적이라고 말할 수 있지만 현실 세계에서 변수들은 가우시안 분포와 거리가 멀기 때문에 PCA는 이런 면에서 한계를 보인다.


ICA를 보다 직관적으로 이해하기 위해, 여러 사람들이 한 공간에 모여 즐거운 대화를 나누고 있는 칵테일파티를 한 번 상상해보자. 이 공간 곳곳에는 사람들의 말소리를 녹음하기 위한 마이크들이 놓여있고, 사람들은 삼삼오오 모여 여러 가지 주제를 가지고 담소를 나누고 있다.


이 마이크들에는 당연히 여러 가지 말소리들이 한데 섞이게 될 것이다. 그런데 과연 우리는 이렇게 섞여있는 말소리들, 즉 원래의 신호들을 녹음파일로부터 추출해낼 수 있을까? 이른바 블라인드 소스 분리(BSS; Blind Source Separation)라고 불리는 이러한 과제는 결국 원래의 신호를 복원하는 것이 목표이며, ICA 기법은 이러한 상황에 매우 적합한 신호 추출 도구라고 할 수 있다.


통계적 팩터 모델링의 목표 또한 결국 관찰된 데이터 집합 안에 숨어있는 독립적인 리스크 팩터들을 추출하는 것이기에, 우리는 같은 맥락에서 ICA를 팩터 모델링에 활용할 수 있다. 예를 들어, 만약 PCA 때와 마찬가지로 우리에게 20개의 팩터 유니버스가 주어진다면, 이러한 관찰가능팩터 안에 숨어있는 독립적인 고유한 리스크의 원천을 찾기 위해 ICA를 적용할 수가 있다. 다시 말해, 우리가 직접적으로 관찰할 수 있는 것은 결국 우리가 흔히 떠올릴 수 있는 일반적인 팩터들이지만 다시 이를 분해하여 원래의 독립적인 리스크 원천들을 복원하는 것이 결국 ICA의 근본적인 목표인 것이다.



# ICA의 수학적 모델링

1) 독립적 리스크 팩터와 비정규성

앞에서 잠시 언급했던 것처럼 상관계수가 0이라는 것이 독립성을 보장해 주는 것은 아니다. 그렇기 때문에 PCA를 통해 추출된 주성분들은 사실 우리가 찾고 있던 독립적인 리스크 팩터들이 아닐 수 있다. 수학적으로 표현하자면, 어떤 두 팩터 f1과 f2가 독립적이기 위해서는 그들의 결합 확률 밀도 함수가 아래와 같이 표현될 수 있어야 한다.

중요한 것은 주성분을 결정하는 기준이 공분산 행렬의 특이값 분해를 통해 자연스럽게 도출되는 반면, 독립성분을 결정하는 기준은 통계적으로 명확하게 정의하기 어려울 수 있다는 점이다. 따라서, 우리는 우선 경제적인 논리를 지니고 있는 독립적인 리스크 프리미엄을 정의하고, 이후 그러한 정의를 만족하는 팩터들을 도출하기 위해 최적화 알고리즘을 적용해야 한다.


먼저 독립적인 리스크 원천의 정의에 대한 한 가지 중요한 경제적 논리는 바로 각각의 리스크 팩터가 특정한 종류의 위험을 대표해야 한다는 것이다. 다시 말해, 각각의 고유한 팩터는 그것이 커버하고 있는 위험의 종류가 각기 다르며, 각 팩터는 이러한 위험을 부담하는 대가로 프리미엄을 수취하게 된다. 또한, 장기적으로 이러한 프리미엄은 손실에 대한 보상보다 더 커야 한다. 그래야만 이러한 팩터에 투자를 하는 입장에서 위험을 부담하는 것에 대한 장기적 프리미엄 수취를 정당화할 수 있기 때문이다. 이러한 위험 프리미엄과 리스크 팩터가 가지고 있는 가정에 기반했을 때, 우리는 독립적인 리스크 팩터가 가져야 할 두 가지 기본적인 통계적 성질들에 대해 생각해 볼 수 있다. 그중 하나는 1) 리스크 팩터가 장기적으로 양의 평균 수익률을 가져야 한다는 것이고, 다른 하나는 2) 이것이 어느 정도 팻테일(Fat-tail) 분포를 따라야 한다는 것이다.


통계적인 관점에서 보았을 때, 첫 번째 조건을 만족하는 것은 상대적으로 쉽다. 문제는 두 번째 조건, 즉 바로 비정규성(Non-Normality)에 대한 이슈이다. 중심극한정리에 의해 많은 독립적 리스크 팩터들이 한데 뭉치게 되면 그것은 개별적인 리스크 팩터들에 비해 보다 더 정규분포에 가까워지게 된다. 결과적으로 PCA에 의한 주성분들은 ICA에 의한 독립성분들보다 더 정규분포에 가까워진다. 그렇다면 어떻게 리스크 팩터가 가지고 있는 비정규성의 정도를 측정할 수 있을까? 팻테일과 관련된 비정규성을 측정하기 위해서는 크게 두 가지 기본적인 방법이 있다.


- 첨도(Kurtosis)


- 네거티브 엔트로피(Negative Entropy)

여기서 H(X)는 X에 대한 엔트로피 함수이며, H(XNormal)은 X와 같은 공분산 행렬을 가지고 있으나 정규분포를 따르는 변수 XNormal에 대한 엔트로피 함수이다.


네거티브 엔트로피 함수는 항상 0보다 크거나 같고 오직 팩터가 정규분포를 따라야만 0이 되므로, 뉴튼-랩슨과 같은 최적화 프로그램을 설계하여 네거티브 엔트로피를 최대화시키는 리스크 팩터를 찾아낼 수 있다. 실무적으로는 ICA 기법 중 가장 유명한 FastICA 알고리즘을 사용해 독립적인 리스크 팩터들을 추정한다.

FastICA를 사용한 신호 추출 예시


2) 최적 포트폴리오의 샤프비율

우리는 횡적 리스크 모델 시리즈에서 최적 포트폴리오의 샤프비율이 다음과 같이 계산될 수 있음을 알아냈다. 여기서 Σ는 공분산 행렬을, C는 상관계수 행렬을, 그리고 S는 샤프비율을 의미한다.

이때, 만약 모든 팩터들이 독립성을 가지고 있다면 최적 포트폴리오의 샤프비율은 어떻게 될까? 만약 팩터 간 독립성이 보장된다면 결국 상관계수 행렬은 단위행렬이 되고, 그렇게 된다면 결국 최적 샤프비율은 다음과 같이 계산할 수 있다.

결론적으로, 독립적인 리스크 팩터를 새롭게 추가하는 것은 포트폴리오의 샤프비율을 항상 증가시키게 된다.



# ICA를 활용한 팩터 모델링 예시

여기서도 PCA의 케이스와 마찬가지로 총 20개의 리스크 팩터 유니버스에 ICA를 적용하여 20개의 독립적 리스크 팩터들을 추출했다. 주지해야 할 점은 주성분과 다르게, 상위 10개의 독립적 팩터들이 높은 샤프비율과 낮은 손실폭, 그리고 보다 높은 첨도를 보여주고 있다는 점이다. 반대로, 하위 5개의 독립적 팩터들은 성과도 부진하며 꽤 큰 손실폭을 기록하고 있다. 그렇기 때문에 만약 상위 팩터들과 하위 팩터들로 롱숏 포트폴리오를 구축한다면 장기적 관점에서 보다 나은 솔루션이 될 수도 있다.

또한 아래의 테이블은 각각 20개의 독립적 리스크 팩터들에 대한 상관계수 행렬을 보여주고 있다. 아래쪽 삼각형은 전체 기간에 대해, 그리고 위쪽 삼각형은 시장에 쇼크가 왔을 때 추정한 상관계수들이다. 보다시피 이러한 독립적 팩터들은 전체 기간에 대해 0의 상관계수를 가지고 있으며, 심지어 시장에 위기가 발생했을 때에도 평균적 상관계수가 0에 가깝거나 혹은 살짝 마이너스를 보이고 있다. 따라서 팩터들의 독립성을 확보하게 되면 포트폴리오의 전체적인 안정성은 증가하게 되며, 이 때문에 앞에서도 보았듯이 독립적 팩터들을 추가할수록 전체 포트폴리오의 샤프비율은 계속해서 증가하게 된다.

마지막으로 독립적 리스크 팩터들이 과연 기존의 크로스에셋 팩터들과 어떤 관계를 맺고 있는지를 확인하기 위해서 우리는 이 둘 간의 상관계수를 확인하거나 혹은 위험 기여를 측정해볼 수 있다. 아래의 표는 이미 우리가 연역론적으로 구성한 팩터 유니버스와 여기에 다시 ICA를 적용한 독립적 리스크 팩터들 간의 상관계수를 보여주고 있다. 과연 어떤 독립적인 리스크 팩터들이 실제 우리가 관찰할 수 있는 팩터들에 얼마만큼의 영향을 주고 있는지를 한눈에 파악할 수 있다.

하지만 이렇게 ICA 기법을 통해 추출해낸 리스크 팩터들을 해석하는 것은 또 다른 문제로 남아있음은 어쩔 수 없는 사실이며, 이는 당연하게도 통계적 모델링 기법이 가지고 있는 한계이다. PCA와 마찬가지로 독립적인 리스크 팩터가 과연 경제학적으로 어떤 의미를 가지고 있는지 해석하는 것은 다분히 주관적인 직관과 통찰이 필요하기 때문이다.


다음에 계속...

매거진의 이전글 주성분분석(PCA)
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari