(1) 판별분석
투자자가 R 패키지 활용을 고려할 수 있는 이유 투자자가 R 패키지를 활용해야 할 세 가지 이유는 1) 금융 데이터 수집, 2) 금융 데이터 수치적 가공, 3) 시각화에 갖는 압도적 장점 때문이다. 투자자가 직접 데 이터 처리 로직을 구현하지 않고도 오픈소스를 통해 금융 데이터 분석의 효율성 을 크게 높일 수 있다. 의미있는 데이터들이 범람하는 시대에 효율성과 생산성이 가진 무기는 더욱 높아질 전망이다. 우리는 여기에 주목해 R을 활용한 퀀트 전 략을 소개해 나가려고 한다. 먼저, R이 가진 장점을 살펴보자.
1) 첫 번째는 오픈소스 금융 데이터 확보다. 블룸버그 등 유료 금융 데이터에 접 근하기 어려운 개인투자자도 거래소나 야후 파이낸스에서 데이터를 확보할 수 있다. 전문투자자도 사무실 밖의 환경에서 데이터를 수집할 수 있다. 또한, R를 활용한 데이터 수집 자동화가 가능해 업무 효율성을 매우 높여준다. 또한, 유료 계정에서도 접근이 쉽지 않은 대체 데이터를 크롤링할 수도 있다. 코 스피의 편/출입을 고려한 장기 시계열 혹은 오픈소스로 제공되는 ESG 스코어, 특정 원자재와 관련된 날씨 데이터 등이다. 또한, 미국 기업들의 각종 재무상태 표를 미국 증권거래위원회 홈페이지에서 더 짧은 주기로 직접 받아올 수도 있다. 구체적으로, 데이터 풀링에 가장 활용도가 높은 패키지 중 하나는 quantmod이 다. 이를 활용해 데이터를 받고 지난번 자료에서 제시했던 미국 섹터ETF를 이용 해 최적화 포트폴리오를 구축하기 위해 필요한 자산 비중을 시각화해봤다.
2) R은 엑셀만으로 처리하기 힘든 빅데이터의 처리와 가공에 용이 하다하다. 엑셀 에도상관 분석이 나 회귀 분석을 해주는 고급기능 은 존재한다존재한다. 하지만 제약조건을 추가한 정규화 회귀나 로지스틱 회귀분석회귀분석, 주성분 분석을 활용해 차원축소를 하거나예측 모형을 만들 수 있는 기계학습 기법을 활용하기에는 R이 더 적합하다적합하다.
3) 엑셀로 구현하기 힘든 형태의 다양한 시각화 모듈 을 제공하고 심지어 애니메이션 으 로 시각화할 수 있다있다. 예를 들어들어, 본 보고서에서는 두 개의 다른 집단에서 나온 산점도 데이터를 동일축에 겹쳐서 표현 할 때 R의 시각화 기능을 사용했다.
당사는 22년도 전망에서 경기순환국면에 근거해 앞으로 다가올 국면을 제시했다.각 국면별로 강세를 보이는 스타일과 자산군이 다르기에 유사했던 과거 경험을근거로 자산을 선별할 때 매우 유용하기 때문이다. 경기 뿐 아니라 이익, 물가,금리 등 다양한 지표를 토대로 국면을 분할하려는 시도가 계속되는 이유가 이것때문이다.본 보고서에서는 ① 경기순환국면 ② 계절성국면 ③ 물가국면에 대한 분석을 토대로 현재와 유사했던 과거 국면에서 유망했던 스타일과 자산군이 무엇인지를밝혔다. 최종적으로는 국면 분할에 사용하는 수 많은 변수들을 모두 종합해 머신러닝을 적용했다. 즉, 사람이 한 번에 판단하기에는 변수가 너무 많다면 기계가대신 현재 국면과 유사했던 과거 국면을 종합적으로 판단하도록 해봤다.R을 활용하면 머신러닝 뿐 아니라 다양한 통계 기법의 사용이 수월해지는데 본보고서에서는 주성분분석(PCA), LASSO회귀, 계절성 분석, 클러스터링 기법을 활용했고 각 기법의 원리와 구현을 위한 R 코드는 부록으로 정리했다.투입 변수의 개수가 많아질수록 데이터의 입수와 결측치, 이상치, 시계열 안정성에 대한 전처리 및 유효한 변수를 선별하는 일이 중요해진다. 머신러닝 학습에변수를 투입할 때 필요한 각종 데이터 전처리 기법도 부록으로 정리했다.