재미있는 논문 발견!

뉴스 제목을 분석해서 투자하기

by 채박사

우연하게 접한 뉴스를 통해서,

뉴스 헤더라인만 분석해서 투자를 했더니 괜찮은 결과가 나왔다는 내용이 있었다.


아래는 해당 논문에 대한 요약 버젼이다.

"제공된 자료에 따르면, 연구에서는 다음 방식으로 헤드라인을 수집하고 데이터를 사용했습니다:

브리핑 문서: 대규모 언어 모델(LLM)의 주식 가격 예측 능력

1. 개요 및 핵심 발견

본 연구 "Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models"는 ChatGPT와 같은 대규모 언어 모델(LLM)이 금융 시장에 대한 직접적인 훈련 없이도 뉴스 헤드라인을 사용하여 주식 가격 움직임을 예측할 수 있는 놀라운 능력을 가지고 있음을 보여줍니다. LLM이 생성한 점수는 표본 외(out-of-sample) 일일 주식 수익률을 유의미하게 예측하며, 이는 전통적인 분석 방법을 능가합니다. 이러한 예측 능력은 특히 소규모 주식에서 그리고 부정적인 뉴스 이후에 더욱 두드러집니다.

이 연구는 정보 용량 제약, 과소 반응(underreaction), 차익거래의 한계(limits-to-arbitrage), 그리고 LLM을 통합한 이론적 모델을 제시하여 이러한 발견을 설명합니다. 모델은 다음의 핵심 예측을 내놓습니다: (i) 수익성 있는 예측을 위한 AI 역량의 임계치 존재, (ii) 고급 LLM만이 복잡한 정보를 효과적으로 해석할 수 있음, (iii) LLM의 광범위한 채택이 시장 효율성을 향상시킬 수 있음. 연구 결과는 "sophisticated return forecasting is an emerging capability of AI systems and that these technologies can alter information diffusion and decision-making processes in financial markets" (정교한 수익 예측은 AI 시스템의 새로운 역량이며, 이러한 기술이 금융 시장의 정보 확산 및 의사 결정 과정을 변화시킬 수 있음)을 시사합니다.


2. 주요 연구 결과

2.1 LLM의 예측 능력 및 수익성

ChatGPT 4의 강력한 예측력: ChatGPT 4가 뉴스 헤드라인에서 추출한 정보는 다음 날 주식 수익률을 예측하는 데 강력한 능력을 보여줍니다. 2021년 10월부터 2023년 12월까지 ChatGPT 4 추천을 바탕으로 한 자기자본재조정 전략(긍정적인 추천 주식 매수, 부정적인 추천 주식 매도)은 거래 비용을 고려하지 않았을 때 "earns a daily average return of 38 basis points (bps) pre-transaction costs, which compounds to a cumulative return of over 650%" (거래 비용 전 하루 평균 38bp의 수익률을 달성하여, 누적 수익률이 650% 이상)에 달했습니다.

전통적인 방법 능가: ChatGPT 4 모델은 기존의 감성 분석 방법을 능가하여 주식 시장 수익률 예측에서 더 우수한 성능을 보여줍니다.

소규모 주식 및 부정적 뉴스에서의 강세: LLM의 예측력은 "more pronounced among smaller stocks and following negative news" (소규모 주식과 부정적인 뉴스 이후에 더욱 두드러지게 나타납니다). 매수 포지션이 일일 평균 9bp의 수익률을 기록한 반면, 매도 포지션은 29bp의 수익률을 기록했습니다. 이는 시장이 부정적인 뉴스에 대해 더 크게 과소 반응함을 시사합니다.

거래 비용의 영향: 5bp의 왕복 거래 비용을 가정할 때도 누적 수익률은 300% 이상이며, 10bp일 경우 150%에 달합니다. 그러나 20bp의 거래 비용에서는 수익성이 사라집니다. 이는 정교한 거래 인프라의 중요성을 강조합니다.

샘플 제한에도 강건함: 시가총액 하위 10% 미만의 소형주나 5달러 미만의 저가주를 제외하더라도 예측력은 여전히 강건하게 유지됩니다.

장중 뉴스 예측: 장중 뉴스 헤드라인에 대해서도 LLM은 강력한 예측력을 보이며, 뉴스 발표 후 15분 이내에 진입하여 다음 거래일 종가에 청산하는 전략은 350% 이상의 누적 수익률을 달성했습니다.

2.2 LLM 모델 크기와 예측력의 관계

모델 복잡성의 중요성: "return predictability is an emerging capacity of more complex language models" (수익 예측 능력은 더 복잡한 언어 모델의 새로운 역량입니다). GPT-1, GPT-2, BERT와 같은 초기 모델은 주식 예측 능력이 거의 없거나 예측력이 미미했습니다.

임계치 존재: "only advanced LLMs can effectively interpret complex information" (오직 고급 LLM만이 복잡한 정보를 효과적으로 해석할 수 있습니다). BART-Large, DistilBart-MNLI, GPT-3.5와 같은 고급 모델은 어느 정도 예측력을 보였지만, ChatGPT 4 (Sharpe ratio 3.28)에 비해서는 현저히 약했습니다 (GPT-3.5는 1.79, DistilBart-MNLI는 1.61). 이는 AI 기술이 특정 임계치를 넘어야 경제적 가치로 전환될 수 있다는 이론적 예측을 뒷받침합니다.

뉴스 복잡성 해석 능력: ChatGPT 4는 복잡한 뉴스 헤드라인을 해석하는 데 가장 뛰어난 능력을 보였습니다. 초기 모델들은 복잡한 뉴스를 해석하는 데 어려움을 겪었으며, 이는 모델 크기가 LLM의 정보 처리 능력에 직접적인 영향을 미침을 시사합니다.

2.3 시장 효율성에 대한 LLM의 영향

정보 흡수 속도: 뉴스가 시장 가격에 흡수되는 데 약 2일이 걸립니다. ChatGPT 4의 평가 점수는 뉴스 발표 후 첫 이틀간의 수익률을 유의미하게 예측하지만, 그 이후로는 그렇지 않습니다. 이는 시장이 뉴스에 대해 초기에는 과소 반응함을 시사합니다.

시장 효율성 향상 가능성: 이론 모델은 LLM이 투자자의 정보 처리 능력을 증가시키고 시장 비효율성을 줄일 수 있다고 예측합니다. 연구는 "a general decline in the performance of the ChatGPT-based strategy during our sample period over which GPT models’ capabilities and adoption skyrocketed" (GPT 모델의 역량과 채택이 급증했던 연구 기간 동안 ChatGPT 기반 전략의 성과가 전반적으로 하락하는 것)을 발견했습니다. 2021년 4분기 연간화 샤프 비율은 6.54였으나, 2022년에는 3.68, 2023년에는 2.33으로 감소했습니다. 이는 LLM의 확산이 시장의 과소 반응을 줄이고 시장 효율성을 향상시키고 있음을 시사하는 잠정적인 증거입니다.


3. LLM 추론 능력 해석 프레임워크

연구는 LLM의 추론 과정을 이해하기 위한 새로운 해석 프레임워크를 제안합니다. 이 프레임워크는 서러게이트 모델링(surrogate modeling)과 토픽 모델링(topic modeling)을 결합합니다.

서러게이트 모델링: 선형 회귀와 같은 해석 가능한 모델을 사용하여 LLM의 예측과 성능에 영향을 미치는 요인을 분석합니다.

토픽 모델링: 뉴스 헤드라인과 LLM 설명에서 이산적인 토픽을 추출하여 서러게이트 모델의 해석 가능성을 높입니다.

주요 해석 결과:

긍정적 영향: 내부자 거래(특히 이사 및 회장 거래) 및 자사주 매입 발표와 관련된 뉴스는 GPT-4의 예측에 유의미한 긍정적 영향을 미쳤습니다. 자사주 매입 발표는 평균 거의 1%의 성능 증가를 가져왔습니다.

부정적 영향: 임원 주식 거래는 GPT-4에 의해 평균적으로 너무 부정적으로 평가되어 성능이 -16bp 감소했습니다. 전환사채 발행이나 기업이 받는 '상(award)'과 관련된 뉴스의 영향을 과대평가하는 경향이 있어 성능이 저하되는 경우도 있었습니다.

GPT-4의 개선: GPT-4는 GPT-3.5에 비해 역 주식 분할(reverse stock splits) 해석 및 전기차와 같은 특정 산업 뉴스와 같은 영역에서 현저한 개선을 보였습니다.

한계점: 이 프레임워크는 LLM 점수의 분산(약 35%)과 LLM 간 점수 차이(약 28%)를 합리적인 수준으로 설명하지만, 예측 성능의 분산은 거의 설명하지 못합니다(1% 미만). 이는 LLM의 예측 정확도 자체가 여전히 노이즈가 많거나, 토픽 모델이 예측 성능의 모든 복잡성을 포착하지 못함을 시사합니다.


4. 시사점 및 향후 연구

AI 기반 금융의 발전: 금융 산업에 특화된 LLM의 지속적인 개발 및 탐색의 중요성을 강조합니다.

LLM의 예측 메커니즘 이해: LLM이 예측력을 도출하는 메커니즘에 대한 추가 연구가 필요하며, 이를 통해 모델 개선 및 금융 분야 유틸리티를 극대화할 수 있습니다.

시장 역학에 미치는 영향: LLM이 가격 형성, 정보 확산 및 시장 안정성을 포함한 시장 역학에 미치는 잠재적 영향을 조사하는 것이 중요합니다.

하이브리드 시스템 개발: LLM과 다른 기계 학습 기술 및 정량 모델을 통합하여 다양한 접근 방식의 강점을 결합하는 하이브리드 시스템 개발이 필요합니다.

"


2021년 10월부터 2023년 12월까지 뉴스를 분석해서 매매를 했더니 650% 수익률이 났는데, S&P 500을 동일 기간동안 추이를 보면 아래와 같다. 성장률은 50%정도? 상당한 하락장이 있었기에 무조건 BUY & HOLD로 돈을 벌 수 있는 장도 아니였다.


tempImagedC13mT.heic


지금 해당 논문을 기반으로 간단한 테스트 MVP를 만들어보고 있는데, 실제로 테스트해보고 좋은 결과가 나온다면 해당 백테스팅 결과를 공유해보도록 하겠다.

keyword
작가의 이전글최대공약수와 최소공배수