brunch

You can make anything
by writing

C.S.Lewis

by 홍창수 Jun 03. 2024

GPT-4, 재무제표 분석에서 혁신적 변화를 일으키다

Financial Statement Analysis with LLM


          

          대형 언어 모델을 활용한 재무제표 분석

                           (Financial Statement Analysis with Large Language Models)

          

          다운로드:           


1. 서론


이 논문은 대형 언어 모델(LLM), 특히 GPT-4를 이용하여 재무제표 분석을 수행하고 향후 수익 변화를 예측하는 능력을 평가합니다. 전통적으로 재무제표 분석은 재무 분석가와 투자 전문가가 수행해 왔으며, 이 과정에서 기업의 재정 상태를 평가하고 향후 성과의 지속 가능성을 판단합니다. 본 연구는 LLM이 이러한 재무제표 분석을 인간 전문가와 비교하여 얼마나 효과적으로 수행할 수 있는지 탐구하고, 그 결과가 재무 분석의 미래에 어떤 영향을 미칠지 논의합니다.


2. 연구 방법론


연구 방법론은 다음과 같습니다.


표준화된 재무제표 제공: GPT-4 모델에게 표준화되고 익명화된 재무제표(대차대조표와 손익계산서)를 제공합니다.

예측 지시: 모델에게 향후 수익이 증가할지 감소할지를 분석하고 예측하도록 지시합니다.

내러티브 및 산업 정보 배제: 모델이 내러티브나 산업 특화 정보를 활용하지 않도록 설정하여, 순수한 숫자 데이터만으로 분석을 수행합니다.


3. 주요 연구 질문  


1) LLM이 순수한 숫자 데이터만으로 경제적 통찰을 생성할 수 있는가?

2) LLM의 성능이 인간 분석가와 비교했을 때 어떠한가?

3) 인간 분석가의 분석 과정을 모방하는 지시를 통해 LLM의 성능을 향상시킬 수 있는가?

4) LLM의 성능이 다른 최첨단 기계 학습 모델과 비교하여 어떠한가?


4. 분석 결과


4.1 LLM의 예측 성능


GPT-4 모델은 다음과 같은 결과를 보였습니다.

기본 지시: 내러티브 없이 단순히 재무제표를 분석하도록 한 기본 지시에서는 예측 정확도가 52%로 나타났습니다.

Chain-of-Thought(CoT) 지시: 인간 분석가의 사고 과정을 모방하도록 지시한 CoT 지시를 사용한 경우 예측 정확도가 60%로 크게 향상되었습니다.


4.2 인간 분석가와의 비교  


인간 분석가: 첫 달 분석가들의 예측 정확도는 53%였으며, 3개월 후와 6개월 후의 예측 정확도는 각각 56%, 57%로 나타났습니다.

GPT-4: CoT 지시를 따른 GPT-4의 예측 정확도는 인간 분석가를 능가하였으며, 특히 분석가들이 어려움을 겪는 상황에서 더 우수한 성능을 보였습니다.


4.3 기계 학습 모델과의 비교  


로지스틱 회귀 모델: 정확도 53%, F1 점수 57%로 GPT-4보다 낮은 성능을 보였습니다.

인공 신경망(ANN) 모델: 정확도 60%, F1 점수 62%로 GPT-4와 유사한 성능을 보였습니다.


5. 분석 및 논의


5.1 인간 분석가와 GPT-4의 상호 보완성


GPT-4와 인간 분석가는 상호 보완적인 관계를 보였습니다. 특히, 인간 분석가가 편향되거나 비효율적인 예측을 할 가능성이 높은 상황에서 GPT-4의 예측이 더 유용했습니다.



5.2 예측의 정확성


GPT-4는 내러티브 분석을 통해 유용한 통찰을 생성하였으며, 이는 회사의 미래 성과를 예측하는 데 중요한 역할을 했습니다. GPT-4가 생성한 내러티브는 인간 분석가가 수행하는 재무 비율 분석 및 추세 분석과 유사한 과정을 따랐습니다.


5.3 거래 전략


GPT-4의 예측을 기반으로 한 거래 전략은 다른 기계 학습 모델을 기반으로 한 전략보다 더 높은 샤프 비율과 알파를 기록하였습니다. 이는 GPT-4의 예측이 실제 투자 결정에 있어서도 유용할 수 있음을 시사합니다.


6. 결론


본 연구는 대형 언어 모델이 재무제표 분석에서 인간 분석가와 동등하거나 더 나은 성능을 발휘할 수 있음을 보여줍니다. 이는 LLM이 단순히 재무제표 요약이나 감정 분석을 돕는 도구가 아니라, 정보 처리에서 적극적인 역할을 할 수 있음을 의미합니다. 그러나 실제 금융 시장에서 AI가 인간의 의사 결정을 크게 개선할 수 있을지 여부는 추가 연구가 필요합니다.이 연구는 LLM이 재무 정보 처리에서 중심적인 역할을 할 가능성을 시사하며, 이는 향후 금융 분석 및 투자 전략 개발에 중요한 영향을 미칠 것입니다.



참조 https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with

-----------------------------------------------------------

[기사] GPT-4, 기업 재무제표 분석에서 혁신적 변화를 일으키다

https://www.gptmagazine.net/gptnews/162?wmode=1

시카고 대학 연구진은 대형 언어 모델(LLM)이 전문 애널리스트와 맞먹는, 혹은 이를 능가하는 정확도로 재무제표 분석을 수행할 수 있음을 입증했다. “대형 언어 모델을 활용한 재무제표 분석”이라는 제목의 이 연구는 금융 분석과 의사결정의 미래에 중대한 영향을 미칠 수 있다.

연구진은 OpenAI의 최신 LLM인 GPT-4의 성능을 기업 재무제표 분석을 통해 향후 수익 성장 예측 작업에서 테스트했다. 놀랍게도, 표준화되고 익명화된 대차대조표와 손익계산서만 제공된 상태에서도 GPT-4는 인간 애널리스트를 능가하는 성과를 보였다.


연구진은 “LLM의 예측 정확도는 최신 기계 학습 모델과 동등한 수준이며, LLM의 예측은 단순한 기억력에서 비롯된 것이 아니다”라며, “LLM은 회사의 미래 성과에 대한 유용한 내러티브 통찰을 생성한다”고 밝혔다.

핵심 혁신은 GPT-4가 금융 애널리스트의 분석 과정을 모방하도록 유도하는 “사고의 연쇄” 프롬프트를 사용하는 데 있었다. 이를 통해 GPT-4는 트렌드를 식별하고, 비율을 계산하며, 정보를 종합해 예측을 내놓았다. 이 개선된 GPT-4는 미래 수익 방향 예측에서 60%의 정확도를 기록했는데, 이는 인간 애널리스트의 53-57% 범위를 상회하는 성과였다.


연구진은 “우리의 결과는 LLM이 의사결정의 중심 역할을 할 수 있음을 시사한다”고 결론지었다. LLM의 강점은 방대한 지식 기반과 패턴 및 비즈니스 개념 인식 능력에서 비롯되며, 불완전한 정보로도 직관적인 추론을 수행할 수 있다는 점에 있다고 설명했다.

숫자 분석이 전통적으로 언어 모델에게 어려운 영역이었음을 감안할 때, 이번 발견은 더욱 놀라운 것이다. 연구 공동저자인 알렉스 김은 “언어 모델에게 가장 어려운 영역 중 하나는 계산을 수행하고, 인간과 같은 해석을 하며, 복잡한 판단을 내리는 수치 영역이다”라며, “LLM은 텍스트 작업에서는 효과적이지만, 숫자에 대한 이해는 주로 내러티브 맥락에서 비롯되며, 심층적 수치 추론이나 인간의 유연성은 부족하다”고 말했다.


일부 전문가들은 연구에서 벤치마크로 사용된 “ANN” 모델이 정량 금융의 최신 기술을 대표하지 않는다고 경고했다. Hacker News 포럼의 한 실무자는 “그 ANN 벤치마크는 최신 기술과는 거리가 멀다”며, “1989년 이후로 사람들이 이 분야에서 돈을 벌기 위해 계속 작업해 왔다”고 언급했다.


그럼에도 불구하고, 범용 언어 모델이 특화된 기계 학습 모델과 인간 전문가의 성과를 능가할 수 있다는 점은 금융 분야에서 LLM의 혁신적 잠재력을 시사한다. 연구진은 GPT-4의 능력을 궁금해하는 독자들을 위해 인터랙티브 웹 애플리케이션도 제작했지만, 정확성은 독립적으로 검증해야 한다고 주의했다.


AI가 급속히 발전하면서 금융 애널리스트의 역할도 변화를 맞이할 가능성이 크다. 인간의 전문 지식과 판단이 완전히 대체되기는 어렵겠지만, GPT-4와 같은 강력한 도구는 애널리스트의 작업을 크게 증대하고 효율화할 수 있으며, 향후 재무제표 분석 분야를 재편할 가능성을 내포하고 있다.





브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari