GPT·Llama·Qwen·Gemma 투자 실험
사람의 감각이나 직관 같은 비정량적인 요소가 중요한 투자 세계에서, 과연 언어모델이 그 역할을 대신할 수 있을까요?
지난 4월, 싱가포르에서 열린 ICLR 2025 워크숍에서 이 질문과 관련한 아주 흥미로운 논문이 발표되었습니다.
*ICLR(International Conference on Learning Representations): NeurIPS, ICML과 함께 인공지능 및 머신러닝 분야에서 가장 권위 있는 학회 중 하나로, 매년 전 세계의 연구자들이 최신 연구 결과를 발표하고 토론하는 장입니다.
바로 엘리스 AI팀이 발표한 오픈소스 LLM(대규모 언어모델)을 금융 투자에 적용해 인간 투자자의 의견 대신 모델의 분석 결과를 활용한 실험인데요,
엘리스클라우드를 기반으로 진행된 이 실험은 AI가 실제 투자 시장에서도 의미 있는 성과를 낼 수 있다는 가능성을 보여주며 많은 이들의 관심을 끌었습니다.
이번 글에서는 엘리스 AI팀이 이 실험을 어떻게 설계했고 엘리스클라우드를 통해 어떤 방식으로 효율성을 극대화했는지, 그리고 앞으로 AI 연구자들이 주목할 만한 클라우드 활용법은 무엇인지 살펴보려 합니다.
[논문 정보]
Youngbin Lee*, Yejin Kim, Suin Kim*, Yongjae Lee, Integrating LLM-Generated Views into Mean-Variance Optimization Using the Black-Litterman Model, ICLR 2025 Workshop on Financial AI. (*Elice)
https://arxiv.org/abs/2504.14345
엘리스 AI팀은 과거 주식 수익률 데이터를 다양한 오픈소스 LLM에게 입력해 미래 시장에 대한 전망을 생성하도록 실험을 설계했습니다.
이번 실험에 참여한 주요 모델은 다음과 같습니다.
GPT-4o-mini (OpenAI)
Llama 3.1 8B (Meta)
Gemma 2 7B (Google DeepMind)
Qwen 7B (Alibaba Cloud)
각 모델이 생성한 시장 전망은 Black-Litterman 모델에 적용되어 인간 투자자의 주관 대신 AI 분석을 기반으로 포트폴리오를 최적화했습니다.
실험은 2024년 6월부터 2025년 2월까지 총 8개월간의 주가 데이터를 기반으로 하는 백테스팅(backtesting) 방식으로 진행했습니다. 미국 주요 50개 종목을 대상으로 했으며, 2주마다 포트폴리오를 리밸런싱하여 다양한 포트폴리오 케이스를 폭넓게 시뮬레이션했습니다.
최종 결과가 매우 흥미로웠는데요,
- GPT 4o mini: 전반적으로 낮은 성과를 기록했습니다. GPT가 제시한 전망은 자산별로 일관성이 부족하고 변동이 심했기 때문에, 효과적이고 안정적인 자산 배분이 어려웠습니다. 결과적으로 투자 성과 역시 부진했습니다.
- Llama 3.1 8B: 가장 높은 연평균 수익률을 보였습니다 (CAGR 67.31%). 이 모델이 제시한 전망은 전체적으로 긍정적이고 일관성이 있었으며, 특히 일부 주식에 대해 극단적인 예측을 자주 내놓는 특징이 있었습니다. 이 덕분에 우수한 주식과 그렇지 않은 주식을 명확하게 구분할 수 있었고, 결과적으로 효과적인 포트폴리오 구성이 가능했습니다.
- Gemma 2 7B: 상대적으로 저조한 투자 성과를 보였습니다. 이 모델은 주식 수익률에 대해 변동성이 크고 불안정한 전망을 제공했고, 특히 수익률 예측이 전반적으로 부정적인 경향이 있어 비관적인 포트폴리오 구성을 초래했습니다. 이로 인해 장기적으로 일관된 수익을 얻기 어려웠습니다.
- Qwen 7B: 다소 보수적인 전망을 내놓으며 중립적이고 신중한 성향을 보였습니다. 이 모델의 예측은 대부분 수익률 0 근처에 집중되어 있어 안정적이었지만, 특별히 뛰어난 수익을 기대할 만큼 명확하게 종목 간의 차별화를 제공하지는 못했습니다. 그 결과, 꾸준하지만 다소 평범한 투자 성과를 기록했습니다.
[참고 자료]
이번 실험은 LLM이 단순히 언어 이해·생성 기능을 넘어 실제 금융 시장에서 의미 있는 투자 인사이트를 제공할 가능성을 보여줬다는 점에서 주목할 만합니다.
특히, 오픈소스 모델들도 대형 상용 모델에 뒤지지 않는 투자 성과를 낼 가능성이 있다는 점에서 연구자나 투자자들에게 흥미로운 참고 사례가 될 수 있습니다.
이번 실험과 같이 고성능 GPU가 필요한 대규모 실험은 비용과 리소스 면에서 큰 부담이 될 수 있습니다.
엘리스 AI팀은 이번 실험에서 엘리스클라우드 A100 80GB 인스턴스를 활용해 이러한 문제를 해결했는데요.
약 30시간 동안 진행된 추론에 들어간 비용은 단 6만 원.
시간당 약 2천 원 수준의 합리적인 비용 덕분에, 자체 서버나 비싼 GPU를 구매할 필요 없이 실험을 완료할 수 있었습니다.
또한 엘리스클라우드는 온디맨드 인스턴스와 모델 라이브러리를 제공해,
Llama, Gemma, Qwen 같은 오픈소스 LLM을 별도의 복잡한 세팅 없이 불러와 손쉽게 사용할 수 있도록 지원합니다.
이런 접근성은 특히 연구실이나 작은 팀에서 큰 장점이 됩니다.
합리적인 비용: 필요할 때만 빌려 쓰고, 사용한 만큼만 지불합니다.
고성능 GPU 제공: H100, B200과 같은 최신 GPU를 바로 사용할 수 있어, 대규모 LLM 실험도 문제없습니다.
간편한 오픈소스 모델 접근: 클릭 몇 번으로 원하는 모델을 불러와 실험할 수 있습니다.
유연한 확장성: 작은 실험부터 대규모 프로젝트까지, 필요한 만큼 확장 가능합니다.
금융 분야뿐 아니라, 엘리스클라우드를 통해 LLM을 활용할 수 있는 연구 주제는 다양합니다.
[연구 주제 아이디어 예시]
에이전트(Agent) 시스템
멀티모달 LLM
추론 능력 평가
GPU 환경 때문에 창의적인 아이디어를 포기한 적이 있다면, 이제 엘리스클라우드를 통해 다시 도전해볼 수 있습니다.
글 이영빈 편집 진예지