금융데이터분석 언어 소개
R은 데이터 분석가에게 가장 많이 사용되는 프로그래밍 언어이다. 일부 대규모 조직의 많은 최고 데이터과학자들이 선택한 프로그래밍언어이기도 하다. R은 많은 커뮤니티를 통해 서로 도움을 제공하며 통계 및 데이터 시각화와 같은 모든 활동을 수행할 수 있다.
지난 몇 년 동안 데이터가 주류로 이동하면서 데이터과학 세계에서 파이썬의 채택이 증가했다. 파이썬도 거대한 커뮤니티를 제공하며 거의 모든 작업을 수행할 수 있는 라이브러리를 가지고 있다. 파이썬 지지자들은 R이 실제로 프로그래밍 언가 아니라 통계분석을 수행하기 위한 대화형 환경이라고 말한다. 반면, R은 데이터분석을 위한 라이브러리 지원이 포함된 완전한 프로그래밍 언어이다. 배우기 쉽고 기업규모의 데이터 제품을 구축하는데 사용할 수 있다. 파이썬 프로그래밍 입문 후 사이킷런(Scikit-learn), 넘파이(Numpy), 판다스(Pandas), 맷플로립(Matplotlib) 등의 라이브러리를 사용한 데이터과학, 이후 텐서플로와 케라스 라이브러리 위주의 딥러닝 학습, 금융데이터를 이용한 금융머신러닝 딥러닝의 단계로 학습해 나가면 많은 도움이 된다. 물론, 앞서 소개한 R도 비슷한 단계로 학습할 수 있다.
방대한 양의 데이터를 다루고 있으며 이를 사용하여 미래를 예측하거나 계산된 행동을 제안하려면 머신러닝을 위한 기술을 배워야 한다. 싸이킷런은 파이썬용 머신러닝 라이브러이며 회귀, 베이즈, 램덤포레스트, 그래디언트 부스팅, K-평균과 같은 다양한 머신러닝 알고리즘을 제공한다.
파이썬에서 데이터분석을 수행하는 데 필수적인 파이썬 라이브러리이다. 판다스는 데이터 조작 및 분석을 위해 설계된 파이썬 라이브러리이다. 넘파이는 파이썬에서 과학 컴퓨팅을 위한 라이브러리이다. 행렬 곱셈과 같은 작업을 매우 쉽게 수행할 수 있다. 싸이파이는 넘파이를 확장하고 통계, 최적화, 선형대수, 기타 수학 연산을 위한 모듈을 포함한다.
데이터 시각화의 경우 맷플롭립, ggplot2와 같은 R 및 파이썬 라이브러리에 익숙해야 한다. 맷플롭립, ggplot2은 모두 정적 그래프와 시각화를 만드는 데 도움이 된다. 그러나, 그래프를 대화형으로 만들려면 대화형 데이터 시각화를 만들기 위해 자바 스크립트 라이브러리인 D3.js에 익숙해져야 한다.
대부분의 데이터는 서로 다른 종류의 데이터 베이스이에 있으며 데이터과학자는 작업 중 하나는 이러한 데이터베이스에서 데이터를 검색하는 것이다. 따라서, 데이터과학자는 SQL 및 NoSQL 데이터베이스에 대해 잘 알고 있어야 하며 데이터베이스에서 데이터를 추줄하는 방법을 알고 있어야 한다.(실제로 금융권에서는 정형화된 데이터베이스를 주로 다루고 있어 SQL로 주로 처리한다.)
판다스(Pandas) 추천도서는 'Do it! 데이터분석을 위한 판다스 입문', '손에 잡히는 판다스', '파이썬 머신러닝 판다스 데이터 분석' 책을 참조하면 좋고 웹으로는 테디노트의 '한권으로 끝내는 판다스 노트'https://wikidocs.net/book/4639 를 참조하라. 유튜브 동영상 강좌는 '허민석의 Pandas 판다스 강의 기초실습' https://bit.ly/3KxtGPD 을 추천한다. 넘파이는 '딥러닝 머신러닝을 위한 파이썬 넘파이' 책을 참조하라.
https://brunch.co.kr/@gauss92tgrd/56