4주차 - 파이썬 데이터 분석 라이브러리
파이썬을 이용한 데이터 분석을 공부하기 위해 시작한 국비지원교육, 어느새 4주차에 접어들었다. 3주차까지는 데이터 분석의 기본과 파이썬의 기초를 배웠다는 느낌이라면 4주차부터 진짜 본격적인 데이터 분석의 실무를 시작하는 기분이다. 파이썬을 이용한 데이터 분석을 할 때 필수적인 라이브러리들을 배우고 실습하는 시간이었다.
Numpy는 그 이름에서 느껴지는 수치와 벡터 연산에 최적화된 라이브러리다. 수치 연산에 다소 부족한 파이썬에 매우 강력한 수치 연산 기능을 부여하는 라이브러리로 앞으로 진행할 데이터 분석에서 꼭 필요한 라이브러리다.
numpy array는 C언어의 array 구도와 동일한 개념으로 얼핏 기본 파이썬의 리스트와 비슷해 보이지만 확연히 다른 점이 있다.
리스트와 달리 선언한 이후 크기 변경이 불가능하다
모든 원소의 데이터 타입이 동일해야 한다.
정형화된 데이터를 DataFrame의 효율적인 형태로 표현하고 관리하는 라리브러리다. Numpy 라이브러리와 같이 벡터 연산에 최적화되어 역시나 데이터 분석에 필수적이 라이브러리다. 우리가 관리하는 대부분의 데이터들이 엑셀처럼 정형화된 테이블 형태로 되어 있기 때문에 바로 그런 데이터 구조에서 Pandas를 아주 강력하고 편리한 기능을 제공하고 있다.
Pandas의 DataFrame은 2차원 테이블 구조로 row와 column으로 모든 원소를 구분하며 numpy array와 마찬가지로 하나의 column을 기준으로 모든 원소의 data type이 동일합니다.
Seaborn은 데이터 분석에 필수적인 시각화를 위한 라이브러리입니다. MATLAB의 기능들을 파이썬으로 가져오는 컨셉으로 만들어졌으며 깔끔한 그래프 작성이 가능합니다. 크게 pyplot과 OOP-style를 이용한 방식, 2가지로 구분되는데 pyplot는 빠르게 적당한 퀄리티의 그래프를 그릴 때 사용하며, OOP-style은 좀 더 디테일한 그래프를 구현할 때 사용합니다.
무엇보다 DataFrame을 직접적으로 구현하고 기본적으로 그려줄 수 있는 그래프의 종류가 풍부하기 때문에 통계 분석을 빠르고 정확하게 하는데 도움을 줍니다. Seabon에서 기본적으로 구현할 수 있는 그래프는 다음과 같습니다.
Lineplot
Boxplot
Jointplot
Pairplot
총 5주차 과정 중에 어느새 마지막 한주만을 남겨 놓고 있습니다. 뒤로 갈수록 어려운 개념들이 등장하고 한번만 강의를 들어서는 이해가 잘 안되는 부분들이 있어서 점점 복습의 중요도가 높아지고 있습니다. 그래도 남은 한주 화이팅해서 의미 있게 마무리해보려고 합니다. 화이팅!
#패스트캠퍼스 #내일배움카드취업 #국비지원교육 #K디지털기초역량훈련 #빅데이터분석첫걸음시작하기 #데이터분석강의 #새벽공부 #공부일기 #자기개발