brunch

Python 데이터분석 난이도별 주요 라이브러리 정리

개념 원리를 중심으로 해보자!

by Maven

Python 데이터 분석 난이도별 주요 라이브러리 정리

기초 분석(20개) / 중급 분석 (20개) / 고급 분석 (20개)를 정리했습니다.

각 라이브러리에 대한 개념 설명은 1편 씩 유튜브 쇼츠로도 업로드 예정입니다.~



1. 기초 분석 (20편)

데이터 다루기·기본 통계·기본 시각화 중심


pandas [판다스] – 표 데이터를 엑셀보다 똑똑하게

numpy [넘파이] – 배열·행렬 기반의 초고속 숫자 계산

matplotlib [맷플롯립] – 파이썬 시각화의 뿌리

seaborn [시본] – 통계 그래프를 예쁘고 쉽게

openpyxl [오픈파이엑셀] – 엑셀 파일 읽기·쓰기

csv / pathlib – 파일 다루기의 시작(경로·CSV 기본)

pyjanitor – 판다스 데이터 청소를 한 줄로

polars – 판다스 느낌, 더 빠른 컬럼 지향(러스트 기반)

duckdb – 파일 위에서 바로 SQL, 초간편 분석 DB

datatable – 큰 표도 쾌적하게(고성능 프레임)

pydantic – 데이터 스키마·검증(입출력 에러 방지)

pandera – 데이터프레임 유효성 검사(테스트처럼)

ydata-profiling – 한 번에 EDA 리포트 뽑기

missingno – 결측치 패턴 시각화

dateutil / pendulum – 날짜·시간 다루기의 표준

calplot – 캘린더 히트맵으로 일간 데이터 한눈에

xlwings – 엑셀을 파이썬으로 자동화

pyarrow – 파케(Parquet)·애로우(Arrow) 포맷 필수

fastparquet – 대용량 저장·로드 가속

sqlite3 – 로컬 파일 DB로 깔끔한 미니 파이프라인



2. 중급 분석 (20편)

통계·인터랙티브 시각화·수집·자동화·대시보드



scipy – 과학·수학(최적화·분포·신호처리) 기초 체력

statsmodels – 회귀·가설검정·시계열 ARIMA

plotly – 인터랙티브 차트·대시보드

bokeh – 브라우저 상호작용 시각화

altair – 선언형 문법으로 예쁜 그래프

hvplot / holoviews – 한 줄로 플롯 업그레이드

folium – 지도 위에 데이터(리프렛 기반)

geopandas – 지리 데이터(셰이프파일) 분석

shapely – 지리 도형 연산(버퍼·교차)

requests – 웹에서 데이터 가져오기(REST 기본)

beautifulsoup – HTML 파싱으로 웹 크롤링

selenium – 동적 페이지 자동 수집

httpx – 비동기 HTTP로 빠른 수집

pydub / librosa – 오디오·스펙트럼 기초 처리

Pillow – 이미지 기본 전처리

streamlit – 10분 만에 데이터 앱·데모

gradio – 모델·분석 결과 인터랙티브 데모

dash – 기업용 대시보드 프레임워크

great_expectations – 데이터 품질 체크(파이프라인 가드)

prefect – 워크플로 자동화(크론보다 똑똑하게)



3. 고급 분석 (20편)

머신러닝·딥러닝·특화 모델·빅데이터·MLOps


scikit-learn – 전통 ML의 표준(회귀·분류·클러스터링)

xgboost – 캐글의 단짝, 그라디언트 부스팅

lightgbm – 대용량에도 빠른 부스팅

catboost – 범주형 변수에 강한 부스팅

tensorflow / keras – 딥러닝 메인스트림

pytorch – 연구·프로덕션 모두 강한 딥러닝

transformers – NLP·멀티모달 사전학습 모델

sentence-transformers – 임베딩·유사도 검색

spacy – 이름인식·품사태깅 등 산업용 NLP

nltk – 전통 NLP 학습용 툴킷

prophet – 시계열 예측(페북 개발)

statsforecast – 대량 시계열 고속 예측

tsfresh / kats – 시계열 특징 추출·도구 모음

pyspark – 분산 데이터 처리(클러스터 규모)

dask – 랩탑에서도 병렬·분산처럼

ray – 분산 파이썬, 하이퍼파라미터 튜닝까지

mlflow – 실험 추적·모델 레지스트리

optuna – 하이퍼파라미터 자동 탐색

featuretools – 자동 피처 엔지니어링

shap / lime – 모델 결과를 설명 가능하게(XAI)



#기초분석 #파이썬 #pandas #numpy #matplotlib #seaborn #엑셀자동화 #파일다루기 #EDA #결측치 #데이터전처리 #시각화 #CSV #로컬DB #Parquet


#중급분석 #scipy #statsmodels #plotly #bokeh #altair #hvplot #folium #geopandas #크롤링 #requests #selenium #streamlit #dash #gradio #데이터품질 #great_expectations #워크플로 #prefect


#고급분석 #scikitlearn #xgboost #lightgbm #catboost #tensorflow #keras #pytorch #transformers #시계열예측 #prophet #pyspark #dask #ray #mlflow #optuna #XAI #shap #lime




keyword
매거진의 이전글왜 ‘방문자’가 아니라 ‘세션’으로 볼까