개념 원리를 중심으로 해보자!
Python 데이터 분석 난이도별 주요 라이브러리 정리
기초 분석(20개) / 중급 분석 (20개) / 고급 분석 (20개)를 정리했습니다.
각 라이브러리에 대한 개념 설명은 1편 씩 유튜브 쇼츠로도 업로드 예정입니다.~
1. 기초 분석 (20편)
데이터 다루기·기본 통계·기본 시각화 중심
pandas [판다스] – 표 데이터를 엑셀보다 똑똑하게
numpy [넘파이] – 배열·행렬 기반의 초고속 숫자 계산
matplotlib [맷플롯립] – 파이썬 시각화의 뿌리
seaborn [시본] – 통계 그래프를 예쁘고 쉽게
openpyxl [오픈파이엑셀] – 엑셀 파일 읽기·쓰기
csv / pathlib – 파일 다루기의 시작(경로·CSV 기본)
pyjanitor – 판다스 데이터 청소를 한 줄로
polars – 판다스 느낌, 더 빠른 컬럼 지향(러스트 기반)
duckdb – 파일 위에서 바로 SQL, 초간편 분석 DB
datatable – 큰 표도 쾌적하게(고성능 프레임)
pydantic – 데이터 스키마·검증(입출력 에러 방지)
pandera – 데이터프레임 유효성 검사(테스트처럼)
ydata-profiling – 한 번에 EDA 리포트 뽑기
missingno – 결측치 패턴 시각화
dateutil / pendulum – 날짜·시간 다루기의 표준
calplot – 캘린더 히트맵으로 일간 데이터 한눈에
xlwings – 엑셀을 파이썬으로 자동화
pyarrow – 파케(Parquet)·애로우(Arrow) 포맷 필수
fastparquet – 대용량 저장·로드 가속
sqlite3 – 로컬 파일 DB로 깔끔한 미니 파이프라인
2. 중급 분석 (20편)
통계·인터랙티브 시각화·수집·자동화·대시보드
scipy – 과학·수학(최적화·분포·신호처리) 기초 체력
statsmodels – 회귀·가설검정·시계열 ARIMA
plotly – 인터랙티브 차트·대시보드
bokeh – 브라우저 상호작용 시각화
altair – 선언형 문법으로 예쁜 그래프
hvplot / holoviews – 한 줄로 플롯 업그레이드
folium – 지도 위에 데이터(리프렛 기반)
geopandas – 지리 데이터(셰이프파일) 분석
shapely – 지리 도형 연산(버퍼·교차)
requests – 웹에서 데이터 가져오기(REST 기본)
beautifulsoup – HTML 파싱으로 웹 크롤링
selenium – 동적 페이지 자동 수집
httpx – 비동기 HTTP로 빠른 수집
pydub / librosa – 오디오·스펙트럼 기초 처리
Pillow – 이미지 기본 전처리
streamlit – 10분 만에 데이터 앱·데모
gradio – 모델·분석 결과 인터랙티브 데모
dash – 기업용 대시보드 프레임워크
great_expectations – 데이터 품질 체크(파이프라인 가드)
prefect – 워크플로 자동화(크론보다 똑똑하게)
3. 고급 분석 (20편)
머신러닝·딥러닝·특화 모델·빅데이터·MLOps
scikit-learn – 전통 ML의 표준(회귀·분류·클러스터링)
xgboost – 캐글의 단짝, 그라디언트 부스팅
lightgbm – 대용량에도 빠른 부스팅
catboost – 범주형 변수에 강한 부스팅
tensorflow / keras – 딥러닝 메인스트림
pytorch – 연구·프로덕션 모두 강한 딥러닝
transformers – NLP·멀티모달 사전학습 모델
sentence-transformers – 임베딩·유사도 검색
spacy – 이름인식·품사태깅 등 산업용 NLP
nltk – 전통 NLP 학습용 툴킷
prophet – 시계열 예측(페북 개발)
statsforecast – 대량 시계열 고속 예측
tsfresh / kats – 시계열 특징 추출·도구 모음
pyspark – 분산 데이터 처리(클러스터 규모)
dask – 랩탑에서도 병렬·분산처럼
ray – 분산 파이썬, 하이퍼파라미터 튜닝까지
mlflow – 실험 추적·모델 레지스트리
optuna – 하이퍼파라미터 자동 탐색
featuretools – 자동 피처 엔지니어링
shap / lime – 모델 결과를 설명 가능하게(XAI)
#기초분석 #파이썬 #pandas #numpy #matplotlib #seaborn #엑셀자동화 #파일다루기 #EDA #결측치 #데이터전처리 #시각화 #CSV #로컬DB #Parquet
#중급분석 #scipy #statsmodels #plotly #bokeh #altair #hvplot #folium #geopandas #크롤링 #requests #selenium #streamlit #dash #gradio #데이터품질 #great_expectations #워크플로 #prefect
#고급분석 #scikitlearn #xgboost #lightgbm #catboost #tensorflow #keras #pytorch #transformers #시계열예측 #prophet #pyspark #dask #ray #mlflow #optuna #XAI #shap #lime