알고리즘 케이스 실습 계속, 데이터 시각화, 시각화 코드 실습
sKDT_day6_260113_알고리즘 케이스 실습 계속
https://colab.research.google.com/drive/1fYl56KdtftHK8v8a8vi1OacXRh_P2Yj5?usp=sharing
from sklearn.model_selection import train_test_split
X_train, X_test , y_train, y_test = train_test_split(df_scaled, df_labels,
test_size = 0.2, random_state = 156, stratify = df_labels)
# 데이터 분할 코드 # 0.8에 해당하는 데이터로 학습, 0.2에 해당하는 데이터로 테스트
데이터 시각화
데이터 시각화 요소를 구성하는 변수 유형
정량적/연속형숫자 : 임의의 숫자값. 정수, 유리수 또는 실수
정량적/이산형숫자 : 이산 단위의 숫자. 대부분 정수지만 예외도 있음. 예를들어, 주어진 데이터 세트에 중간값이 존재할 수 없는 경우 숫자 0.5, 1.0, 1.5도 이산적으로 처리될 수 있음.
정성적/범주순서없음 : 순서가 없는 카테고리. 고유한 순서가 없는 이산적이고 고유한 범주. 이러한 변수를 팩터라고 함.
정성적/범주순서있음 : 순서가 있는 카테고리. 순서가 있는 이산적이고 고유한 범주 예를들어, "fair"는 항상 "good"과 "poor" 사이에 있음.이러한 변수는 순서 요인이라고도 함.
날짜 또는 시간 : 특정 요일 및/또는 시간 또한 7월 4일 또는 12월 25일 (연도제외)과 같은 일반 날짜
텍스트 : 자유 형식 텍스트. 필요한 경우 범주형으로 처리할 수 있음
한 그래프에 최대로 많이 표현할 수 있는 정보량은 5개. (가로축, 세로축, 색깔, 점의 크기, 점의 모양) 하지만 한 그래프에 너무 많은 정보량을 표시하면 복잡하고 가시성이 떨어져서 의미가 없다.
수량의 시각화
Bars Dots Grouped Bars Stacked Bars Heatmap
분포의 시각화
Histogram Density Plot Cumulative Density Quantile-Quantile Plot
Boxplots Violins Strip Chats Sina Plots Stacked Histograms Overlapping Densities
Ridgeline Plot
비율의 시각화
Pie Chart Bars Stacked Bars Multiple Pie Charts Grouped Bars Stacked Bars
Stacked Densities Mosaic Plot Treemap Parallel Sets
x-y 관계로 시각화
Scatterplot Bubble Chart Paired Scatterplot Slopegraph Density Contours
2D Bins Hex Bins Correlogram Line Graph Connected Scatterplot Smooth Line Graph
지리공간 데이터의 시각화
Map Choropleth Cartogram Cartogram Heatmap
불확실성의 시각화
Error Bars 2D Error Bars Graded Error Bars Confidence Strips Eyes Half-Eyes
Quantile Dot Plot Confidence Band Graded Confidence Band Fitted Draws
KDT_day7_260114 시각화 코드 실습 (코드를 이런 식으로 쓰면 이런 모양의 plot이 그려진다는 식으로 빠르게 훑어 보았음)
https://colab.research.google.com/drive/1rpBcq8tRWNjRRY9Blus2birCQr0rBn6U?usp=sharing
sns._plot(data = iris, x = "_", y = "_") #파이썬 시본(seaborn) 시각화의 기본형