[강의노트] KDT_day7_260114

알고리즘 케이스 실습 계속, 데이터 시각화, 시각화 코드 실습

Jan 14. 2026

sKDT_day6_260113_알고리즘 케이스 실습 계속

Run, share, and edit Python notebooks

https://colab.research.google.com/drive/1fYl56KdtftHK8v8a8vi1OacXRh_P2Yj5

from sklearn.model_selection import train_test_split

X_train, X_test , y_train, y_test = train_test_split(df_scaled, df_labels,

test_size = 0.2, random_state = 156, stratify = df_labels)

# 데이터 분할 코드 # 0.8에 해당하는 데이터로 학습, 0.2에 해당하는 데이터로 테스트

데이터 시각화

데이터 시각화 요소를 구성하는 변수 유형

정량적/연속형숫자 : 임의의 숫자값. 정수, 유리수 또는 실수

정량적/이산형숫자 : 이산 단위의 숫자. 대부분 정수지만 예외도 있음. 예를들어, 주어진 데이터 세트에 중간값이 존재할 수 없는 경우 숫자 0.5, 1.0, 1.5도 이산적으로 처리될 수 있음.

정성적/범주순서없음 : 순서가 없는 카테고리. 고유한 순서가 없는 이산적이고 고유한 범주. 이러한 변수를 팩터라고 함.

정성적/범주순서있음 : 순서가 있는 카테고리. 순서가 있는 이산적이고 고유한 범주 예를들어, "fair"는 항상 "good"과 "poor" 사이에 있음.이러한 변수는 순서 요인이라고도 함.

날짜 또는 시간 : 특정 요일 및/또는 시간 또한 7월 4일 또는 12월 25일 (연도제외)과 같은 일반 날짜

텍스트 : 자유 형식 텍스트. 필요한 경우 범주형으로 처리할 수 있음

한 그래프에 최대로 많이 표현할 수 있는 정보량은 5개. (가로축, 세로축, 색깔, 점의 크기, 점의 모양) 하지만 한 그래프에 너무 많은 정보량을 표시하면 복잡하고 가시성이 떨어져서 의미가 없다.

수량의 시각화

Bars Dots Grouped Bars Stacked Bars Heatmap

분포의 시각화

Histogram Density Plot Cumulative Density Quantile-Quantile Plot

Boxplots Violins Strip Chats Sina Plots Stacked Histograms Overlapping Densities

Ridgeline Plot

비율의 시각화

Pie Chart Bars Stacked Bars Multiple Pie Charts Grouped Bars Stacked Bars

Stacked Densities Mosaic Plot Treemap Parallel Sets

x-y 관계로 시각화

Scatterplot Bubble Chart Paired Scatterplot Slopegraph Density Contours

2D Bins Hex Bins Correlogram Line Graph Connected Scatterplot Smooth Line Graph

지리공간 데이터의 시각화

Map Choropleth Cartogram Cartogram Heatmap

불확실성의 시각화

Error Bars 2D Error Bars Graded Error Bars Confidence Strips Eyes Half-Eyes

Quantile Dot Plot Confidence Band Graded Confidence Band Fitted Draws

KDT_day7_260114 시각화 코드 실습 (코드를 이런 식으로 쓰면 이런 모양의 plot이 그려진다는 식으로 빠르게 훑어 보았음)

Run, share, and edit Python notebooks

https://colab.research.google.com/drive/1rpBcq8tRWNjRRY9Blus2birCQr0rBn6U

sns._plot(data = iris, x = "_", y = "_") #파이썬 시본(seaborn) 시각화의 기본형

keyword