[강의노트] KDT_day8_260115

Jan 15. 2026

orange 실습

orange 다운로드 링크

https://orangedatamining.com/download/

Orange Data Mining

Orange Data Mining Toolbox

https://orangedatamining.com

노코딩툴 오렌지3

데이터 분석을 위한 컴포넌트 기반 비주얼 프로그래밍 소프트웨어

1997년 슬로베니아 루블라냐 대학에서 개발

오픈소스

1. 사용하기 쉬운 인터페이스

2. 다양한 시각화 도구

3. 다양한 데이터 분석 및 머신러닝 도구

4. 플러그인 확장성

5. 오픈 소스

6. 풍부한 학습 자료

7. 다양한 데이터 소스와의 호완성

오렌지 기본 사용법

왼쪽에 있는 위젯을 오른쪽의 캔버스에 가져다 놓는 식으로 사용

darg and drop 하거나 아니면 버튼을 가볍게 Click.

아니면 캔버스에 있는 위젯에서 선을 뻗어서 연결해서 쓸 위젯을 선택.

File -> 오른쪽에만 점선이 있음 (출력만 지원)

Data Table -> 양쪽에 점선 (입력과 출력 모두 지원)

데이터 전처리

포브스에 따르면,

데이터 과학자가 가장 시간을 많이 쓰는 일 (60%)

동시에

데이터 사이언스에서 가장 재미 없는 일 (57%)

하지만 가장 중요한 일!

데이터의 유형 : 정형/비정형 데이터

모든 비정형 데이터는 정형 데이터로 변환하지 않으면 분석할 수 없다.

데이터의 유형 : 범주형 / 연속형 데이터

Categorical Data(범주형)

- Nominal (명목형) 순서를 매길 수 없음

- Ordinal (순서형) 순서가 있으나 항목별 차이가 일정하지 않음

Numeric Data(수치형)

Intreval (간격척도) 0점이 존재하지 않음

Ratio (비율척도) 0점이 존재함(Real Zero)

오렌지에서 데이터 타입(Type)과 역할(Role)

Type

Categorical -> 남자/여자

Numeric -> 20

text -> 홍길동

datetime -> 1990-12-01

Role

Feature -> 특성, 독립변수

Target -> 목표값, 종속변수

Meta -> 참조용 데이터

Skip -> 사용하지 않는 데이터

오렌지에서 주로 사용하는 데이터 파일 형식 -> csv(comma-separated values) 또는 Excel

Role의 feature를 Target으로 바꿀 수 있다.

Scatter Plot

Distributions

Titanic Data의 DataTable

Titanic Data의 Age Distributions (결측치는 무시되었다.)

Orage로 데이터 결측치 전처리 -> impute라는 위젯 활용

Average/Most frequent:

평균값이나 최빈값으로채움

As a distinct value:

채워져있음/비어있음을 나타내는 새로운 컬럼 추가. 숫자데이터에만 적용 가능.

Fixed values:

고정된 값으로 채움

Model-based imputer (simple tree):

다른 특성값들의 분포를 보고 어떤값을 채워넣을지 결정

Random values:

랜덤값으로 채움

Remove instances with unknown values:

결측치가 있는 인스턴스를 삭제함

타이타닉 데이터 분석 화면

Car Evaluation 데이터 분석 화면

keyword

작가의 이전글[강의노트] KDT_day7_260114[강의노트] KDT_day9_260116작가의 다음글