orange 실습
orange 다운로드 링크
https://orangedatamining.com/download/
노코딩툴 오렌지3
데이터 분석을 위한 컴포넌트 기반 비주얼 프로그래밍 소프트웨어
1997년 슬로베니아 루블라냐 대학에서 개발
오픈소스
1. 사용하기 쉬운 인터페이스
2. 다양한 시각화 도구
3. 다양한 데이터 분석 및 머신러닝 도구
4. 플러그인 확장성
5. 오픈 소스
6. 풍부한 학습 자료
7. 다양한 데이터 소스와의 호완성
오렌지 기본 사용법
왼쪽에 있는 위젯을 오른쪽의 캔버스에 가져다 놓는 식으로 사용
darg and drop 하거나 아니면 버튼을 가볍게 Click.
아니면 캔버스에 있는 위젯에서 선을 뻗어서 연결해서 쓸 위젯을 선택.
File -> 오른쪽에만 점선이 있음 (출력만 지원)
Data Table -> 양쪽에 점선 (입력과 출력 모두 지원)
데이터 전처리
포브스에 따르면,
데이터 과학자가 가장 시간을 많이 쓰는 일 (60%)
동시에
데이터 사이언스에서 가장 재미 없는 일 (57%)
하지만 가장 중요한 일!
데이터의 유형 : 정형/비정형 데이터
모든 비정형 데이터는 정형 데이터로 변환하지 않으면 분석할 수 없다.
데이터의 유형 : 범주형 / 연속형 데이터
Categorical Data(범주형)
- Nominal (명목형) 순서를 매길 수 없음
- Ordinal (순서형) 순서가 있으나 항목별 차이가 일정하지 않음
Numeric Data(수치형)
Intreval (간격척도) 0점이 존재하지 않음
Ratio (비율척도) 0점이 존재함(Real Zero)
오렌지에서 데이터 타입(Type)과 역할(Role)
Type
Categorical -> 남자/여자
Numeric -> 20
text -> 홍길동
datetime -> 1990-12-01
Role
Feature -> 특성, 독립변수
Target -> 목표값, 종속변수
Meta -> 참조용 데이터
Skip -> 사용하지 않는 데이터
오렌지에서 주로 사용하는 데이터 파일 형식 -> csv(comma-separated values) 또는 Excel
Orage로 데이터 결측치 전처리 -> impute라는 위젯 활용
Average/Most frequent:
평균값이나 최빈값으로채움
As a distinct value:
채워져있음/비어있음을 나타내는 새로운 컬럼 추가. 숫자데이터에만 적용 가능.
Fixed values:
고정된 값으로 채움
Model-based imputer (simple tree):
다른 특성값들의 분포를 보고 어떤값을 채워넣을지 결정
Random values:
랜덤값으로 채움
Remove instances with unknown values:
결측치가 있는 인스턴스를 삭제함