brunch

매거진 orange3

You can make anything
by writing

C.S.Lewis

by 김영하 Oct 03. 2022

생각대로 쉽게 해보는 데이터 분석 및 머신러닝 도구

orange를 소개합니다.

데이터 분석 및 머신러닝을 하고 싶은데 시중에 있는 많은 책들은 대부분 코딩 위주로 접근을 합니다.

사실 데이터 분석이라는 것이 데이터를 이해하고 싶은 분석가와 데이터 서로간의 이야기라고 생각합니다.


데이터 넌 누구니? 너는 어떻게 생겼고, 어떤 것을 가지고 있니? 등등...


이런 이야기를 대부분 파이썬 및 R로 코딩을 하면서 접근을 합니다. 강의를 듣거나 책을 보면 그 당시에서는 항상 잘 되는데 막상 직접 하려면 잘 되지 않습니다.


영어로 만들어진 그리고 어려운 용어들이 잔뜩 들어가 있는 공식 문서들을 보면서 도대체 어떻게 코딩을 해야할지 그리고 실제 코딩을 하다가 실행이 안 될 때 대부분 오타로 인한 것이지만 어려움을 느끼게 됩니다.


그냥 쉽게 데이터와 이야기 할 수 있는 수단은 없을까요?

그래서 오늘 orange라는 데이터 분석 및 머신러닝 도구를 소개하고자 합니다.


https://orangedatamining.com/


이 orange는 슬로베니아에서 가장 오래되고 가장 큰 대학교인 류블랴나 대학교에서 1996년 10월 10일에 처음 공개되었습니다. 25년전 부터 만들어져 왔고 가장 최근이 2022년 5월 13일 3.32.0버전이 공개되었습니다. 


orange는 오픈 소스 데이터 분석, 시각화, 머신 러닝 도구입니다. 이 orange의 장점은 크로스 플랫폼, 즉, 윈도우즈, 리눅스, 맥에서 실행 가능하다는 점과 빠르게 탐색적 정성 데이터 분석과 대화형 데이터 시각화를 위해 비주얼 프로그래밍 환경을 제공한다는 점입니다. 즉, 데이터 마이닝, 데이터 분석, 데이터 시각화, 머신러닝의 각 개념 및 단계를 아이콘으로 표현한 컴포넌트 기반의 비주얼 프로그래밍 방식으로 쉽게 가능하다는 것입니다.


컴포넌트를 위젯(widget)이라고 하며, 간단한 데이터 시각화, 데이터 처리, 전처리, 모델 평가 등을 구현해 놓았습니다.


25년 동안 여러 버전이 존재해 왔습니다. 그동안 3.0버전까지는 C++로 개발한 컴포넌트를 파이썬으로 사용할 수 있도록 해놓았습니다. 3.0 버전부터는 데이터 분석을 위해 파이썬의 유명한 라이브러리인 NumPy, Scipy, Scikit-Learn을 사용하고 있으며, 사용자 인터페이스를 위해서 크로스 플랫폼 라이브러리인 Qt를 사용합니다.


앞으로 조금씩 orange를 알아보도록 하겠습니다.







브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari