brunch

You can make anything
by writing

C.S.Lewis

by 루나 Dec 25. 2019

데이터분석의 Hello World, IRIS 데이터

[야만인] 인공지능 탄생의 뒷이야기

모든 프로그램을 배울 때 우리는

print 함수로 "Hello World"를 찍는 것으로 시작합니다.


이것은 그 유명한 브라이언 커니핸 Brian Wilson Kernighan 과 데니스 리치 Dennis Ritchie 의

<THE C PROGRAMMING> 책의 첫장에서 유래합니다.

여러분이 데이터분석에 입문할 때도 접하는 시작점이 있습니다.

머신러닝을 위한 데이터를 오동안 제공해온

UCI 사이트에 가면

가장 많이 쓰이는 데이터로

붓꽃 IRIS 데이터가 압도적인 인기입니다.

대부분의 머신러닝 알고리즘을 배울 때

150행 5열로 이루어진 iris 데이터로 시작합니다.


많지도 않은 150행 5열의 iris 데이터가

어떻게 데이터분석의 Hello World로 자리잡게 되었을까요?

현대 통계학의 아버지인 영국의 통계학자 로널드 피셔 Ronald Aylmer Fisher 교수는

"The use of multiple measurements in taxonomic problems"라는 제목의 학술논문에서

선형판별분석(LDA; Linear Descriminant Analysis) 통계기법을 사용한 다변량통계분석(multivariate statistics) 예제에서

이 붓꽃 데이터세트를 소개했습니다.

이 분은 정말 역사에 남을 만한 분이시죠.

우리가 통계학 배우면서 접하는 수많은 용어들

이 분이 만드셨어요.


무작위추출법 random sampling

분산분석 ANOVA

유의확률 p-value 와 0.05

실험계획법 DoE(Design of Experiments)

다시 이야기로 돌아오겠습니다.


붓꽃 데이터를 만든 사람은

피셔 교수와 함께 연구하기 위해 미국에서 건너온 식물학자

에드가 앤더슨 Edgar Anderson 입니다.

이미 원로격인 통계학 권위자인 피셔 교수가

땡볕이 비추는 농장에 직접 나가기는 그렇고

마침 미국에서 Fellowship을 받아 연구하러 왔던 앤더슨 교수가

발생학 morphology 분야의 전문성을 살려 만들게 된 것으로 보입니다.

지금 우리가 보면 별 것 아닌 것 같지만

그래도 전문 식물학자가 보는

붓꽃의 발생학적 특징

즉, 붓꽃의 세부적인 분류를 가능하게 할 수 있는

4개의 요인으로 꽃잎과 꽃받침의 길이와 폭을 관찰하여

측정한 데이터입니다.

붓꽃 irises flowers 은

3종 Setosa, Versicolour, Virginica 으로 분류되며

각 종은 꽃잎과 꽃받침의 길이와 폭으로 구별되는 특징이 있습니다.

보기엔 다 똑같은 붓꽃인데

종에 따라 값도 다르다네요.

분류가 잘 되어 있어서 분석하는데

아주 유용한 데이터랍니다.


(출처)

https://archive.ics.uci.edu/ml/index.php

https://en.m.wikipedia.org/wiki/Ronald_Fisher

https://blog.naver.com/definitice/221127682474


적송 권건우 redpine71@wedatalab.com

http://blog.naver.com/redpine71

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.

前 삼성SDS technical architect

現 위데이터랩 대표이사

現 디랩아카데미 원장

現 성균관대, 한양대 겸임교수

現 세계진소왕태극권총회 서울분회장

#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권


루나 허령

https://brunch.co.kr/@hvnpoet

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.
#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari