brunch

You can make anything
by writing

C.S.Lewis

by DataAIchemist Jun 12. 2024

붓꽃(Iris) 그리고 데이터

붓꽃이 뭐길래

꽃을 싫어하는 사람은 좀처럼 보기 힘들다. 알레르기가 있는 사람 빼고. 알레르기가 있는 사람도, 사실 속마음은 꽃을 좋아하는 사람이 있을 것이다. 몸은 싫어하지만, 마음은 어쩐지 끌리는 그런 사람. 그리고 다른 한편으로는, 그런 사람도 있을 것이다. 사회적 시선 때문에, 옆사람들과 껄끄러움을 만들지 않기 위해서라도 '그냥 좋아~' 하는 사람들도.

이유야 이렇든 저렇든 우리는, 꽃을 좋아한다.

데이터를 다루는 사람들도 꽃을 좋아한다.

특히 붓꽃(Iris).

데이터를 좀 다뤄봤다고 하는 사람들 중에 아이리스 알아요?라고 하면 모르는 사람이 없을 거다.

붓꽃은 데이터를 다루는 사람이라면 누구나 처음 만나는 그런 꽃이다.

오늘은 그런 붓꽃에 대해 이야기해보려고 한다.

붓꽃의 탄생

1936년. 2차 대전의 전운이 감돌던 때, 현대 통계학의 아버지 로널드 피셔의 한 논문이 발표된다.

'THE USE OF MULTIPLE MEASUREMENTS IN TAXONOMIC PROBLEMS' (분류문제에 관한 다양한 측정방법 활용)

이 논문은 생물학 논문답게, 종을 분류하는 방법에 대해 수록하고 있다. 그런데 생물학에 문외한인 우리가 흔히 생각하는 것처럼, 어떤 기준을 알려주고 그 기준에 따라 분류하는 것이 아니다. 철저하게 수학적 방법에 따라 종을 분류하고, 세부적인 분류까지 해내는 논문이다.

여기에 수록되어 있는 150줄의 데이터가 바로 90년 가까이 데이터과학 입문자들이 써먹고 있는 그 붓꽃 데이터 iris이다.

Iris 데이터의 일부. 3개의 종별로 각각 50개의 데이터가 있다.

갑자기 숫자를 보니 머리가 아플 수도 있다. 하지만 데이터를 만지는 사람들은 그걸 즐긴다.

데이터과학 업계에서 이 데이터가 유명한 이유가 세 가지 있다.

첫째. 세 가지로 나뉘어있어 다중분류 작업하기 좋다. 물론 이진분류도 가능하다. 이진분류란 데이터를 두 가지로 나누는 방법이다. 예를 들면 이 데이터가 setosa냐 아니냐?라는 식이다.

둘째. 데이터의 개수가 각각 50개이고, 결측값도 없다. 이상치도 잘 없고. 그래서 처음 데이터처리를 시작할 때 겪어야 하는 여러 골치 아픈 문제들을 일단 생략하고 본질에 집중할 수 있기 때문이다.

셋째. 위 두 가지 이유로 데이터과학을 배우고 가르칠 때 아주 좋다. 어디서 다운로드할 필요도 없다. 파이썬의 sklearn 라이브러리에 내장되어 있는 데이터셋이기도 하기 때문이다.

이런 세 가지 이유로, 데이터과학 분야에서, 아이리스는 제일 사랑받는 꽃이자 데이터셋이 되었다.

저 어질어질한 숫자들과 예쁜 꽃이 뭔 상관인지 궁금할 것이다. 데이터를 만지는 사람들에게 저 숫자들은 그냥 숫자가 아니다. 한 줄 한 줄이, 각각의 꽃 한 송이로 다가온다.

흔히 도메인 지식이라고 한다. 분석가에게 필요한 것은 세 가지가 있다고 한다. 1. 통계 및 수학 관련 지식(통계처리해야 하니까 통계지식이 필요하다.), 2. 컴퓨터 관련 지식(코드 짜야하니까 당연히 프로그래밍과도 친해야 한다.), 3. 마지막으로 도메인 지식이라는, 분석하고자 대상 분야에 관한 지식이다. 만약에 내가 농작물 데이터를 분석한다면, 나는 농작물에 대한 전문가가 되어야 한다. 편의점 판매 데이터를 분석하려면, 최소한 편의점 알바라도 해 보고서야 분석이 가능하다.

도메인 지식이란 그런 것이다. 당장이라도 가상현실로 뛰어들어가야 할 것 같은 공대생이. 그 반대방향인 붓꽃의 세상으로 뛰어나오는 듯한 형상을 생각해 보라. 놀랍지 않은가. 데이터과학의 매력이란 그런 곳에 있다.

150개의 데이터가 그냥 단순한 숫자가 아닌, 꽃이라는 의미로 다가오도록 꽃을 연구한 이후에야. 진정하게 iris 데이터를 분석해 보았다고 할 수 있는 것이다. 데이터 각각의 이름을 불러준 이후에야 말이다.