brunch

You can make anything
by writing

C.S.Lewis

by DataAIchemist Jun 12. 2024

붓꽃(Iris) 그리고 데이터

붓꽃이 뭐길래


꽃을 싫어하는 사람은 좀처럼 보기 힘들다. 알레르기가 있는 사람 빼고. 알레르기가 있는 사람도, 사실 속마음은 꽃을 좋아하는 사람이 있을 것이다. 몸은 싫어하지만, 마음은 어쩐지 끌리는 그런 사람. 그리고 다른 한편으로는, 그런 사람도 있을 것이다. 사회적 시선 때문에, 옆사람들과 껄끄러움을 만들지 않기 위해서라도 '그냥 좋아~' 하는 사람들도.


이유야 이렇든 저렇든 우리는, 꽃을 좋아한다.



데이터를 다루는 사람들도 꽃을 좋아한다.

특히 붓꽃(Iris).

데이터를 좀 다뤄봤다고 하는 사람들 중에 아이리스 알아요?라고 하면 모르는 사람이 없을 거다.

붓꽃은 데이터를 다루는 사람이라면 누구나 처음 만나는 그런 꽃이다.

오늘은 그런 붓꽃에 대해 이야기해보려고 한다.



붓꽃의 탄생

1936년. 2차 대전의 전운이 감돌던 때, 현대 통계학의 아버지 로널드 피셔의 한 논문이 발표된다.

'THE USE OF MULTIPLE MEASUREMENTS IN TAXONOMIC PROBLEMS' (분류문제에 관한 다양한 측정방법 활용)

이 논문은 생물학 논문답게, 종을 분류하는 방법에 대해 수록하고 있다. 그런데 생물학에 문외한인 우리가 흔히 생각하는 것처럼, 어떤 기준을 알려주고 그 기준에 따라 분류하는 것이 아니다. 철저하게 수학적 방법에 따라 종을 분류하고, 세부적인 분류까지 해내는 논문이다.

여기에 수록되어 있는 150줄의 데이터가 바로 90년 가까이 데이터과학 입문자들이 써먹고 있는 그 붓꽃 데이터 iris이다.

Iris 데이터의 일부. 3개의 종별로 각각 50개의 데이터가 있다.

갑자기 숫자를 보니 머리가 아플 수도 있다. 하지만 데이터를 만지는 사람들은 그걸 즐긴다.

데이터과학 업계에서 이 데이터가 유명한 이유가 세 가지 있다.

첫째. 세 가지로 나뉘어있어 다중분류 작업하기 좋다. 물론 이진분류도 가능하다. 이진분류란 데이터를 두 가지로 나누는 방법이다. 예를 들면 이 데이터가 setosa냐 아니냐?라는 식이다.

둘째. 데이터의 개수가 각각 50개이고, 결측값도 없다. 이상치도 잘 없고. 그래서 처음 데이터처리를 시작할 때 겪어야 하는 여러 골치 아픈 문제들을 일단 생략하고 본질에 집중할 수 있기 때문이다.

셋째. 위 두 가지 이유로 데이터과학을 배우고 가르칠 때 아주 좋다. 어디서 다운로드할 필요도 없다. 파이썬의 sklearn 라이브러리에 내장되어 있는 데이터셋이기도 하기 때문이다.

이런 세 가지 이유로, 데이터과학 분야에서, 아이리스는 제일 사랑받는 꽃이자 데이터셋이 되었다.



저 어질어질한 숫자들과 예쁜 꽃이 뭔 상관인지 궁금할 것이다. 데이터를 만지는 사람들에게 저 숫자들은 그냥 숫자가 아니다. 한 줄 한 줄이, 각각의 꽃 한 송이로 다가온다.

 흔히 도메인 지식이라고 한다. 분석가에게 필요한 것은 세 가지가 있다고 한다. 1. 통계 및 수학 관련 지식(통계처리해야 하니까 통계지식이 필요하다.), 2. 컴퓨터 관련 지식(코드 짜야하니까 당연히 프로그래밍과도 친해야 한다.), 3. 마지막으로 도메인 지식이라는, 분석하고자 대상 분야에 관한 지식이다. 만약에 내가 농작물 데이터를 분석한다면, 나는 농작물에 대한 전문가가 되어야 한다. 편의점 판매 데이터를 분석하려면, 최소한 편의점 알바라도 해 보고서야 분석이 가능하다.

 도메인 지식이란 그런 것이다. 당장이라도 가상현실로 뛰어들어가야 할 것 같은 공대생이. 그 반대방향인 붓꽃의 세상으로 뛰어나오는 듯한 형상을 생각해 보라. 놀랍지 않은가. 데이터과학의 매력이란 그런 곳에 있다.

150개의 데이터가 그냥 단순한 숫자가 아닌, 꽃이라는 의미로 다가오도록 꽃을 연구한 이후에야. 진정하게 iris 데이터를 분석해 보았다고 할 수 있는 것이다. 데이터 각각의 이름을 불러준 이후에야 말이다.



피셔는 이렇게 말했다.

굳이 번역은 하지 않겠다. 나보다 GPT가 더 잘하니까.

 아무튼 여러 가지 수학적 처리를 거친 후에, 종들의 수학적 특징을 말 그대로 '추출'해냈다. 그렇게 해서 붓꽃의 종을 분류할 수 있게 된 것이다. 이쯤 되면 궁금할 것이다. 과연 그 붓꽃. 어떻게 생겼을까?



시기상조

인터넷 검색 한 번이면 붓꽃을 볼 수 있을 것이다. 하지만 조금만 더 참아주세요. 데이터를 조금 더 보고 붓꽃을 감상해 보자.

피셔가 36년에 논문으로 IRIS 데이터를 발표한 이후, 현대를 사는 우리는, 그 데이터를 이렇게 볼 수 있게 되었다.

sns.pairplot(df, hue=target, palette='Set1')

한 줄로 간단하게 우리는 멋진 그래프, 아니 붓꽃을 볼 수 있다.

각각의 점들은 붓꽃의 특성을 나타낸다. 총 네 가지 변수가 있다.
(꽃잎, 꽃받침) ×(넓이, 길이)

그래프에서 꽃을 감상해 보자.

붉은색 점은 세토사 setosa다. 세토사는 꽃잎이 넓은 대신 짧다. 꽃받침은 훨씬 더 작다. 약간 뭉툭하고 앙증맞다고 해야 할까. 그런 꽃이다. 다른 꽃 하고 확연하게 작은 느낌이 날 것이다.

파란 점은 버시컬러 versicolor다. 다른 종에 비해 적당한 크기, 적당한 넓이. 보고 있으면 편안한 느낌을 줄 것이다. 적당한 비율을 가진 버시컬러. 무난 무난한 특성을 보인다.

녹색 점은 버지니카 virginica다. 가장 세련된 모습일거이다. 꽃잎의 길이가 제일 긴 대신, 넓이가 좁아 길게 쭉 뻗은 꽃을 볼 수 있을 것이다. 꽃받침도 그만큼 크고 넓다. 가장 화려한 꽃이다.



정말일까? 이제 붓꽃을 보자.
















파란 점 - 빨간 점 - 녹색점


데이터에서 읽은 대로,

세토사는 다른 꽃에 비해 작아 보인다.

버시컬러는 네모지고 널찍널찍해 보이고,

버지니카는 제일 길쭉길쭉 화려해 보인다.

보라색에 흰색, 노란색이 있으니 참 화려하다.


데이터를 읽으면, 세상을 볼 수 있다. 숫자에서, 아름다움을 본다.

하지만 그 데이터셋에도 색이 이렇게 예쁘다고는 하지 않았다.


도메인 지식이란 이런 것이다.

데이터를 모으고 수집하고 처리하는 과정에서 불가피하게 버려지는 것이 있다.

그럼에도 불구하고, 알고 있는 것이다.

언제든지 거기에는 말하지 않은 어떤 사실이 있다고.



첫 글. 제 소개.

갓 데이터에 입문했습니다.

현업에서 다양한 경험을 쌓고 있고, 이를 다양한 사람들과 나누려 합니다.

이론에서 배운 것을 현실로 가져오고, 현실을 이론의 세계로 그려보기도 합니다.

그런 글을 지향합니다.




참고

https://science.snu.ac.kr/newsroom/view/2/11/910

https://brunch.co.kr/@hvnpoet/82






                    

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari