brunch

You can make anything
by writing

C.S.Lewis

by 루나 Jul 30. 2021

머신러닝 발전에 기여한 주요 데이터셋

[야만인] 인공지능 발전의 뒷이야기

2020년 우리나라에

국가의 디지털 역량을 강화하기 위한 '디지털 뉴딜 사업'으로 AI 허브가 생긴 것을 아시나요?

AI 허브는 국내 기업, 연구소, 개인 등이 자체적으로 확보하기 어려운

양질의 대용량 인공지능 학습용 데이터들을 공개하고 있는데요.

데이터를 모으는 AI 허브와 같은 사이트의 시초는

UCI 머신러닝 리파지토리 UC Irvine Machine Learning Repository 입니다.

초기 머신러닝 발전에 기여한 수많은 데이터셋들이 공개되어 있죠.

UCI 머신러닝 리파지토리는

1987년 UCI 대학원생인 데이비드 아하 David Aha 와 동료들이 만든 데이터셋 모음 사이트인데요.

이 중 주요 데이터셋들에 대한 비하인드 스토리와 구성을 살펴보도록 하겠습니다.

와인 품질 데이터셋 Wine Quality DataSet


2009년 파울로 코르테즈 Paulo Cortez 외 4명은 데이터를 수집, 분석하여

와인 맛에 대한 선호도를 예측할 수 있다는 내용의 논문을 발표했습니다.

논문에 쓰인 데이터는

포르투갈 비뉴 베르드 Vinho Verde 지역에서 만들어진

레드와인 샘플 1,599개와

화이트와인 샘플 4,899개를 측정한 것입니다.

각 샘플들은 객관적인 속성 11가지와 주관적인 속성 '품질(맛)'에 대한 데이터를 포함하고 있습니다.


와인 품질(맛)은 0~10으로 평가되었는데

적어도 3명 이상의 와인 전문가들의 주관적인 의견이 반영되었다고 합니다.

이 와인 품질 데이터셋을 통해 와인마다 갖는 고유한 속성 데이터를 입력하면

와인 품질(맛)을 결정할 수 있는 머신러닝 회귀분석을 학습해 볼 수 있습니다.

보스턴 집값 데이터셋 Boston Housing Price DataSet


1978년 하버드 도시개발학과 데이비드 해리슨 David Harrison 과 다니엘 루빈펠드 Daniel Rubinfeld 는

깨끗한 공기가 집값에 큰 영향을 미친다는 연구결과를 발표했습니다.

그들은 연구결과를 뒷받침하기 위해

환경과 집값의 변동을 보여주는 데이터셋을 만들었습니다.

이름하여 '보스턴 집값 데이터셋'

이 데이터셋은 보스턴 지역의 주택 506채에 대한 가격과

이에 영향을 미치는 요소들을 정리한 것입니다.


집값에 영향을 미치는 요소들은

범죄율, 일산화질소 농도 등을 포함해 총 14개 항목으로 나누어져 있습니다.

주어진 환경 요인들과 집값 데이터 분석을 통해 회귀함수를 만들면

환경 요인만 보고도 집값을 예측할 수 있게 학습시킬 수 있는 것입니다.


보스턴 집값 데이터셋은 현재 머신러닝의 선형회귀를 테스트하는 가장 유명한 데이터셋이 되었습니다.

피마 인디언 당뇨병 데이터셋 Pima Indian Diabetes DataSet


1988년 피마 인디언들의 당뇨병 발생 여부를 예측할 수 있는 방법에 대한 논문이 등장합니다.

피마 인디언은 1950년대까지는 매우 건강한 부족이었는데

미국 정부의 원주민 이주정책으로 사막에서 미국 애리조나주로 이주 후

전체 인구 중 60%가 당뇨와 비만으로 고통받는 비운의 부족이 되었습니다.

이에 의문을 가진 학자들은

피마 인디언의 건강상태에 따른 당뇨 발병을 예측하기 위해

데이터를 수집하기 시작했습니다.

그렇게 만들어진 피마 인디언 당뇨병 데이터셋은

576명의 케이스에 대해 각각 8개의 정보와 당뇨병 여부를 추출한 것입니다.

임신 횟수 Pregnancies

포도당 부하 검사 수치 Glucose

혈압 Blood Pressure

팔 삼두근 뒤쪽 피하지방 Skin Thickness

혈청 인슐린 Insulin

체질량 지수 BMI

당뇨 내력 가중치 Diabetes Pedigree Function

나이 Age

당뇨병 여부 Outcome

이 데이터셋에서 당뇨병 여부와 8개 정보들 간의 관계 파악을 통해

당뇨 발병을 예측할 수 있는 머신러닝 예측모델을 만들 수 있습니다.

이렇게 다양한 데이터셋이 있었기에 머신러닝이 발전할 수 있었답니다.

독자 여러분도 평상시에 그냥 지나쳤던 정보들을 하나로 모으고 정리해 보는 것이 어떨까요?

우리가 만든 데이터셋이 인공지능 역사에 한 획을 그을 수도 있지 않을까요?


3권이 나왔습니다. 많은 사랑 부탁드리려요.


(교보문고) http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791197119927&orderClick=LAG&Kc=

(yes24) http://m.yes24.com/Goods/Detail/102821360

(알라딘) https://www.aladin.co.kr/shop/wproduct.aspx?partner=rss&ISBN=K452733925


(참고)

https://doi.org/10.1016/j.dss.2009.05.016

https://ai-times.tistory.com/m/431

https://aihub.or.kr/ai_data

https://archive.ics.uci.edu/ml/datasets/wine+quality

https://codedragon.tistory.com/9480

https://digital.go.kr/front/intro/introMain.do

https://m.blog.naver.com/samsjang/220991490995

https://wikidocs.net/49966

https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

https://www.kaggle.com/c/boston-housing#description

https://www.kaggle.com/uciml/pima-indians-diabetes-database



적송 권건우 redpine71@wedatalab.com

http://blog.naver.com/redpine71

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구 끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.

前 삼성SDS technical architect

現 위데이터랩 대표이사 http://www.wedatalab.com

現 디랩아카데미 원장

現 성균관대, 한양대 겸임교수

現 세계진소왕태극권총회 서울분회장 http://www.chenxiaowang.kr

#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권


김가인

https://www.instagram.com/ga_casso/

세상에 알려지지 않은 면을 밝히자는 마음으로 방송PD를 꿈꾸며 신문방송학과에 진학했다. 항상 '한다면 한다'는 마인드로 새로운 것에 도전하며 꿈을 찾아가는 중이다.


전준혁

https://www.instagram.com/wjswnsgur456/

각종 기초학문을 공부하여 장점들을 융합하고 단점들을 극복할 방법을 찾기 위해 여러가지 학문으로 갈 수 있는 경영학과를 선택한 학생. 코딩과 알고리즘을 공부하는 것이 사고과정을 길러준다고 판단하여 공부를 시작했고, 나아가 인공지능의 역사를 탐구하고 있다.


루나 허령

https://brunch.co.kr/@hvnpoet

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.

#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari