딥러닝의 Hello World, MNIST 데이터셋

[야만인] 인공지능 탄생의 뒷이야기

Apr 9. 2020

머신러닝의 Hello World가 iris 데이터셋이라면

딥러닝에서는 MNIST(Modified National Institute of Standards and Technology Database)입니다.

MNIST는 손으로 쓴 숫자로 이루어진 대형 데이터베이스입니다.

1989년 얀 레쿤 CNN 논문 발표
1995년 NIST 데이터셋 1st Edition 발표
1998년 MNIST 데이터셋 발표 (크리스 버지스 Chris Burges, 코리나 코테스 Corina Cortes, 얀 레쿤 Yann LeCun)
2016년 NIST 데이터셋 2nd Edition 발표
2017년 EMNIST 발표

1986년 NIST에서는 우편번호를 읽어 빠르게 분류할 수 있는 방법을 고민했습니다.

수많은 우편물을 분류하는데 실수도 많고, 비용도 많이 들었기 때문입니다.

1989년 얀 레쿤은 CNN(Convolutional Neural Network) 알고리즘을 세상에 내놓았고,

딥러닝이 이 문제를 해결할 수 있을거라 생각합니다.

우편봉투로부터 숫자를 하나씩 분리해냈고,

다양한 크기의 숫자에 크기도 정방형이 아닌 40x60 픽셀을

선형변환으로 16x16 픽셀의 숫자데이터로 만들어냅니다.

말이 쉽지 매우 어려운 작업이었습니다.

이렇게 어려운 전처리 끝에 CNN의 입력데이터를 만들었고,

이를 통해 획기적으로 우편번호를 분류하는데 성공합니다.

당시 사람들은 문자인식에도 관심이 많았고,

많은 회사들이 저마다 자사의 시각패턴인식 성능이 최고라며 경쟁합니다.

그것을 위해서는 데이터 확보가 중요하다보니 다양한 방법이 시도됩니다.

피터 프레이 Peter W. Frey와 데이빗 슬레이트 David J. Slate는

알렌 허쉬 Allen V. Hershey 박사가 디자인한 20개의 알파벳 폰트를 변형하여

20,000개의 알파벳 폰트를 만들어 16개의 Feature를 뽑아내어

글자를 인식하고자 시도합니다. 1991년의 일입니다.

NIST는 이들을 비교, 평가하기 위해 정답이 필요했습니다.

이를 위해 아래와 같은 양식으로 글씨를 수집하여 데이터셋을 만듭니다.

(이 양식은 SD-19를 만들 때 사용된 양식입니다. 참고하세요.)

얀 레쿤은 이 데이터셋을 활용하면 딥러닝을 학습시킬

좋은 데이터셋을 만들 수 있을 거라 생각합니다.

그렇게 NIST 데이터셋을 기반으로 MNIST가 만들어집니다.

MNIST는 고등학생들의 글씨인 NIST SD-1(Special Database-1)과

인구조사국 직원들의 글씨인 NIST SD-3로부터 데이터를 가져왔습니다.

각각 3만개씩 뽑아 6만개의 Training Dataset을,

각각 5천개씩 뽑아 1만개의 Test Dataset을 만들고,

이것을 정규화, 표준화, 그리고 약간의 보정을 통해 MNIST Dataset을 만들어냅니다.

덕분에 최근 딥러닝 연구자는 MNIST로부터 딥러닝을 시작합니다.

데이터가 핵심인 딥러닝에 큰 기여를 한 데이터셋인 것입니다.

감사해요. 크리스 버지스, 코리나 코테스, 얀 레쿤!

(출처)

http://yann.lecun.com/exdb/publis/pdf/lecun-89e.pdf

http://yann.lecun.com/exdb/mnist/

MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges

http://yann.lecun.com/exdb/mnist/

https://www.gavo.t.u-tokyo.ac.jp/~qiao/database.html

Weclome to Yu Qiao's homepage!

https://www.gavo.t.u-tokyo.ac.jp/~qiao/database.html

http://archive.ics.uci.edu/ml/datasets/Letter+Recognition

UCI Machine Learning Repository: Letter Recognition Data Set

http://archive.ics.uci.edu/ml/datasets/Letter+Recognition

https://www.jaredlander.com/2018/11/the-r-conference-makes-washington-d-c-debut/

The R Conference Makes Washington DC Debut « Jared Lander

https://www.jaredlander.com/2018/11/the-r-conference-makes-washington-d-c-debut/

https://www.youtube.com/watch?v=oKzNUGz21JM&feature=youtu.be

적송 권건우 redpine71@wedatalab.com
http://blog.naver.com/redpine71

적송 숲에서 한가로이 거닐다 : 네이버 블로그

동서문명 탐구의 기난긴 여정

https://blog.naver.com/redpine71

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.
前 삼성SDS technical architect
現 위데이터랩 대표이사
現 디랩아카데미 원장
現 성균관대, 한양대 겸임교수
現 세계진소왕태극권총회 서울분회장
#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권

루나 허령
https://brunch.co.kr/@hvnpoet

루나의 브런치

야만인이야기 만화가 | 마음공부하는 천상시인 루나의 브런치입니다. #마음공부 #모델링 #마인드맵 #서예 #진소왕태극권 #천상병 #서울데이터과학연구회 #물질이개벽되니정신을개벽하자 #곳곳이부처님일마다불공

https://brunch.co.kr/@hvnpoet

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.
#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병

keyword