학습 못지않게 타고난 바도 중요하다 - 딥러닝 초기화

[야만인] 인공지능 탄생의 뒷이야기

by 루나

Apr 21. 2020

좋은 환경에서 교육을 받으면

더 좋은 사람으로 성장할 수 있습니다.

하지만 똑같은 교육과 경험이더라도

태어날 때 어떤 유전자를 타고 태어났느냐에 따라

크게 달라지기도 합니다.

예를들면 방탄소년단 BTS 처럼요.

우리는 아미 유전자를 타고 태어났어요!

딥러닝에서도 마찬가지입니다.

1986년 데이빗 럼멜하트 David E. Rumelhart와 제프리 힌튼 Geoffrey Everest Hinton이

백프로퍼게이션 backpropagation 알고리즘을 개발하여

다층신경망 Multi Layer Neural Networks의 학습문제를 해결했지만

신경망이 깊어질수록 학습이 힘들어지는 Vanishing Gradient 문제가 발생하여

두 번째 신경망의 겨울로 들어갑니다.

지금까지는 어떻게

주어진 초기값에 경사하강법을 태워서

잘 학습시킬 것인가에 모든 연구가 집중되었는데

2006년 제프리 힌튼이 역발상으로

이 문제를 해결할 단초를 제공합니다.

제프리 힌튼은

< A fast learning algorithm for deep belief nets > 논문에서

깊은 신경망 네트워크를 잘 학습시키기 위해 초기화가 중요한데

그 방법으로 1980년대초 자신이 연구했던 볼츠만 머신을 응용한

제한된 볼츠만 머신 Restricted Boltzmann Machine, RBM으로

두 개의 층을 쌓아가는 방법으로 초기화 방법을 제안했고,

이는 신경망의 두 번째 겨울을 가져왔던 Vanishing Gradient 문제를 해결할 수 있다는

가능성을 열어줍니다.

우리나라에서 딥러닝 공부하는 사람들은 다 아는 김성훈 교수님의

RBM에 대한 자세한 설명을 들어보겠습니다.

앞뒤로만 연결된 제한된 네트워크에서

1) 어떤 입력값이 있을 때
2) Forward 방법으로 생성된 출력값으로부터
3) Backward 방법으로 생성된 입력값을 구하여
4) 1)과 3)이 같아질 때까지 반복하면서 Weight(w)를 초기화시키는 겁니다.

제프리 힌튼 교수는 앤드류 응 Andrew Ng과의 2017년 온라인 인터뷰에서

자신이 연구한 것 중에 가장 자랑스러운 일이

2006년 RBM으로 초기화하여 Vanishing Gradient 문제를 해결할 수 있는

가능성을 연 것이라고 말한 바 있습니다.

결국 딥러닝 신경망 학습에 있어서

사람처럼 좋은 데이터로 잘 학습시키는 것도 중요하지만

태어날 때 좋은 유전자를 타고난 것도 중요한 것처럼

신경망의 초기값을 어떻게 주느냐가

이후 학습에 매우 큰 영향을 미친다는 것이 밝혀진 셈입니다.

그런데 2010년 몬트리올 대학의

요슈아 벤지오 Yoshua Bengio 연구실의 자비에 글로럿 Xavier Glorot이

< Understanding the difficulty of training deep feedforward neural networks > 논문에서

초기화하려는 신경망 구간의

Input 노드와 Output 노드 수에 비례하여 정규분포로 초기화하면

훨씬 쉽고 빠르게 초기화할 수 있다는 사실을 밝혀냅니다.

5년 뒤인 2015년 마이크로소프트 아시아 북경연구소의

케이밍 허 Kaming He와 중국 연구진들은

< Deep Residual Learning for Image Recognition > 논문에서 제시한

새로운 초기화 방법으로 ResNet 모델을 만들어

그 해 ILSVRC 대회에서 우승합니다.

케이밍 허는 ResNet 모델에서

자비에 초기화 방식에서 Input 노드수를 2로 나누도록 조금 수정하는데

이 방식이 ReLu 활성화함수에서는 훨씬 효과적인 초기화 방식이라는 것이

증명된 것입니다.

최근 가장 많이 쓰이는 케라스 프레임워크 Keras Framework에서도

자비에 초기화 Xavier Initialization 방법과

허 초기화 He Initialization 방법이 주로 쓰이고 있습니다.

얼마나 더 좋은 유전자가 나올까요?

(출처)

https://youtu.be/-eyhCTvrEtE

https://youtu.be/jyWL6-eCiJ8

https://youtu.be/4rC0sWrp3Uw

https://scholar.google.com/citations?user=_WnkXlkAAAAJ&hl=en

http://kaiminghe.com/

Kaiming He - FAIR

http://kaiminghe.com/

https://bskyvision.com/644

[CNN 알고리즘들] ResNet의 구조

이미지 분류(image classification) CNN 모델들 LeNet-5 => https://bskyvision.com/418 AlexNet => https://bskyvision.com/421 VGG-F, VGG-M, VGG-S => https://bskyvision.com/420 VGG-16, VGG-19 => https://b..

https://bskyvision.com/644

적송 권건우 redpine71@wedatalab.com
http://blog.naver.com/redpine71

적송 숲에서 한가로이 거닐다 : 네이버 블로그

동서문명 탐구의 기난긴 여정

https://blog.naver.com/redpine71

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.

前 삼성SDS technical architect
現 위데이터랩 대표이사
現 디랩아카데미 원장
現 성균관대, 한양대 겸임교수
現 세계진소왕태극권총회 서울분회장
#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권

루나 허령
https://brunch.co.kr/@hvnpoet

루나의 브런치

야만인이야기 만화가 | 마음공부하는 천상시인 루나의 브런치입니다. #마음공부 #모델링 #마인드맵 #서예 #진소왕태극권 #천상병 #서울데이터과학연구회 #물질이개벽되니정신을개벽하자 #곳곳이부처님일마다불공

https://brunch.co.kr/@hvnpoet

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.

#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병

keyword

학습 못지않게 타고난 바도 중요하다 - 딥러닝 초기화

좋은 환경에서 교육을 받으면

더 좋은 사람으로 성장할 수 있습니다.

하지만 똑같은 교육과 경험이더라도

태어날 때 어떤 유전자를 타고 태어났느냐에 따라

크게 달라지기도 합니다.

예를들면 방탄소년단 BTS 처럼요.

딥러닝에서도 마찬가지입니다.

1986년 데이빗 럼멜하트 David E. Rumelhart와 제프리 힌튼 Geoffrey Everest Hinton이

백프로퍼게이션 backpropagation 알고리즘을 개발하여

다층신경망 Multi Layer Neural Networks의 학습문제를 해결했지만

신경망이 깊어질수록 학습이 힘들어지는 Vanishing Gradient 문제가 발생하여

두 번째 신경망의 겨울로 들어갑니다.

지금까지는 어떻게

주어진 초기값에 경사하강법을 태워서

잘 학습시킬 것인가에 모든 연구가 집중되었는데

2006년 제프리 힌튼이 역발상으로

이 문제를 해결할 단초를 제공합니다.

제프리 힌튼은

< A fast learning algorithm for deep belief nets > 논문에서

깊은 신경망 네트워크를 잘 학습시키기 위해 초기화가 중요한데

그 방법으로 1980년대초 자신이 연구했던 볼츠만 머신을 응용한

제한된 볼츠만 머신 Restricted Boltzmann Machine, RBM으로

두 개의 층을 쌓아가는 방법으로 초기화 방법을 제안했고,

이는 신경망의 두 번째 겨울을 가져왔던 Vanishing Gradient 문제를 해결할 수 있다는

가능성을 열어줍니다.

우리나라에서 딥러닝 공부하는 사람들은 다 아는 김성훈 교수님의

RBM에 대한 자세한 설명을 들어보겠습니다.

제프리 힌튼 교수는 앤드류 응 Andrew Ng과의 2017년 온라인 인터뷰에서

자신이 연구한 것 중에 가장 자랑스러운 일이

2006년 RBM으로 초기화하여 Vanishing Gradient 문제를 해결할 수 있는

가능성을 연 것이라고 말한 바 있습니다.

결국 딥러닝 신경망 학습에 있어서

사람처럼 좋은 데이터로 잘 학습시키는 것도 중요하지만

태어날 때 좋은 유전자를 타고난 것도 중요한 것처럼

신경망의 초기값을 어떻게 주느냐가

이후 학습에 매우 큰 영향을 미친다는 것이 밝혀진 셈입니다.

그런데 2010년 몬트리올 대학의

요슈아 벤지오 Yoshua Bengio 연구실의 자비에 글로럿 Xavier Glorot이

< Understanding the difficulty of training deep feedforward neural networks > 논문에서

초기화하려는 신경망 구간의

Input 노드와 Output 노드 수에 비례하여 정규분포로 초기화하면

훨씬 쉽고 빠르게 초기화할 수 있다는 사실을 밝혀냅니다.

5년 뒤인 2015년 마이크로소프트 아시아 북경연구소의

케이밍 허 Kaming He와 중국 연구진들은

< Deep Residual Learning for Image Recognition > 논문에서 제시한

새로운 초기화 방법으로 ResNet 모델을 만들어

그 해 ILSVRC 대회에서 우승합니다.

케이밍 허는 ResNet 모델에서

자비에 초기화 방식에서 Input 노드수를 2로 나누도록 조금 수정하는데

이 방식이 ReLu 활성화함수에서는 훨씬 효과적인 초기화 방식이라는 것이

증명된 것입니다.

최근 가장 많이 쓰이는 케라스 프레임워크 Keras Framework에서도

자비에 초기화 Xavier Initialization 방법과

허 초기화 He Initialization 방법이 주로 쓰이고 있습니다.

얼마나 더 좋은 유전자가 나올까요?

(출처)

https://youtu.be/-eyhCTvrEtE

https://youtu.be/jyWL6-eCiJ8

https://youtu.be/4rC0sWrp3Uw

https://scholar.google.com/citations?user=_WnkXlkAAAAJ&hl=en

http://kaiminghe.com/

https://bskyvision.com/644

적송 권건우 redpine71@wedatalab.comhttp://blog.naver.com/redpine71

#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병

적송 권건우 redpine71@wedatalab.com
http://blog.naver.com/redpine71