brunch

You can make anything
by writing

C.S.Lewis

by 히말 Apr 29. 2021

페드로 도밍고스의 머신러닝 쇼케이스 (3) 연결주의자

[책을 읽고] 페드로 도밍고스의 <마스터 알고리즘> (3)

기호주의자의 학습이 순차적(sequential)이라면 연결주의자의 학습은 동시적(parallel)이다. 기호주의 시스템에 '뉴욕'이라는 개념이 어디에 있느냐고 물으면 정확한 저장 위치를 알려줄 것이다. 그러나 연결주의자의 시스템에는 그런 위치가 없으며, 개념은 모든 위치에 조금씩 저장되어 있다고 할 수 있다. 연결주의자가 모방하려고 하는 것은 다름 아닌 인간의 뇌다.


사진을 보고 고양이와 개를 구별하는 사례로 돌아가보자. 기호주의자의 방법은 개와 고양이를 구별하는 규칙을 찾아내는 것이다. 연결주의자의 머신러닝, 즉 신경망도 그 차이를 학습한다. 그러나 그것을 인간의 언어나 기호로 변환하지는 않는다. 연결주의자는 고양이와 개를 구별하는 규칙의 집합을 글이나 기호로 표현하는 데에는 관심이 없다. 구별만 하면 되는 것이다.


연결주의자의 초기모형은 퍼셉트론이라 불렸는데, 배타적 선형경계만 학습할 수 있었다. 즉 흑백 구별만 할 수 있었다는 이야기인데, 이렇게 되면 기호주의자들의 역연역법과 별다를 것도 없다. 과적합에 취약하고, 복잡도에 따라 계산량이 기하급수적으로 늘어난다. 게다가 배타적논리합(XOR)과 같은 기본적인 논리 연산도 불가능했다. 이런 모형을 감히 뇌의 모방이라 부르는 것은 어불성설이 아닐 수 없다.



연결주의자 제프리 힌튼(Geoffrey Hinton)



1985년, 스핀유리를 연구하던 물리학자 존 홉필드의 아이디어에서 영감을 얻은 일군의 연구자들이 신경망 모형을 결정론적 구조에서 확률론적 구조로 바꾸었다. 동시에 그들은 은닉층을 도입했다. 드디어 '딥러닝'의 서막이 열린 것이다. '볼츠만 기계'라고 명명된 이 신경망을 만든 사람은 (다른 두 명과 함께하기는 했지만) 무려 제프리 힌튼이다. 2012년 이미지넷 대회에서 CNN 혁명을 쏘아올린 바로 그 사람 말이다. (나는 작년 가을에 자기 아들이 제프리 힌튼 교수 밑에서 인공지능을 배우는 중이라는 대담한 뻥카를 치는 사업가를 만난 적이 있다. 그 정도로 제프리 힌튼은 이제 대중적인 이름이다.)


자, 이제 이 책에서 가장 중요한 개념 중 하나를 만날 차례다. 바로 시그모이드 곡선, 또는 S자 곡선이다. 저자에 따르면 이 곡선은 삼라만상의 변화를 설명하는 곡선이다. 모든 종류의 상태 전이를 이 곡선이 표현하기 때문이다. 얼음이 녹는 것은 물론, 초기 우주의 급속한 팽창, 진화론의 단속평형설, 신기술 확산, 다인종 이웃에게서 벗어나려는 백인들의 교외 이주, 소문, 유행병, 혁명 등 수많은 것들이 이 곡선으로 표현될 수 있다.



시그모이드 곡선 (예전엔 이 그림을 찾으려고 구글을 이잡듯이 뒤져야 했지만, 지금은 그냥 plt 라이브러리로 그리면 된다.)


기존의 결정론적 머신러닝에서는 예를 들자면 0.8의 문턱값을 포함하고 있었을 수 있다. 즉 여러 변수들을 고려하여 그 결과값이 0.8이 넘으면 해당 질문에 대한 대답을 '참'이라고 판단하는 식이다. 그러나 실제로 신경망은 그렇게 작동하지 않는다. 어떤 시냅스는 0.9는 되어야 활성화하는 반면, 어떤 시냅스는 0.5로도 켜질 수 있다. 가지를 통해 이런 다양한 입력을 받은 뉴런은 또 자기 나름대로 축삭을 통해 다음 뉴런에게 신호를 전달하게 되는데, 이 또한 확률적이다. 결과값이 1에 가까워지면 시냅스에 불이 켜질 확률이 높다. 그러나 그것은 절대로 100%가 되지 않는다.


S자 곡선은 우리에게 대담함과 겸허함을 동시에 가르친다. S자 곡선의 중간 부분은 거의 직선이다. 그래서 우리는 선형회귀로 그렇게 많은 문제를 풀 수 있는 것이다. S자 곡선의 초입은 기하급수적으로 폭발한다. 그래서 '무어의 법칙'이라는 담대한 선언도 가능했던 것이고, 유전체 염기서열 분석 능력이 그렇게 단기간에 폭발적으로 발전했던 것이다. 그러나 S자 곡선의 후반부는 바로 그 반대 모양이다. 수확체감이 지배하는 영역이다. 집적회로 설계가 아무리 발달해도 플랑크 길이 아래로 내려갈 수는 없다. 아니, 그 훨씬 전에 양자 간섭으로 공든 탑이 무너져 내릴 것이다. 그래서 우리는 겸허해야 한다.


또한 S자 곡선을 미분하면 그 유명한 종 모양 곡선이 도출된다. 과연 삼라만상을 설명하는 곡선이라 불릴 만하다.


S자 곡선은 이진법으로 만들어진 듯 보이는 세계가 사실은 확률론적이라는 것을, 양자적 요동의 세계라는 것을 보여준다. 신경세포의 출력을 실제와 가깝게 재설계함으로써, 퍼셉트론은 훨씬 더 정교한 모형으로 진화했다. 이것이 바로 역전파(backpropagation) 알고리즘이다. 은닉층을 충분히 확보하면 역전파 신경망은 구불구불한 경계선도 쉽게 표현한다. 이로써 역전파는 연결주의자들의 마스터 알고리즘으로 등극했다.


여기에서 저자는 국소최적화의 문제를 제기한다. 과적합이 단지 기호주의자의 문제가 아니듯이, 국소최적화 역시 연결주의자의 문제만은 아니다. 그냥 때가 되어 설명에 나선 것뿐인데, 하필 연결주의자의 모형을 설명하던 중이었을 뿐이다. 히말라야 산맥에서 에버레스트 꼭대기에 오르는 알고리즘을 생각해보자. 바로 옆으로 움직여서 고도를 높일 수 있다면 그쪽으로 움직이고, 주변에 더 이상 높은 지점이 없다면 정상에 오른 것으로 판단해 멈추면 된다. 우연히 적절한 장소에서 시작한다면 이 알고리즘으로 에버레스트 꼭대기에 도달할 수도 있다. 그러나 대개의 경우, 당신은 주변에서 가장 높지만 전체적으로는 그렇지 않은 어떤 봉우리에 도달해 멈춰버릴 것이다. 이것이 국소최적화 문제다. 똑같은 알고리즘이지만, 출발점에 따라 전혀 다른 대답을 내놓게 된다.


역전파 알고리즘은 자동부호기(오토인코더, autoencoder)의 도입, 그리고 이를 은닉층에 드문드문 넣은 '드문드문한 자동부호기(sparse autoencoder)'로 성능이 크게 향상되었다. 예컨대 저자가 소개하는 구글의 신경망은 9개의 은닉층을 가지고 있고, 이중 3개가 자동부호기다.


연결주의의 또 다른 문제점은 바로 신경망의 이해다. 인간의 뇌에 관한 인류의 이해는 아직 극단적으로 초보적이다. 겨우 302개의 신경세포로 구성된 예쁜꼬마선충의 신경계 지도는 1986년에 완성되었으나, 그 작동 방식은 여전히 대부분 베일에 싸여 있다.


물론 비행기는 새가 나는 방법을 흉내내지 않는다. 신경망이 인간 뇌의 역설계가 될 필요는 없다. 신경망이 거둔 놀라운 성공 역시 하나의 사실이다. 그러나 기호주의자들은 신경망을 공격한다. 예컨대 '메리가 점심식사로 신발을 먹었는가?' 하는 질문에 대해 기호주의자는 쉽게 대답을 할 수 있다. 신발은 먹을 수 없는 것이라는 단순한 '규칙'을 알기 때문이다. 그러나 신경망을 수많은 사례를 통해 학습해야 결론을 내릴 수 있다. 무엇보다, 신경망이 내놓은 대답에 대해 우리는 설명을 듣지 못한다.








매거진의 이전글 빠져드는 캐릭터
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari