페드로 도밍고스의 머신러닝 쇼케이스 (2) 기호주의자

[책을 읽고] 페드로 도밍고스의 <마스터 알고리즘> (2)

Apr 26. 2021

"행복한 가족은 모두 비슷하다. 불행한 가족은 각기 다른 이유로 불행하다."

<안나 카레니나>의 유명한 첫 문장이다. 이를 페드로 도밍고스는 이렇게 설명한다. 행복하려면 건강과 사랑, 친구, 돈, 좋아하는 일 등이 필요한데, 이중 하나라도 없으면 불행하다는 것이다. 기호주의자의 머신러닝은 바로 그런 식으로 작동한다. 행복한 가정의 조건이 5개가 있다면, 머신러닝은 그것들을 죽 검토한다. 그래서 전부 있으면 행복, 아니면 불행. 마찬가지로, 기호주의자의 머신러닝이 사물을 보고 의자라고 판단을 하려면 그 사물이 등받이, 앉는 부분, 다리 등을 모두 갖춰야 한다.

정확히 말하자면, 주어진 조건을 가지고 판단을 내리는 인공지능은 규칙기반 인공지능이다. 이른바, '1세대 인공지능'으로 이제는 역사의 뒤안길로 사라졌다. 기호주의자의 머신러닝 역시 규칙을 사용한다. 다만, 이들의 머신러닝 알고리즘은 그 규칙을 사례로부터 추론해낸다. 수많은 사진을 학습하여 고양이와 개를 구별하려는 알고리즘은 눈과 코의 거리라든가 코의 모양과 같은 변수들에 있어 고양이와 개가 어떻게 다른지 파악하려고 할 것이다.

머신러닝만의 문제는 아니지만 머신러닝에게 있어 악몽 같은 숙적이 바로 과적합(overfitting)이다. 예측 모형을 주어진 사례에만 맞추다 보면 발생하는 문제인데, 모형을 구축하는 데 사용된 결과값은 정확하게 맞추지만 새로운 예측에는 젬병이 된다. (예전에 내가 만들었던 FootLocker 뉴욕 매장 방문자 수 예측 모형이 그랬다.) 과적합이 어떤 것인가를 명쾌하게 보여주는 우화가 있다.

쇼핑몰에서 라틴계 여자 아기를 보고 "저기 봐, 엄마. 아기 하녀야!"라고 무심결에 말한 백인 소녀의 경우를 살펴보자(실제 사건이다). 그 소녀가 아주 심한 편견을 가지고 태어나지는 않았다. 짧은 인생에서 보아 온 소수의 라틴계 하녀들을 과하게 일반화한 것이다. 세상에는 다른 직업을 가진 라틴계 여자들로 가득하지만 그 소녀는 아직 그들을 만나지 못했다. (134쪽)

과적합과 관련하여 폰 노이만은 이렇게 표현했다. "변수가 네 개면 코끼리 모양의 그래프의 수식을 구할 수 있고, 다섯 개면 코끼리가 코를 실룩실룩 움직이는 모양을 나타내는 수식도 구할 수 있다." 데이터마이닝이란 데이터가 자백할 때까지 고문하는 것이라고 말하기도 한다. (통계가 때로 거짓말보다 더 새빨간 거짓말이 되는 이유를 알 수 있다.)

과적합에 빠진 알고리즘은 보르헤스의 단편, '기억의 천재 푸네스'의 주인공과 같다. 그는 완벽한 기억을 가졌지만, 그로 인해 보편성을 배우지 못한다. 2월 26일 오전 7시와 2월 27일 오전 7시를 전부 정확하게 기억하지만, 그 둘이 모두 '아침'이라 표현될 수 있다는 사실을 배우지 못한다. 그에게는 그 둘이 분명히 구별되기 때문이다.

과적합을 잘 보여주는 예시 (출처: datarobot.com)

기호주의자의 머신러닝은 연역법의 규칙을 역으로 추적하는 작업이라서 역연역법(inverse deduction)이라 불린다. (더 정확하게 말하자면 기존 규칙의 빈자리를 채우려는 작업이다.) 이 방법은 1980년대에 급속히 확산되었다가 망했다. 지식을 획득하고 그것을 규칙으로 변환하는 작업은 대단히 노동집약적이고, 실수에 취약하다. 게다가 계산량이 매우 많다. 계산량이라는 문제점을 우회하기 위해, 기호주의자들은 의사결정트리를 이용하기도 한다. 모든 조합을 살펴보는 대신, 그럴싸한 조합만을 살펴보는 것이다.

나도 그렇지만, 기호주의자의 알고리즘은 규칙기반 인공지능과 마찬가지로 형편없을 것이라 생각하는 사람이 많다. 기호주의자의 알고리즘은 우리가 세상을 배우는 (명시적인) 방법과 다르지 않고, 아직 컴퓨터는 인간의 뇌에 비해 초라하기 때문이다. 그러나 저자가 들이미는 사례는 그렇지 않다는 것을 보여준다. 2002년, 자료를 가지고 판례를 예측하는 승부가 펼쳐졌다. 의사결정트리가 75%를 맞춘 반면, 전문가 집단은 60%를 맞추는 데 불과했다.

기호주의자의 머신러닝은 그러나 가장 직관적인 머신러닝이다. 규칙의 모음에 불과한 이들의 알고리즘은 우리가 쉽게 이해할 수 있기 때문에 추적하기에도 쉽고 오류를 찾기도 쉽다. 암에 걸렸다는 진단을 내놓으면서 그 이유는 제시하지 못하는 신경망(연결주의자의 머신러닝)에 비하면 훨씬 인간적이다.

의사결정트리의 장점에도 불구하고, 마스터 알고리즘을 만드는 데 우리가 취할 기호주의자의 도구는 역연역법이다. 지식을 규칙으로 바꾸는 바로 그 특성이 마스터 알고리즘에 필요하기 때문이다. 그러나 역연역법은 잡음에 취약하고 회색지대를 설명하지 못한다. 게다가 우리 지식의 방대한 부분은 설명하지 못하는 암묵지(tacit knowledge)다. 바로 그 점을 연결주의자들은 공격한다.

기호주의자 톰 미첼(Tom Mitchell)

keyword

매거진의 이전글페드로 도밍고스의 머신러닝 쇼케이스 (1)빠져드는 캐릭터매거진의 다음글