퍼셉트론을 이용한 문법 표상 (3)

by 콜랑

3. 문법 기술을 위한 퍼셉트론 모형

두뇌나 인공 신경망은 구체적인 정보 처리 과정을 파악할 수 없는 일종의 블랙박스다. 인공 신경망에서 퍼셉트론 간의 연결 구조는 설계된 것이므로 그 구조가 알려져 있지만, 각 퍼셉트론들 사이의 연결 강도 즉 가중치는 현재까지는 파악이 불가능한 것으로 알려져 있다. 두뇌도 특정 영역에 위치한 뉴런들이 특정 기능을 담당한다는 점은 알려져 있지만 여러 영역들이 어떻게 상호 작용하는지 망 구조 내에서의 정보 작용에 대해서는 파악할 방법이 없다.

그럼에도 불구하고 퍼셉트론이나 CNN(Convolutional Neural Networks) 등이 뉴런이나 시각 피질과 같은 생물학적인 두뇌의 구조에 착안하여 개발되었다는 점은 흥미롭다. CNN의 합성곱층이나 트랜스포머 아키텍처의 어텐션 층이 입력 정보를 계층적 또는 시계열적으로 압축(추상화)하여 처리할 수 있다는 사실은(CNN의 작동 원리에 대해서는 Yann Le Cun et al.(1998), 어텐션 작동 원리에 대해서는 Ashish Vaswani et al.(2017) 참조), 인간 두뇌와 인공 신경망의 언어 처리 방식도, 완전히 동일하지는 않더라도, 상당히 유사할 가능성을 시사한다. 일상에서 인공지능의 사용이 급속도로 확산될 정도로 인공 신경망의 출력 내용이 인간 두뇌의 출력 내용을 상당한 수준으로 모방하고 있다는 점에서도 그 가능성을 생각해 보게 된다. 퍼셉트론에 기초하여 설계된 인공 신경망은 맥락을 이해하고 기억하는 인간의 인지 능력을 상당한 수준까지 모방하고 있음은 분명해 보이기 때문이다.


3.1. 퍼셉트론의 작동 방식

인공 지능 기술의 기초가 되는 이론적인 개념은 퍼셉트론이다. 두뇌의 신경 세포를 모방한 퍼셉트론은 가중치를 이용한 계산의 기초가 되는 개념이다.


(5) 뉴런과 퍼셉트론의 개념도

퍼셉트론 2.png

(5)의 좌측은 생물학적 뉴런의 구조이고 우측은 이를 모형화한 퍼셉트론 개념도이다. 각 입력값 x에 적당한 가중치(weight)를 부여한 다음, 입력값과 가중치의 곱을 모두 더한 값에 활성화 함수(activation function)를 적용하여 출력값을 결정한다. 활성화 함수를 이용하면 뉴런이 역치를 초과할 때만 활성화하는 현상을 모방할 수 있다.

(5)와 같은 퍼셉트론을 다양한 방식으로 쌓으면 다층 퍼셉트론이 된다. 아래 (4)에서 왼쪽은 단층 퍼셉트론을 여러 개 쌓아서 다층 퍼셉트론을 구성한 예이다.


(6) 다층 퍼셉트론

단층 다층 퍼셉트론.png
다층 퍼셉트론.png


퍼셉트론을 여려 개 겹쳐 놓은 다층 구조는 그 내부를 들여다 볼 수 없다는 의미에서 흔히 ‘은닉층’이라고 한다. 입력층, 은닉층, 출력층에 존재하는 퍼셉트론과 퍼셉트론을 연결하는 선마다 고유의 가중치가 부여되는데, 입력값과 결과값의 오차를 최소화하는 과정에서 가중치가 조정된다. 그렇게 조정된 가중치를 각 노드(퍼셉트론)마다 모두 파악할 수가 없기 때문에 중간층을 은닉층이라고 한다. 전체 신경망(다층 퍼셉트론)을 구성하는 모든 노드(파라미터, 퍼셉트론)는 (5)와 같은 작업을 병렬적으로 수행한다. (6)의 아래에 제시한 비교적 단순한 다층 퍼셉트론 구조만으로 XOR 논리 문제를 해결하고 분류 과제를 수행할 수 있게 되면서(자세한 논의는 D. E. Rumelhart et al.(1986) 참조) 다층 퍼셉트론을 이용한 인공 지능 기술은 급속도로 발전했다. 오늘날 트랜스포머 아키텍처를 이용한 LLM 기반 인공 신경망들도 모두 다층 퍼셉트론의 한 종류이다.


2.2. 문법 퍼셉트론 모색

퍼셉트론을 이용하여 문법을 표상할 방법을 모색하기 위해, 인간이 언어를 학습하는 과정을 인공 신경망의 매커니즘과 비교해 보자. 두뇌도 뉴련의 연결망이라는 점에서 퍼셉트론의 연결망이라고 보면 일종의 다층 퍼셉트론이라고 할 수 있다. 아래 그림에서처럼 감각 기관을 통해서 실시간으로 감지되는 정보(percepts)가 개념(concepts)으로 통합되고, 다시 여러 관념들이 통합되어 고차원의 인지 능력을 발휘한다. 언어는 인지 능력 중의 하나이므로 다음과 같은 방식으로 이해할 수 있을 것이다.


(7) ‘두뇌’라는 신경망 속의 언어

화면 캡처 2025-11-18 153955.png

(7)과 같은 망(즉 두뇌) 속에서 언어적 기호는 시청각 기호로 감지된 지각 정보들을 조합하는 고빈도 패턴의 자극이다(그런 의미에서 구체적인 언어 기호를 표상하는 신경망 조직은 다른 인지 능력을 담당하는 두뇌 영역을 매개한다는 점에서 실존적으로도 메타적 필요에 의해 존재하는 듯함). 특정 언어 기호가 입력값으로 주어질 때는 비언어적인 입력값들도 동시에 주어진다. 아날로그적인 멀티 모달 정보들 가운데 관념으로 정리된 것들을 특정 언어 기호와 대응시키는 과정에서 언어를 습득하게 될 것이다. 특정 언어 기호가 의미와 대응하기도 하고, 특정 언어 기호의 출현 패턴(사용 방법)이 의미와 대응하기도 하며, 경우에 따라서는 형태가 없는 특정 패턴(어순, 의미역 등)이 모종의 의미와 대응할지도 모른다. 인지 발달 단계상, 개념 학습 시기부터는 추상적인 개념들뿐 아니라 주어진 상황이나 맥락을 고려한 사회문화적 행동 양식에 이르는 모든 사고 내용을 언어를 매개로 표상하면서 소통적인 삶을 영위한다. 인간의 두뇌 전체를 단일 신경망이라고 하면 언어는 신경망 속에 가중치들 속에 분산되어 표상될 것이다. ‘두뇌’라고 하는 신경망 속에 언어의 규칙과 언어 능력이 어떤 식으로든 분산 표상될 것이다.

그렇다면 인공 신경망 속에서 언어 정보는 어떤 방식으로 분산되어 있을까? 인공 신경망에서는 퍼셉트론과 퍼셉트론 사이의 가중치 속에 언어 정보가 분산된다. 입력값과 출력값 사이의 오차를 최소화하기 위해 가중치를 조정하는 반복적인 계산(학습) 과정이 수학적으로는 이론화되어 있다. 다만, 실제 인공 신경망을 구성하는 개별 뉴런에 해당하는 낱낱의 파라미터들이 너무 많기 때문에 모든 가중치값을 정확하게 파악할 수 있는 방법이 기술적으로는 아직 존재하지 않는 듯하다. 복잡한 행렬식을 편미분하는 복잡한 수식이 모든 파라미터에서 개별적으로 계산되어야 하기 때문이다. 그럼에도 불구하고 트랜스포터 모델의 인공 신경망을 구성하는 인코더 부분의 학습 과정을 고려해 보면 아이들이 언어를 학습하는 과정에서 단일 퍼셉트론에 어떤 언어 정보가 어떻게 연결되는지에 대한 아이디어를 얻을 수 있을 것 같다.

인간은 언어를 학습할 때 특정 언어 형식과 특정 인지 내용을 결합쌍을 매칭시킨다. ‘강아지’라는 어휘를 학습할 때, 아이들은 강아지, 강아지의 사진, 강아지 동영상 등을 감각 입력 자극과 ‘강아지’라는 언어 형식 자극에 동시에 노출된다. 물론 복잡한 시청각 자극 속에서 강아지만을 구별함과 동시에 복잡한 언어 자극 속에서 ‘강아지’라는 형식만을 구별하여 이 둘을 매칭시키는 과정이 언어 학습 과정이다.

인공 신경망에서는 비언어 입력 자극(의미)이 입력값으로 주어지지 않기 때문에 인간이 의미를 처리하는 과정을 모방하기 위하여 마스킹된 입력값을 대상으로 어텐션 처리를 수행한다. 트랜스포머 모델의 인코더에서는 입력값의 일정 비율을 가리는 ‘마스킹’ 기법을 이용하여 입력 정보만으로 비지도 학습을 한다. 방대한 언어 자료를 어텐션 과정의 입력으로 제공하여 인간이 이해하는 의미 관계를 모방하는 임베딩 과정을 거치게 된다. 그 결과, 우리가 일상에서 이용하는 인공지능의 언어 처리가 가능하게 되었다.

트랜스포머의 인코더에 입력값으로 주어지는 방대한 양의 언어 자료는 모두 인간의 지식( 의미) 세계를 표상해 놓은 자료이다. 이 자료를 바탕으로 학습한 인공 신경망은 아이들이 언어를 학습하는 과정과 유사하게 특정 언어 기호와 의미를 대응시키는 과정을 거친다고 간주할 수도 있을 법하다. 어센텬 과정에서 인간의 방대한 지식이 임베딩되기 때문이다. 자연언어처리에서 임베딩 과정을 거침으로 맥락을 고려한 의미 해석이 가능했고, 그 결정체가 되는 최신 기술이 어텐션 모델임을 고려한다면 불가능한 상상은 아닐 것이다. 인공 신경망의 모든 파라미터 간 가중치를 파악할 수는 없지만 결과적으로는 (5)와 같은 모형으로 이해하는 데에는 무리가 없을 듯하다.

이와 같은 관점에서 단일 문법 요소가 전체 신경망 속에서 어떤 방식으로 표상될까? 한국어의 선어말 어미 ‘었’을 예로 들어 고려해 보자.

퍼셉트론의 기본적인 작동 방식을 다시 상기해 보면 아래와 같다.


(8) 퍼셉트론의 기본 작동 방식 (9) 잘못된 퍼셉트론 표상

화면 캡처 2025-11-18 155210.png


(8)에서 에러 발생 시의 가중치 조정(weight update)은 신경망의 학습 과정에서 반복적으로 일어난다. 주어진 입력값 X1~n 중에서 어떤 X값을 더 혹은 덜 중요하게 다루기 위해서 가중치를 조정함으로써 정답과의 오차를 최소화하는 과정이 학습 과정이다. 이러한 대응 관계를 생각해 보면, 기표적 표상에만 국한된 (9)와 유사한 방식의 표상은 별다른 설명력을 제공하기 어려울 것이다. 이런 식으로 단일 퍼셉트론을 나타내면 문장 전체를 표상해도 기표 표상에 대응하는 뉴런의 연쇄가 될 뿐이다. ‘었’의 문법 기능이나 제약에 관해서는 설명력을 제공할 수 있는 게 아무것도 없다. 노드 여러 개를 연결해 놓았을 뿐이다.

(7)과 같은 개념도에서 언어 입력들이 은닉층 어딘가에서 어떤 식으로 연결되어 ‘었’ 퍼셉트론이 되는지를 보다 구체화할 필요가 있다. 아래를 보자.


(10) 아이들이 ‘었’을 학습하는 과정 모형

화면 캡처 2025-11-18 155340.png

어릴 때 부모가 들려주는 아주 간단한 발화에서부터 성인이 된 지금까지 자극으로 주어진 모든 발화 중에서 ‘었’을 포함하는 발화의 집합이 ‘었’의 문법 학습을 위한 학습 데이터(입력값)가 됨을 나타낸 것이다. 우리의 두뇌는 이 데이터를 통해 ‘었’의 문법을 학습하여 문법 기능 및 제약들을 습득하게 된다. 그렇다면 우리가 습득한 문법 기능(의미)이나 제약에 따라 계산이 달라지는 퍼셉트론 모형을 구상해 볼 수 있을 것이다.

인공 신경망에서 퍼셉트로은 수학적으로 고안된 여러 가지 함수를 적용하여 결괏값을 출력한다. 활성화 함수는 입력값에 특정한 제약을 적용함으로써 결과값을 조건화하는 효과를 낸다. 활성화 함수를 이용하여 뉴런의 역치 현상을 모사한다. 단일 퍼셉트론에서 활성화 함수의 기능을 도식화하면 아래와 같다.


(11) 퍼셉트론의 활성화 함수

화면 캡처 2025-11-18 155050.png

입력값의 합에 어떤 활성화 함수를 적용하느냐에 따라서 출력값이 달라진다. ‘0, 1’이나 ‘0, 1, -1’과 같이 정해진 값만 출력할 수도 있고 일정한 범위 내의 값을 출력할 수도 있다.

함수를 이용한 조건적 활성화는 문법 기능에 따라서 달리 작용하는 제약을 반영하기에 적절해 보인다. 고정된 의미 관념을 나타내는 어휘적 요소는 기표가 곧 기의인 것으로 처리할 수 있다. 그렇지 않은 문법 요소의 경우라면 그 문법적 기능이나 관련 제약들은 대체로 문장 내에서 상당한 정도로 패턴화된 분포적 특징을 보이게 마련이다. 소위 ‘규칙’이나 ‘제약’이라고 기술하는 내용들이 모두 그런 분포적 특징을 바탕으로 검출된 패턴들이다. 이런 패턴들은 특정 문법 기능이나 제약을 출력하기 위한 활성화 함수로 간주할 수 있을 것 같다. ‘었’의 경우라면 잠정적으로 아래와 같은 식으로 생각해 볼 수 있을 것이다.


(12) 문법 요소의 퍼셉트론 잠정 모형

화면 캡처 2025-11-18 155029.png

(12)의 붉게 표시한 원 부분을 보면 ‘동작, 상태, 가능세계’가 활성화 함수가 되고 각 조건에 따라 ‘과거, 완료, 확신’이 출력된다. ‘동작, 상태, 가능세계’라는 활성 조건이 있는데 입력값의 총합이 ‘동작’ 영역으로 임베딩된 값이면 ‘과거’의 기능이 출력되고, ‘상태’ 영역으로 임베딩된 값이면 ‘완료’의 기능이 출력되며, ‘가능세계’ 영역으로 임베딩된 값이면 ‘확신’의 기능이 출력된다. ‘었’의 입력값의 총합이 ‘동작, 상태, 가능세계’의 영역으로 임베딩되었다고 함은 발화 내용이 표상하는 상황이 의미론적으로 동작성, 상태성, 양태성에에 해석됨을 의미한다. 다음을 보자.


(13) ㄱ. 우리는 여기 어제 도착다. (시공간적 선후 관계 해석: 과거)

ㄴ. 우리는 여기 이제 막 도착다. (동작의 내적 구조 해석: 완료)

ㄷ. 비행기를 탔다면 우리는 여기 벌써 도착했다. (상황 속성 해석: 확신)


(13)은 모두 ‘도착했다’가 포함된 예문이다. ‘도착하다’에 통합하는 ‘었’은 각각 ‘과거, 완료, 확신’의 표지로 분석된다. 이와 같은 분석은 어디까지나 각 예문의 발화 내용의 의미론적 속성에 따라 다르다. 발화 내용이 상황의 시공간적 위치에 관한 것인지, 행위의 내적 구조에 관한 것인지, 가능할 수 있는 가정 상황에 관한 것인지에 따라 달라진다. ‘었’의 문법 기능이 발화 내용의 의미론적 조건에 따라 달라지는 것이다. 거의 대부분의 문법 요소는 이러한 방식으로 그 문법 기능을 분석하므로 (12)와 같은 퍼셉트론에 해당하는 처리 과정이 (7)이나 (10)의 일부를 구성한다고 간주할 수 있을 것이다.

‘었’의 문법 기능은 시제 혹은 상과 같은 단일 기능 표지로 명확하게 규정하기는 어렵다. 연구사적으로는 단일 기능 표지설에서 다기능 표지설로 관점이 바뀌어 왔지만, 특정 문법 요소가 둘 이상의 기능을 가질 수 있다는 합의에도 불구하고 이를 직관적으로 기술하기는 쉽지 않은 일이다. 이 때, (12)와 같은 모형을 사용한다면 ‘었’의 문법 기능이 적어도 세 가지 정도 있음을 직관적으로 파악할 수 있다.

이제 (12)에서 푸른 색으로 표시한 입력부를 검토해 보자. 우리의 두뇌가 인공 신경망과 비슷하게 입력값을 바탕으로 추상화된 패턴을 스스로 학습한다면 어떤 패턴을 추출하게 될 것이다. 그렇게 추출된 패턴에 반영될 것으로 추정되는 정보를 정리하면 입력값 부분을 보다 단순화하여 제시할 수 있을 것 같다.

인간은 언어를 습득할 때 완전히 정립된 ‘었’의 문법을 따로 학습하지 않는다. (10)에서 보았던 ‘었’의 문법 습득 과정을 생각해 보면, ‘었’의 문법을 파악하기 위해서는 ‘었’을 포함한 모든 발화에서 ‘었’을 직접 포함하는 어절 단위 즉, 동사나 형용사의 ‘었 활용형’을 기표적으로 분석해 낸 후에 의미, 상황, 맥락, 발화 내용 등과의 관계를 통해서 공통적으로 조응하는 기의적 부분을 추출해 냈을 것이다. 예컨대 (13)의 입력값들도 학습에 이용되었을 것이고, 기표적으로는 구별이 되지 않는 ‘도착했다’라는 언어 형식이 어떤 발화 내용을 맥락으로 하느냐에 따라서 ‘었’의 기능이 달라짐을 학습하게 될 가능성이 크다. 이와 같은 관계 매핑 과정은 아마도 신경망에서 가중치를 조정하면서 학습하는 과정에 비유될 수 있을 것이다. 따라서 활성화 조건에 따라 출력값이 달라지는 양상을 최대한 직관적으로 파악할 수 있는 방식으로 입력값의 패턴을 정리하면 도움이 될 것 같다. 잠정적으로 아래와 같은 방식을 구상해 볼 수 있겠다.


(14) 문법 퍼셉트론의 기본 모델


화면 캡처 2025-11-18 155007.png


푸른색 점선으로 표시한 입력 부분은 ‘었’을 포함하는 분포를 정리한 것이다. (14)를 보면, 개별 문법 요소의 퍼셉트론 모형은 입력부, 활성화 조건부, 출력부의 세 부분으로 구성되어 있다. 입력부는 개별 문법 표지가 출현하는 분포 패턴을 중심으로 기술한다. 활성화 조건부는 개별 발화에서 출현한 문법 요소가 표지할 수 있는 복수의 문법 범주를 정리한다. 어떤 문법 범주가 활성화되는가 하는 조건은 입력부와 활성화 조건부의 연결선으로 지정한다. 출력부는 활성화 조건에 따라 결정되는 최종 문법 기능 혹은 의미를 정리한다.

결과적으로 (12)나 (14)와 같은 모형은 두뇌 혹은 인공 신경망이 특정 문법 요소가 포함된 모든 언어 자극을 학습하여 처리하는 과정에서 정보가 추상화되고 일반화되는 과정을 언어학적 술어를 이용하여 표상한 결과이다. 실제로 단일 뉴런이 ‘었’의 문법 기능을 표상하는 것이 아니라해당 문법 기능을 수행하는 신경망 조직을 단일 퍼셉트론으로 형상화한 것이다. 개별 문법 퍼셉트론과 전체 문법의 관계는 아래 도식처럼 이해할 수 있을 것이다.


(15) 전체 문법 내에서 개별 문법 퍼셉트론의 위상

image01.png
었 퍼셉트론의 문법 내 표상.png


매거진의 이전글퍼셉트론을 이용한 문법 표상 (2)