퍼셉트론을 이용한 문법 표상(5/5)

by 콜랑

5. 퍼셉트론 문법 모형의 추구

개별 문법 요소의 퍼셉트론을 합쳐서 구나 절 단위의 표현을 기술하는 방법도 생각해 볼 수 있다. 비교적 최근에 자주 관찰되고 있는 ‘었’ 포함 활용형 가운데 ‘었어서’가 있다. 사례를 보자.


(26) ㄱ. 저희는 우메다에 숙소를 잡았어서 우메다역 근처 야키토리 맛집인 타카토리 도야마를 가기로

했어요.

ㄴ. 저는 낮에 갔을 때 너무 귀여웠어서 저녁에 한번 더 갔는데요. 거리가 활기차고 귀여워서 낮/밤

언제 가도 예쁘고 재밌더라고요.


필자의 직관으로는 여전히 어색한 표현인데 근래 심심찮게 접하게 된다. ‘어서’의 여러 용법 중 ‘인과’ 혹은 ‘이유’를 나타내는 용법에서 ‘었’이 출현하기 시작한 것으로 보인다. ‘어서’의 다른 용법은 상황의 연속성이 관련되어 있기 때문에 ‘었’이 잘 출현하지 않는다. ‘기 때문에’ 구성은 ‘인과’ 혹은 ‘이유’의 표지로만 사용되기 때문에 ‘었’ 출현에 제약이 없다. 이러한 차이는 아래 퍼셉트론 모형에서 쉽게 포착 가능하다.


(27) ‘었어서’와 ‘었기 때문에’


었어서 퍼셉트론.png

‘었’, ‘어서’, ‘기 때문에’ 페섭트론을 합쳐놓고 필요한 부분만 정리한 것이다. 붉은 표시는 ‘기 때문에’ 퍼셉트론을, 청색 표시는 ‘어서’ 퍼셉트론을 따로 구별한 것이다. ‘었’ 퍼셉트론과 ‘기 때문에’ 퍼셉트론을 합치면 과거 상황이 이유로 제시되는 ‘과거 이유’가 된다고 해 보자. 이는 자연스러운 표현이다. 이러한 의미 합성을 이루기에는 청색 표시한 활성화 조건부는 ‘인과’ 외에도 ‘연결’이라는 조건이 더 존재한다. ‘연결’ 범주의 존재는 ‘인과’ 범주와 ‘시제’ 범주간의 독자적인 통합에 방해가 되는 요소이다. ‘었’과 ‘어서’가 직접 통합한 ‘었어서’가 어색한 이유를 ‘연결’ 부분의 처리 부담이라고 할 수 있을 것이다. 다시 말해 가중치 연결이 추가될수록 더 많은 계산을 거쳐야 하는 부담이 있기 때문에 범주 간 결합 계산이 증가하는 통합은 문법적으로 제약되는 통합이라는 점이 모형에서 직관적으로 드러나는 셈이다. 그럼에도 불구하고 (25)에서 보듯 새로운 용법이 점점 자리를 잡아간다면 (27)의 녹색으로 표시한 부분의 연결 강도 즉 가중치가 점점 강해지고 있다고 볼 수 있다. ‘과거+이유→과거 이유’의 의미 합성을 언어적으로 표상하는 과정에서 ‘어서’가 ‘기 때문에’ 구성처럼 처리될 수 있을 만큼 ‘어서’의 ‘인과’ 표지 기능이 강해지는 쪽으로 언어 현실이 변화하고 있을 가능성이 있다.

한 눈에 펼쳐볼 수 없을 정도로 사이즈가 큰 행렬식으로 이루어진 복잡한 계산 구조에 기반한 인공지능 기술은 인간의 인지 능력을 상당한 수준으로 모방하고 있다. 문제는 어떻게 그런 일이 가능한 것인지에 대한 이해는 수학적인 모델에 기초하고 있어서 직관적으로 이해하는 데에는 한계가 있다. 설령, 수학적인 모델을 이해할 수 있는 지식이 있다고 하더라도 행렬식에 사용되는 베터량이 너무 커서 정확하게 이해하는 일은 불가능하다. 퍼셉트론 모형을 이용하되 보다 직관적으로 이해할 수 있는 모형을 사용하는 것은 이해를 돕는 데 매우 편리하다. 그리고 이런 모형을 이용하여 복잡한 언어 현상을 설명하는 노력이 축적되면 입력부, 활성화 조건부, 출력부에서 사용되는 술어들의 규모를 짐작할 수 있게 될지 모른다.

문장 표상 퍼셉트론은 언어 통합 양상을 직관적으로 파악할 수 있는 종합적인 기술 모형이 될 수 있을까? 의미 합성 절차에 대응하는 활성화 범주 간의 통합 절차를 표상하는 방법은 무엇인가? 계층적인 구조도 퍼셉트론 모형으로 표상할 수 있는가? 퍼셉트론을 결합하는 방식이나 과정을 보다 직관적으로 기술할 수 있는 방법이 있는가? 언어 처리 분야에서 새로운 알고리즘 개발에 인사이트 제공하게 되지는 않을까? 언어 체계와 언어 이외의 인지 체계의 연계 방식의 차이(교착, 굴절 등)는 어떤 식으로 처리해야 할까? 굴절어나 고립어처럼 언어 내적인 기능 부담 방식이 다른 언어의 경우에는 어떻게 적용될 것인가? 이 외에도 여러 가지 의문이 생길 수 있다. 퍼셉트론을 이용한 문법 기술을 위해서는 아직 고려해야 할 점이 많이 남아 있다. 처음 시도하는 방법이니만큼 당연한 질문일 것이고 차후에 고민해야 할 문제들일 것이다. 이런 고민들에 대한 답을 얻게 된다면 언어 처리에 적절한 정도의 인공지능 아키텍처 설계의 단서가 될지도 모를 일이다. 개별 언어마다 문장 구성 방식이나 구성 요소를 표상하는 퍼셉트론 모델이 다르다면 AI 설계 단계에서도 그러한 차이를 반영할 수 있게 되지 않을까?





참고 문헌


307번역랩, 류광 공역(2025), 사바슈 이을드름 & 메이삼 아스 가리지헤낙흘루, [마스터링 트랜스포머], 위키북스.

김모세 역(2024), 아즈마 유키나가, [파이토치와 구글 코랩으로 배우는 BERT 입문], AK커뮤니케이션즈.

류 광 역(2019), 차루 C. 아가르왈, [신경망과 심층학습], 제이펍.

류 광 역(2021), 스튜어트 러셀 & 피터 노빅, [인공지능 현대적 접근방식(4판)], 제이펍.

성기철(1974), 경험의 형태 {-었-}에 대하여, [문법연구] 1, 문법연구회, 237~269쪽.

이병기(2006), ‘-겠-’과 ‘-었-’의 통합에 대하여, [국어학] 47, 국어학회, 179~206쪽.

임희석·고려대학교자연어처리연구실 (2020), [자연어처리바이블: 핵심이론, 응용시스템, 딥러닝(수정판)], 휴먼싸이언스.

전희원·정승환·김형준 역(2021), 수다르산 라비찬디란, [구글 BERT의 정석], 한빛미디어.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin (2017). Attention is all you need. Neural Information Processing Systems 30, pp. 5998~6008. (https://doi.org/10.48550/arXiv.1706.03762)

Rita Carter, Susan Aldridgeet, Martyn Page, Steve Parker, Christopher D. Frith, Uta Frith, Melanie Shulman (2009), The human brain book, London: Dorling Kindersley.

David E. Rumelhart, Geoffrey E. Hinton and Ronald J. Williams (1986), Learning representations by back-propagating errors, Nature 323, pp. 533~536.

David H. Hubel and Torsten N. Wiesel (1959), Receptive fields of single neurons in the cat’s striate cortex, Journal of Psychology 148, pp. 574~591.

David H. Hubel and Torsten N. Wiesel (2005), Brain and Visual Perception: The Story of a 25-Year Collaboration, Oxford University Press.

David W. Gow Jr (2012), The cortical organization of lexical knowledge: A dual lexicon model of spoken language processing, Brain & Language 121, pp.273-288. (https://doi-org.ulibx.ulsan.ac.kr/10.1016/j.bandl.2012.03.005)

Emiliano Zaccarella, Lars Meyer, Michiru Makuuchi and Angela D. Friederici (2017), Building by Syntax: The Neural Basis of Minimal Linguistic Structures, Cerebral Cortex 27, pp. 411–421.(doi:10.1093/cercor/bhv234)

H. S. Lee (1991), Tense, aspect, modality: a discourse-pragmatic anaysis of verbal affixes in korean from a typological perspective, Ph. D dissertation in UCLA.

Ingo Hertrich, Susanne Dietrich, Corinna Blum & Hermann Ackermann (2021) The Role of the Dorsolateral Prefrontal Cortex for Speech and Language Processing, Frontiers in Human Neuroscience 15:645209. (doi: 10.3389/fnhum.2021.645209)

Jürgen Schmidhuber (2015), Deep learning in neural networks: An overview, Neural Networks 61, Elsevier, pp. 85-117. (http://dx.doi.org/10.1016/j.neunet.2014.09.003)

Levelt, W. (1999) Producing spoken language: a blue print of speaker, Brown et al. eds., The Neurocognition of Language, Oxford UK: Oxford University Press.

Yann Le Cun, Bernhard Boser, John S. Denker, Donnie Henderson, Richard E. Howard, Wayne Hubbard, and Lawrence D. Jackel, (1989), Handwritten Digit Recognition with a Back-Propagation Network, NIPS'89: Proceedings of the 3rd International Conference on Neural Information Processing Systems, MIT Press, pp. 396~404.

Yann. Le Cun, L. Bottou, Y. Bengio and P. Haffner, (1998), Gradient-based learning applied to document recognition, Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324. (doi: 10.1109/5.726791.)

Phu Mon Htut, Kyunghyun Cho, & Samuel Bowman (2018), Grammar Induction with Neural Language Models: An Unusual Replication. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp. 4998–5003.

Yann LeCun, Yoshua Bengio, and Geoffrey Hinton(2015), Deep learning, Nature 521, pp.436-444. (https://aclanthology.org/D18-1544/)

Yikang Shen, Zhouhan Lin, Chin wei Huang, & Aaron Courville (2018), Neural language modeling by jointly learning syntax and lexicon. In International Conference on Learning Representations. (https://doi.org/10.48550/arXiv.1711.02013)




5장의 (27)과 관한 생각이 더 구체화되고 있어서 설명을 소략했는데, 이런 방식이 어느 정도나 설득력이 있을지는 모르겠다. 막상 여기까지 글을 쓰고 보니 모형을 수정해야 할 방향이 조금 더 뚜렷해지긴 했다. 언제 글로 옮길 수 있으려나...

매거진의 이전글퍼셉트론을 이용한 문법 표상(4)