brunch

You can make anything
by writing

C.S.Lewis

by 사오 김 Jul 03. 2023

5 - 정보이론과 음소의 기능 부담량

메모 모음


섀넌이 정보량을 정의하는 관점은 이렇다. 잦은 것은 정보량이 적고 드문 것은 정보량이 많다. 자주 쓰는 건 예측하기 쉽기 때문이다. 예를 들어, '습니'가 읽혔다. 그러면 다음 글자는 '다'가 되기 쉽다. 흔히 그렇게 쓰므로. 그래서 다음 글자가 '다'인 메시지는 정보가 적은 거다. 그런데 다음 글자가 '꺼'인 메시지는 정보가 많은 거다. 예측하기 힘든 드문 경우이기 때문이다.

- <컴퓨터과학이 여는 세계>, 247쪽

(정보이론의 엔트로피 개념을 가지고 형태론의 복잡성을 계산하는 연구들이 있다. among others)


https://youtu.be/zUDqI9PJpc8






... [15세기 한국어의] 유성 마찰음은 그 분포가 매우 제한되어 있다. 개별 음소에 따라 약간의 차이는 있지만 비어두의 음절 초성에 놓이되 그 앞에 반모음 'j'나 유음이 와야 한다는 제약이 있다. 이러한 제한된 분포는 유성 마찰음의 기능 부담량을 약화시킨다. 즉 유성 마찰음과 다른 음소의 차이에 의해 어휘가 변별되는 경우가 드문 것이다.

- <한국어 문법 총론 II> 342쪽


15세기 한국어 데이터에서 어두, 종성, 다른 자음 뒤에서는 유성 마찰음이 자동으로 배제된다. 유성 마찰음이 자동으로 배제되는 환경에서는, 해당 환경에서 출현할 수 있는 음소들의 정보량이 대략 유성 마찰음의 개수와 비례하게 줄어들 것이다.



각 음소의 정보량은 그 음소가 배제하는 다른 음소들의 개수와 비례할 것이다.



이 글에서 예로 들었던 '귤'의 /ㄱ/에는 정보량이 거의 없을 걸로 생각해도 될 것 같다.

'율' 즉 '초성없음'을 배제하는 정도의 정보량이니 1bit?

'앉다'의 제로 초성이나 /a/에도 정보량이 거의 없는 것 같다. 용언 어간 중에 /-ㄵ/으로 끝나는 게 '앉다'나 '얹다' 말고 거의 없는 듯.

언어학 올림피아드 모의 문제를 만들 때 에스페란토 mangxas를 '맍아스'라고 썼는데 거의 아무도 '만자스'라고 읽어주지 않고 '마나스'라고만 읽는 걸 보고 깨달았다. (학생 한 명만 '만자스'라고 읽었었나? 선생님도 일관되게 '마나스'라고 읽었다.)






표준 관화의 성조는 모음만큼의 기능 부담량을 갖는다.

"The Functional Load of Tone in Mandarin is as High as that of Vowels"

https://faculty.washington.edu/levow/papers/fltonemandarin.pdf

* 기능 부담량을 정보이론의 엔트로피 개념을 사용하여 계산한 연구 (내가 가까운 시일 안에 제대로 이해해 보기는 어려울 성싶다 ㅎ...)


그렇다면

성조를 제거한 중국어 글/말을 가지고 원본 메시지를 복원해 내는 과제와

모음을 제거한 중국어 글/말을 가지고 원본 메시지를 복원해 내는 과제는

난이도가 서로 비슷할 것이다.





음소 인벤토리가 작은 언어는 음소 인벤토리가 큰 언어보다 단어 및 형태소의 평균 길이가 길 것 같다.

또는

음절구조가 단순한 언어는 음절구조가 복잡한 언어보다 단어 및 형태소당 평균 음절 개수가 더 많을 것 같다. (인도네시아어를 보고서 어렴풋이 그런 생각을 했었다.)





<컴퓨터과학이 여는 세계>, 257쪽


이 글에서 했던 말이랑 통하는 얘기인 것 같아서 반가웠다.



이 글에서 말했던

'도서관 언어'라는 것이 인공언어로 구현되어 있음을 언급했었는데,

그 중 하나가 아마 이쓰쿠일(Ithkuil)인 것 같다.

위키백과에 실려 있는 2011년 버전 이쓰쿠일의 예시이다:



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari