brunch

You can make anything
by writing

C.S.Lewis

by 사오 김 Nov 29. 2024

발음의 안전장치, 그리고 언어변화

언어의 경제성과 명확성의 경쟁, splits follow mergers

요새 아랍어 듀오링고를 하고 있다.


https://blog.naver.com/ktb2024/223671259441


이번에는 아래 두 가지 음절을 듣고 구분하는 문제가 있었다. (뭐 그렇게 명시된 것은 아니지만 대강...)


تاب

/taːb/


طاب

/tˤaːb/


두 음절은 첫 자음도 /t/ vs /‏tˤ/ 로 다르지만,

적어도 듀오링고 음성에서는 모음에도 잉여적인 단서를 넣어서 변별을 용이하게 하는 것 같다.


전자의 모음은 [æ]에 가깝게 들릴 때가 많고

(대충 때앱처럼 들림. IPA로 적자면 [tæːb])

후자[ɑ]에 가까울 때가 많은 듯.

(대충 떠업처럼 들림. IPA로 적자면 [tˤɑːb])

아니면 뭐 떠압 이라고 하든... 한글로 뭐라 적든 중요한 건 아니다.


(아랍어 무성파열음은 유기음이라고 들은 것 같은데, 듀오링고 음성은 내 귀에 그닥 거센소리스럽진 않을 때가 많다.)



그리고 인두음 + /iː/ 에서는 중설모음스러운 transition이 수반된다.


تيب

/tiːb/ -> 대략 ‘띠입’


طيب

/tˤiːb/ -> 대략 ‘뜨입’


(듀오링고 음성을 내 귀에 들리는 대로 받아적은 것이다. 어느 지역 방언인지, 얼마나 일반적인 발음인지 모른다.)

(ū 앞에서는 비슷한 차이가 있는지 잘 모르겠다.)



초성 자음이 이렇게 중성 모음의 발음에 영향을 주는 까닭은 일단 발음상의 편리함과 관련이 있을 것이다.


[tˤ]와 같은 인두음(화된 자음)을 발음하려다 보면 자연스럽게,

뒤따르는 모음이 (음소로서가 아니라 음성학적으로) 전설모음일 때보다는 중설모음이나 후설모음일 경우가 발음하기 더 편하다.


인두음화된 자음을 발음할 때는 혀가 인두 벽(pharyngeal wall)을 향해 뒤로 움직이기 때문이다.

(이 논문 Abstract의 첫 문장 참고)



자음을 발음하면서 혀를 뒤로 보냈다가 곧장 전설모음을 발음하기 위해 혀를 앞으로 움직이는 것보다는,

혀가 뒤에 있는 상태에서 아주 조금만 움직이거나 거의 움직이지 않고 중설/후설모음을 발음하는 편이 훨씬 편하다.


아랍어의 /tˤaːb/이 내 귀에 '떠업'처럼 들리고, /tˤiːb/이 내 귀에 '뜨입'처럼 들리는 데에는 일단 이런 이유가 있는 것이다.



그런데 이렇게 발음의 편의성에만 기대어서는,

/taːb/이 내 귀에 '따압'이 아니라 '때앱'처럼 들리는 이유를 설명할 수 없다.


치(경) 파열음 뒤에 [a]가 나오는 패턴은 한국어 '달' '딸' '탈'을 발음해 보면 알 수 있듯 그다지 발음하기 불편한 것도 아닌데,

듀오링고 아랍어 음성에서는 굳이굳이 '따압'을 회피하고 있는 것이다.

(뭐 그렇게 해석할 수도 있을 것이다.)



나는 여기에 의사소통의 안전성을 담보하기 위한 이유가 있다고 생각한다.

전에 썼던 글에서의 표현을 빌리자면 '명확성'이다.


생각해 보자.

만약 듀오링고 아랍어 음성의 /taːb/이 실제와 달리 '때앱'이 아니라 '따압'과 같이 발음되었다면, 


/taːb/ -> '따압' [taːb] 또는 중설 [täːb]

/tˤaːb/ -> '떠업' [tˤɑːb] 


대략 위와 같은 구도가 만들어졌을 것이다.


이제 이 블로그에서 자주 거론하는 상황을 상상해 보자.


만약 아랍어로 의사소통하는 공간이 매우 시끄럽다면?

또는 듣는이가 너무 피곤해서 대화에 집중을 못 하는 상황이라면?


만약 그런 이유로 듣는이가 첫 자음을 제대로 듣지 못한다면,

듣는이는 자신이 들은 첫 자음이 인두음화된 //인지 아니면 그냥 /t/인지 확신할 수 없을 것이다.


이때 듣는이가 첫 자음을 복원해 내려면 바로 다음 모음을 중요한 단서로 활용해야 할 것이다.


그러나 위에서 내가 대충 한글로 'ㅏㅏ'로 적은 모음'ㅓㅓ'로 적은 모음은 서로 꽤 비슷한 소리다.

구분하기가 그다지 용이한 소리가 아니라는 말이다.

(IPA로 적자면 각각 [ä][ɑ]쯤 될 것이다.)


위에서 'ㅏㅏ'로 적은 소리와 'ㅓㅓ'로 적은 소리는 

둘 다 입을 많이 벌려서 소리내는 모음이고, 

둘 다 혀(의 고점)를 중간이나 뒤쪽 어딘가에 놓고 내는 소리다. 


그러니까 아주 시끄럽거나 피곤한 상황에서 예를 들어 위에서 'ㅏㅏ'로 적은 소리를 들으면,

그것이 위에서 'ㅓㅓ'로 적은 소리가 아니라고 확신하기는 어려울 것이다.


따라서 모음의 소리를 단서로 삼아 그 앞의 자음이 /t/였는지 /tˤ/였는지 알아내려는 사람에게 있어서,

모음이 'ㅏㅏ'로 들리든 'ㅓㅓ'로 들리든 그것은 그다지 쓸 만한 실마리가 못 된다는 뜻이다.


반면, 실제 듀오링고 음성처럼 /taːb/의 발음이 대충 '때앱'인 경우는 어떨까?


/taːb/ -> '때앱'  [tæːb]

/tˤaːb/ -> '떠업'  [tˤɑːb]


위와 같은 구도에서는 듣는이가 첫 자음을 놓치더라도 그 뒤에 따라오는 모음의 소리를 단서로 삼아 자음을 복원하기가 한결 쉬워진다.


위 '때앱'의 모음 (IPA로 적자면 대략 [æ])은 전설모음인데,

이러한 특징은 중~후설모음인 '떠업'의 모음과 확연히 구분되는 것이기 때문이다.


아무리 시끄럽거나 피곤해도 듣는이는 그냥 모음이 전설모음인지 아닌지만 캐치하면, 

그 앞 자음이 /t/인지 /tˤ/인지도 덩달아 확실하게 알 수 있는 것이다.


/t/ 뒤의 /aː/를 굳이 [æ]처럼 전설모음으로 발음하는 데에는 이러한 효과가 있다.

명확하고 안전한 의사소통이 가능해지는 것이다.



여기서 한 가지 재미있는 상상을 하게 된다.


/taːb/ -> '때앱' [tæːb]

/tˤaːb/ -> '떠업' [tˤɑːb]


위와 같은 지금의 이 구도에서는, 어쩌면 /t/와 /tˤ/의 구분이 사라져도 별 문제가 없을지 모른다.


/tˤaːb/을 인두음화시켜 [tˤɑːb]으로 발음하든 아니면 인두음화 없이 그냥 [tɑːb]으로 발음하든,

[tæːb]과는 분명 구분되는 별도의 소리라는 것이 확실히 느껴지기 때문이다.


인두음화는 유형론적으로 아주 드물고 귀찮은 행동이므로, 

인두음화를 하지 않아도 충분히 [tæːb]과 구분이 된다면 아랍어 화자들은 언젠가부터 인두음화를 잘 하지 않게 될지도 모른다.

경제성을 추구하면 그렇게 될 수 있다는 말이다.


그래서 만약 /tˤaːb/의 발음이 인두음화 없는 [tɑːb]으로 고정된다면, 

미래에는 음소 층위에서도 

/taːb/ vs /aːb/ 이 아니라

/tæːb/ vs /tɑːb/ 이 대립할지도 모를 일이다.


요컨대 자음에 의한 대립이 모음에 의한 대립으로 바뀔 수도 있다는 뜻이다.


이렇게 될 경우 자음은 합류(merge)되는 것이고 ( /t/ vs /tˤ/ > /t/ )

모음은 분화(split)되는 것이다.  ( /aː/ > /æː/ vs /ɑː/ )


합류는 일종의 경제성 추구라고 할 수 있고, 분화는 일종의 명확성 추구라고 할 수 있을 것이다.


----------------


한편, 한국어 예사소리와 거센소리의 대립이 지금 어느 정도 비슷한 길을 걷고 있는지도 모른다.

(이 글 참고)


'가'와 '카'의 음운 층위와 음성 층위 구조를 시기에 따라 대략 나타내면 아래와 같다.


초기 - 오로지 기식만으로 변별함

/가/    /ka/ -> [ka]  (약간의 기식)

/카/    /kʰa/ -> [kʰa]  (많은 기식)


중기 - 음높이라는 잉여적 단서가 개입  -> 두 가지 단서로 변별이 더 쉽고 안전함 (명확성)

/가/   /ka/  -> [kà]      (약간의 기식, 낮은 소리)

/카/   /kʰa/ -> [kʰá]    (많은 기식, 높은 소리)

(듀오링고 아랍어 음성의 인두음은 요런 단계에 머물러 있는 것이겠다.)


현재 (주로 수도권 젊은 세대) - 기식의 차이가 없어지고 음높이가 유일한 단서로 기능함 (경제성)

/가/  /ka/  -> [kʰà]  (/ㅋ/와 비슷한 기식, 낮은 소리)

/카/  /kʰa/ -> [kʰá]  (/ㄱ/와 비슷한 기식, 높은 소리)

체계 전체의 경제성을 위해 잉여적인 단서를 하나 배제하고 하나의 단서만 남겨서 변별하는 방향으로 변화한 거라고 해석할 수 있겠다.


이러한 추세가 심화되면 한국어의 예사소리와 거센소리 대립 또한 나중에는 음소 층위에서 자음에 의한 대립이 아니라 음높이, 즉 성조에 의한 대립으로 바뀔지도 모르는 것이다.


미래 언젠가?

/가/   /kʰà/ -> [kʰà]

/카/   /kʰá/ -> [kʰá]


만약 이렇게 된다면 자음은 합류(merge)되는 것이고,  ( /k/ vs /kʰ/ > /kʰ/ )

음높이(성조)는 분화되는 것이다.   ( /V/ > /V̀/ vs /V́/ )


당초에 평음과 격음을 구분짓는 제일 단서는 기식이었고,

음높이는 단지 명확한 의사소통 성공을 위한 안전장치로 개입되었던 것뿐인데,

(기능주의적으로 해석하자면 그렇다는 것이다.)

지금은 어느새 주객이 전도되어 기식의 구분은 없어지고 이차적 단서에 불과했던 음높이가 주된 변별 단서의 위치에 올라서 버린 것이다.

그리고 이렇게 주객이 전도된 데에는 경제성이라는 기능적 동기가 작용했을 것으로 해석할 수 있다.


물론 아직까지 음높이의 차이는 앞 자음이 예사소리냐 거센소리냐에 따라서 예측 가능한 분포를 보이기 때문에 음소력이 그렇게 강하지는 않으니, 한국어에서 성조가 완전히 음소적 층위에 자리잡는 것은 어디까지나 상상의 영역에 지나지 않는다.


------------------------------


한편 캠벨(Campbell)의 역사언어학 교과서 Historical Linguistics: An Introduction을 보면 실제로 이와 비슷한 과정을 거쳐 언어가 변화한 사례가 몇 개 제시된다.


즉 어떤 음소들의 합류(merger)에 의해 그 주변의 음소가 분화(split)된 사례들이다.

(Campbell 교재에서는 이를 'splits follow mergers'라는 'axiom'으로 소개하고 있다.)


그 중 영어의 사례를 살펴보자.


Campbell(2013)의 Historical Linguistics: An Introduction 20쪽. 색칠은 내가함


간단하게 mouse와 mice만 보자.



영어의 변화 과정 1단계에서는 

'mouse'는 음소적으로도 /mu:s/, 음성적으로도 [mu:s]였고,

'mice'는 음소적으로도 /mu:si/, 음성적으로도 [mu:si]였다.

단수형과 복수형을 구분짓는 것은 음소에서도 음성에서도 오로지 맨 끝의 i 뿐이었다.



2단계에서는 (음성 층위에서의) 전설모음화(umlaut)가 일어났다.

단수형 /mu:s/에는 아무런 변화가 없지만,

복수형 /mu:si/는 두번째 음절에 있는 /i/ 때문에 앞 음절의 /u:/가 전설모음 [y:]로 실현되게 되었다.


혀를 뒤로 움직여 후설모음 [u:]를 발음했다가 곧바로 혀를 다시 앞으로 움직여 전설모음 [i]를 발음하는 게 불편하니,

[u:]를 전설모음 [y:]로 바꿔 버려서 발음을 편하게 만든 것이다.


( [y]는 일단 대략 'ㅟ'와 비슷한 소리라고 생각하면 된다. 다만 발음하는 동안 입모양이 바뀌지 않는 단모음monophthong이다.)


즉 영어의 /u:/라는 음소에 [y:]라는 변이음(allophone)이 새로 생긴 것이다.

이 변이음은 전설모음 앞에서만 나타나는 제한적이고 예측가능한 분포를 지니고 있으므로 아직 /u:/와 구분되는 음소는 아니다.


이 단계를 좀더 면밀히 살펴보면,


단수형 /mu:s/  ->  [mu:s]

복수형 /mu:si/ ->  [my:si]


복수형 [my:si]에는 일종의 잉여적 안전장치가 적용되어 있다고 해석할 수도 있다. (Campbell 교재에는 이러한 견해가 없고 내가 독단적으로 첨가하는 내용임을 참고하라.)


[mu:s]와 구분짓기 위해서는 [mu:si]로도 충분한데, 

말하자면 뒤 음절의 [i]가 제대로 전달되지 않을 리스크를 회피하기 위해

굳이 앞 음절의 모음까지 [y:]로 바꾸면서까지 명확성을 담보하고자 하는 시도로도 볼 수 있는 것이다.


[mu:si]에서 [i]를 못 들으면 그건 [mu:s]하고 똑같지만,

[my:si]라면 [i]를 못 듣더라도 [y:]를 단서로 삼아 '뒤에 전설모음이 있구나' 하고 복원할 수 있으니 말이다.



영어 변화 과정의 다음 3단계에서는 합류(merger)와 분화(split)가 동시에 일어났다.

이 단계에서도 단수형 /mu:s/에는 아무런 변화가 없다.

그러나 /mu:si/였던 복수형은 /my:s/라는 대단히 새로운 형태로 변화해 버렸다.


인과적인 순서에 따라 이야기하자면,

우선 /mu:si/ -> [my:si]의 맨 끝에 있던 복수형 어미(의 흔적?) -i 가 탈락해 버렸다. 

Campbell 교재의 표현을 따르자면, '-i가 zero와 합류(merge)해 버린' 상황이다.


교재에서는 -i 가 사라진 이유를 따로 언급하지 않지만, 아마도 발음을 편하게 하기 위해, 즉 경제성을 추구하기 위해 탈락한 것일 테다.


어쨌든 -i 가 사라지고 나니 남는 소리는 [my:s] 뿐이다.


전설모음 [y:]는 원래 둘째 음절에 나오던 /-i/에 의해 만들어진 변이음(allophone)이었지만,

/u:/로부터 [y:]를 만들어 내던 /-i/가 사라져 버리니,

[y:]가 자체적으로 /u:/와 구분되는 음소의 지위를 얻게 되었다.


[my:s]라는 소리가 존재하니만큼,

[y:]가 출현하는 데에 더 이상 /u:/라는 기본형이나 /-i/라는 조건이 필요하지 않게 된 것이다.


따라서 음소 층위에서도 'mice'는 /u:/가 없는 /my:s/로 바뀌고 말았으며,

이것은 곧 /u:/라는 음소와 /y:/라는 음소가 서로 분화한 것이다.


이 과정을 기능주의스럽게 해석하자면 이렇게 된다.

원래 복수형을 단수형과 구분짓는 제일의 단서는 -i 였는데,

/u:/를 [y:]로 발음하는 전설모음화가 잉여적 안전장치로 개입되었고,

본디 제일의 단서였던 -i 가 (아마도 경제성 추구를 위해) 사라져 버리면서 주객이 전도되어

전설모음화가 복수형을 단수형과 구분짓는 유일한 단서의 지위에 올라서 버린 것이다.


(위에 첨부한 도표의 Unrounding 단계와 Great Vowel Shift 단계는 본문의 내용과 무관하지만, [mu:s]와 [my:s]로부터 현대 영어의 '마우스'나 '마이스'가 어떻게 생겨났는지 궁금한 독자는 위 도표를 잘 뜯어보거나 Campbell 교재를 잘 읽어 보기를 바란다.)


이상의 내용에 대해서는 Campbell(2013) 교재의 설명이 이보다 간명하고 자세하니 원문을 읽어 보기를 권한다.




글을 마치기 전에 이실직고할 것이 하나 있다.


위에서 명확성을 위한 잉여적 안전장치라든가 경제성을 언급하며 시도한 기능주의적 해석에는 어느 정도씩 자의성이 있다는 것이다.


위에서 언급한, 변별을 용이하고 안전하게 하는 음성 층위의 부가적 단서,

즉 아랍어의 중설모음화나, 한국어의 음높이나, 영어의 전설모음화는,

사실 그냥 존재할 뿐이다.


그걸 명확한 의사소통 성공을 위한 안전장치로 간주하는 것은 기능주의적인 이론을 전제하는 이차적인 해석인 것이다.


아랍어의 중설모음화에 대해 언급했듯, 사실 그러한 음성적 단서가 생겨나는 일차적 동기는 의사소통 성공이 아니라 발음의 편의성이다. 영어의 전설모음화도 마찬가지이다.


발음 편의를 위해 음성을 좀 바꿔 놓고 보니 우연히도 다른 발음과 변별하는 일이 더 안전하고 쉬워지는 결과가 만들어진 것뿐이다.

본문의 틀을 따르자면 한 측면에서의 경제성 추구가 우연히 다른 측면의 명확성에 도움이 되는 상황이라 할 수 있겠다.

(다만 /ta:b/에서의 전설모음화는 본문에서 말했듯 경제성 추구라고 말하기 어려운 것 같다.)



그리고 본문에서처럼 기능주의스럽게 해석해 놓고 보면, 위에서 설명한 언어 변화의 맨 마지막 단계를 설명하기가 까다로워진다는 맹점이 있다.


아랍어를 예로 들어 말하자면 이런 것이다.

전설모음이 인두음으로부터 비인두음을 변별하는 안전장치로 기능했다면, 

왜 반대로 인두음은 전설모음을 변별하는 안전장치로 기능하지 못하고 사라질 거라고 예측하는 것인가?


[tæːb]의 모음이 [tˤɑːb]의 모음과 확 달라서 첫 자음 t를 tˤ와 확실하게 구분짓는 효과가 있다고 말할 수 있다면,

반대로 [tæːb]의 자음이 [tˤɑːb]의 자음과 확 달라서 모음 æː를 ɑː와 확실하게 구분짓는 효과가 있다고 말할 수도 있을 것이다.


그런데 왜 위에서 상상한 가상 시나리오에서는 그러한 효과를 무시하고 tˤ가 t로 합류할 거라고 예상했는가?



아니면 좀더 실제 사례에 기반하여,

한국어에서 음높이가 평격의 기식 변별을 돕는 안전장치로 기능했다면,

주객이 전도되어 음높이가 주된 변별 요소로 바뀐 이후에는

왜 반대로 기식은 평격의 음높이 변별을 돕는 안전장치로 기능하지 못하고 합류하여 버렸는가?



이런 질문에는 본문에서처럼 단순하게 답하기 어렵고 더 넓은 범위에서 다른 요인을 가져다 설명해야 할 것이다.

그런 설명은 안타깝게도 당장 내 역량을 벗어나는 범위의 것이다.

나는 다만 이러한 기능주의적 해석에서 느껴지는 재미를 독자 제위께 공유해 보는 선에서 만족하고자 한다.



https://brunch.co.kr/@saokim/6

위 글 마지막에 '경제성과 명확성의 경쟁에 따른 언어 변화의 구체적인 과정을 다음 글에서 다루겠다'라고 언급한 지 2년 하고도 반 년 가까이 지났다.

뒤늦게나마 정신없는 글로 돌아와 보았다.


교정과 가르침을 언제나 환영합니다.

단순 질문이나 코멘트도 좋습니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari