brunch

You can make anything
by writing

C.S.Lewis

by 서수피 Oct 23. 2023

그냥 다 맞춤법에 맞게 쓰면 되는 거 아니야?

기계 학습 데이터를 위한 표기법 결정의 어려움에 대하여

국문과 졸업생으로 AI 업계에 취직한 내 담당 업무 중 하나는 속기사 작업물 관리이다. 기계가 사람 말을 잘 알아듣도록 만들기 위해서는(=학습시키기 위해서는) '학습 데이터'라는 것이 필요한데, 이 학습 데이터는 프리랜서로 고용된 속기사들이 음원을 듣고 직접 받아적은 작업물을 바탕으로 만들어진다. 이때 사용되는 전사(傳寫) 규칙을 사전에 정리하여 교육하고 최종 작업물에서 규칙이 잘 정리되었는지 검수하는 것이 나의 업무이다. 속기사들의 작업을 위해서도, 검수하는 나를 위해서도, 학습하는 기계를 위해서도 확하고 일관성 있는 규칙을 정하는 것은 필수이다.


전사 규칙의 가장 큰 원칙은 어문 규범에 맞도록 받아적는 것이다. 이렇게 들으면 '맞춤법 공부만 좀 열심히 하면 쉬운 거 아니야?' 싶을 수도 있지만 실상은 그렇지가 않다. 전사 과정에서 흔하게 겪는 어려움에는 크게 세 가지가 있다. 첫째는 발화 자체가 표준어가 아니거나(사투리) 표준 발음이 아니어서 뭐라 적어야 할지 판단이 어려운 경우이다. 둘째는 어문 규범 자체에 여러 허용 규정이 있어 어느 쪽을 따라야 할지 구분이 어려운 경우이다. 셋째는 아무리 규범을 뒤져 봐도 딱 '이게 맞다!' 싶은 설명이 없어서 뭐가 맞는 표기인지 알기 어려운 경우이다.


각각의 어려움을 어떤 방식으로 해결해야 하는가? 적어도 지금까지 배운 바로는, 여기에 정답은 없다. 어떤 업종에 필요한 데이터인지, 어떤 상황에서 수집된 음성 데이터인지, 학습의 목적이 무엇인지에 따라 규칙은 얼마든지 달라질 수 있다. 또 어떤 표기 방식이 조금 더 가독성이 좋은지, 학습에 유리한 규칙은 무엇인지도 고려 사항이다.


즉 어떤 방식을 선택하여 전사 규칙을 정할 것인가는 상황에 따라 달라지므로, 이 짧은 글에서 뭘 선택하는 것이 더 좋다고 잘라 말할 수는 없다. 다만 그 선택지에는 어떤 것들이 있는지 정도는 정리해볼 수 있을 것이다.



첫째, 발화 자체가 표준어가 아니거나 표준 발음이 아닌 경우. 우선 사투리를 사용하는 경우가 있겠다. '~해서'를 '~해가'라고 말하는 경우는 귀여운 수준이고, 뭍사람으로서는 도대체 무슨 말인지조차 이해하기 어려운 제주도 사투리를 맞닥뜨는 경우도 있다. 정확히 사투리인지는 모르겠지만, 나이 드신 분들의 경우 '넣다'를 '옇다'로 발음하는 경우도 굉장히 많다. 이런 방언 표현도 일부는 나름 표준적인 표기를 검색할 수 있기는 하다. 대표적으로 국립국어원의 '우리말샘'에서는 방언 표제어들을 검색할 수 있다. 그러나 여기에조차 나오지 않는 사투리가 있다면? 그때는 최대한 소리 나는 대로 적어야 할지, 그나마 친숙한 다른 표기로 옮겨 적어야 할지를 결정해야 한다.


꼭 사투리가 아니더라도 표준어나 표준 발음이 아닌 경우도 존재한다. '네가'를 '니가'라고 한다든지, '신청해 보려고요'를 '신청해 볼라구요'라고 한다든지, '내 거'를 '내 꺼'라고 한다든지 하는 경우가 이에 해당한다. 이때에도 역시 들리는 대로 적어야 할지, 아니면 어문 규범에 따라 맞는 맞춤법으로 쓸지를 결정해야 한다. 이런 표기들은 구어에서, 그리고 메신저 앱이나 SNS에서 흔히 사용되기 때문에 속기사도, 검수자도 종종 맞춤법에 어긋난다는 사실 자체를 눈치채지 못하는 일도 발생하기 때문에 때로는 사투리보다 더 까다롭다.



둘째, 어문 규범 자체에 여러 허용 규정이 있는 경우. 대표적인 예는 보조용언의 표기이다. 한국어의 '용언'은 서술어 역할을 하는 동사와 형용사를 말하는데, 여기에는 본용언과 보조용언이 있다. 본용언은 우리가 흔히 생각하는 동사와 형용사이고, 보조용언은 그 본용언을 '보조'해서 사용되는 용언이다. 예를 들어 정말 눈을 통해서 어떤 사물을 인지하는 행위의 '보다'는 본용언이지만, '새로운 음식을 먹어 보았다.'에서처럼 어떤 행동을 시험 삼아 할 때 사용되는 '보다'는 보조용언이다. 이 보조용언들은 본용언 없이 단독으로 사용되지 않는다. 즉 언제나 본용언과 함께 사용된다.


문제는 본용언과 보조용언을 띄어 쓰는 것도, 붙여 쓰는 것도 모두 맞는 경우가 존재한다는 것이다. 한글 맞춤법 제47항에서 보조 용언은 띄어 씀을 원칙으로 하되, 경우에 따라 붙여 씀도 허용한다는 것을 규정하고 있다. 다만 이때 붙여 쓸 수 있는 경우는 ‘본용언+­-아/­-어+보조 용언’ 구성이거나 ‘관형사형+보조 용언(의존 명사+-하다/싶다)’ 구성에 한정되며, 이러한 경우에 해당하더라도 앞말에 조사가 붙거나 앞 단어가 합성 용언, 파생 용언인 경우는 보조 용언을 붙여 쓰지 않고 띄어 써야 한다. (출처 : 국립국어원 온라인가나다) 전사 규칙은 복잡해지면 복잡해질수록 작업자 간 차이가 벌어지기 쉬우므로 이 규정을 그대로 적용시키기란 사실상 불가능하다. 아니, 애초에 띄어 쓰는 것과 붙여 쓰는 것이 모두 맞는 경우가 존재하므로 통일성을 위해서는 불가피하게 어느 한쪽을 선택해야만 한다. 어느 것을 선택하는 것이 작업에 더 도움이 되는지는 담당자의 판단에 맡기는 수밖에 없다.


(생각보다 '보조용언'이라는 용어를 생소하게 느끼는 사람이 많았다는 것도 국문과 전공자로서 약간 충격이었다. '보조용언'이라는 용어를 사용하지 않으려면 '보다, 버리다, 주다' 등 자주 사용되는 예를 각각 직접 설명해야 하는 불편함이 있다. 어떻게 해야 직관적이고 효율적으로 규칙을 설명할 수 있을지는 앞으로 내게 남은 문제다.)



셋째, 어문 규범에 명시된 설명이 없는 경우. 둘째 경우와 약간 겹치는 면이 있으나, 애초에 사전에 올라 있지 않은 단어들도 포함된 경우라 일단 분리시켰다. 복합어, 특히 복합 명사의 띄어쓰기가 이에 해당한다. 한국어의 띄어쓰기는 '단어'를 기준으로 한다. 복합어는 여러 단어가 합쳐져 하나의 새로운 단어가 된 것을 말한다. 많은 사람들이 학창시절 학교에서 흔히 접했을 대표적인 예로 '큰집'이 있다. 정말로 규모가 커다란 집을 말할 때는 '큰 집'으로 띄어쓰지만, '집안의 맏이가 사는 집'의 의미로 사용될 때에는 '큰집'으로 붙여 쓴다. 이는 '큰집'이 단순히 크기가 큰 집을 일컫는 것이 아니라 새로운 의미를 형성했기 때문이다. 이러한 경우에는 사전에도 하나의 표제어로 등재되기 때문에 사전에 검색해 보면 붙여 써야 할지 띄어 써야 할지 쉽게 알 수 있다.


그런데 새로운 단어가 됐다고 봐야 하는지 아닌지 긴가민가한 경우도 있다. 아이러니하게도 '복합 명사'도 이런 경우다. 복합적으로 구성된 명사라는 뜻이니 띄어 쓰는 게 맞을까? 아니면 하나의 문법 용어로 봐서 붙여 쓰는 게 맞을까? 주로 전문어나 고유 명사에 이런 경우가 많으며, 사전별로 표기가 다르게 올라 있는 일도 왕왕 존재한다. '서울대학교' 같은 학교 이름은 '서울 대학교'로 띄어 쓰는 게 맞을까, 아니면 '서울대학교'로 붙여 쓰는 게 맞을까? '브런치스토리'라는 기업명은 '브런치 스토리'로 띄어 써야 할까, 아니면 '브런치스토리'로 붙여 써야 할까? (물론 이런 경우는 학교나 기업 측에서 정한 표기가 있을 가능성이 높지만, 매번 일일이 찾아보기 번거로운 것도 사실이다.)


참고로 표준국어대사전의 '일러두기'에는 다음과 같은 항목이 있다.


한글 맞춤법에 띄어 쓰는 것이 원칙이나 붙여 쓰는 것도 허용한 전문어나 고유 명사는 '^' 기호를 사용하여 표시하였다. 항상 띄어서 표기해야 하는 경우는 '^' 기호 없이 띄어서 제시하였다.


위에서 예로 든 '복합 명사'는 '복합^명사'가 표제어로 올라, '복합명사'도 '복합 명사'도 맞다는 것을 보여주고 있다.



특히 특정 기업의 AI 챗봇이나 콜봇을 만드는 경우에는 그 기업의 상품명이 중요한 키워드가 되기 마련인데, 이 키워드들은 높은 확률로 복합어 또는 구 단위로 구성된 신조어이다. 당연히 띄어쓰기의 판단이 어려워질 수밖에 없는 것이다.


이 밖에도 신조어나, 규범 표기가 의논된 적 없는 외국어 용어가 사용되었을 때에도 맞는 정서법과 띄어쓰기 규칙을 정하기란 여간 어려운 일이 아니다. 모든 경우를 아우르면서 일관성도 있는 규칙을 단번에 제시하기란 불가능한데, 그렇다고 매번 "이건 이렇게, 저건 저렇게, 그건 그렇게 해주세요." 하고 하나씩 정해 주는 것도 효율성이 떨어진다.



어쩌면 컴퓨터공학을 전공한 자연어 처리 분야 종사자들의 시각이나 고민점은 전혀 다를지도 모른다. 아무튼 국어학을 공부한 나의 입장에서는 사람과 기계가, 아니 그전에 사람과 사람이 서로 같은 표기법을 공유하는 것이 이렇게나 어려울 일인가 하고 머리를 싸매게 된다. 생각해 보면 애초에 어문 규범 자체가 실제 사용되는 언어를 모두 다루지 못하는 데다, 구어와 문어의 특성이 다르니 구어를 온전히 문어로 옮기는 것도 불가능하니 이 모든 어려움은 결국 너무나 당연히 발생할 수밖에 없는 것 같다. 어떻게 하면 이 필연적인 난관을 잘 헤쳐나갈까 고민하는 일은 제법 흥미로운 작업이기도 하지만, 역시 뾰족한 답이 나오지 않을 땐 어쩔 수 없이 괴롭다!

매거진의 이전글 읽기보다 쓰기가 어려운 한글 맞춤법
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari