brunch

브런치북 JJ봇 02화

You can make anything
by writing

C.S.Lewis

by 노운아 Sep 09. 2023

2. 품사 태깅과 악취

 수집된 직장인 자연어 말뭉치를 풀어낸 후에 형태 분석을 해야 했다. 그간 물불 가리지 않고 데이터를 모은 덕분에 용량이 꽤 됐다. 미가공 데이터 일부를 읽어 봤는데 정제되지 않은 말들뿐이었다.      


 천천히 와도 돼. 우린 회의 시작한다.


 김 과장이나 나나…. 받는 연봉 별 차이 없는 거 몰랐어? 


 퇴근 때 돼서야 화장하는 걸 보니 요즘 누구 만나?


 인사 좀 하지?     


 남현이는 글을 읽고 피식했다. 체계가 없는 회사일수록 화가 많이 표출되고 대화는 직접적이었다. 신경 써서 읽지 않아도 대충 어떤 상황에서 대화가 이루어졌을지 조금 알겠다. 알렉스 말대로 남현이는 자신이 개발자인 것에 잠시 감사했다. 저런 대화가 난무하는 집단의 소속이 아닌 게 천만다행이었다. 알렉스도 천천히 미가공 데이터를 읽었다. 


 “남현, 첫 번째 문장 데이터를 분석해 봤어?” 알렉스가 물었다. 남현이와 알렉스는 영어로 대화하는 듯이 한국어로 말했다. 


 “아니.” 


 “난 분석해 봤는데.” 


 “정말? 어떻게?” 


 “내가 답하기 전에 먼저 남현이 말해 봐.”   

   

부밍북 제작: AI 생성 이미지

 

 남현이는 알렉스의 괴상하고도 정곡을 찌르는 말투에 익숙해졌다고 생각했는데 영국 사람한테서 받은 ‘한국어 분석’에 대한 질문은 어떤 의도인지 파악할 수 없었다. 한국어 해석 능력을 묻는 건지 알고리즘 구성을 위해 규칙을 찾으라는 건지 좀 헷갈렸다. 첫 번째 문장은 반어법이라고 알렉스에게 말하면 될 것 같았다. 그 문장의 진짜 뜻은 표면적인 뜻과 반대 의미라고 설명하면 될 것 같았다. 그 이외의 문장은 분석이라고 할 게 있나 싶었다. 심지어 JJ봇의 생성값으로 나왔다가는 사회적 비판을 받을 수 있는 문장도 보였다. 


 “알렉스, 첫 번째 문장은 말이야.”


 “남현, 혹시 빨리 오라는 의미를 포함한다고 말하려고 해?” 알렉스는 남현이가 하려던 말을 가로챘다. 


 “응. 영어는 한국어와 달리 반어적인 의미가 많지 않아서….” 


 “그건 오해야, 남현. 난 영국 사람이라고. 잊지 마.”      


 그는 자신이 영국 사람이라는 말로 남현이가 하려던 말을 모두 설명했다. 언어에 탁월한 능력이 있는 그는 비이과생, 그중에서도 문과 출신일까? 영국에서 어쩌다가 한국에까지 왔나 싶은 개인적인 호기심이 일었다. 추론은 차차 해 나가기로 하고 남현이는 본격적으로 알렉스와 프로젝트를 수행했다.     

 남현이와 알렉스는 좌변과 우변에 배치할 항목을 설정하기에 앞서 입수된 자연어 데이터를 분석했다. 아무래도 한국어를 모어로 구사하는 남현이가 유리한 건 당연했다. 


 “남현, 반어법은 이해했다고 했지?” 


 “응, 천천히 오라는 의미가 아니지. 말하는 사람은 듣는 사람에게 장난치면서 말하고 있지만 말하면서도 살짝 기분은 나쁜 것 같아.”


 “남현, 그런데 우리는 이렇게 추측하는 것, ‘-(으)ㄴ 것 같다’로 알고리즘을 구성할 수 없어.” 


 남현이는 알렉스가 무슨 말을 하려는지 감을 잡을 수 없어서 좀 더 기다려 보았다. 


 “‘천천히 와도 돼’ 우선 이 말의 형태를 어떻게 분석하지?”    

  

 알렉스가 묻는 말에 남현이는 뭐라고 답할지 몰랐다. 사실 언어 분석이라는 걸 남현이는 해 본 적이 없었다. 분석할 게 뭐가 있는 문장인가 하는 의심마저 들었다. 그냥 천천히 오라는 그저 그런 말인데 형태 분석을 하라니, 그것도 영국 사람한테서 말이다. 


 “2급 문법이라서 아주 쉬워. 동사 뒤에 붙고 ‘V-아도/ 어도 되다’의 의미로 ‘허용, 허락’을 나타내.”      


 | 천천-히_오-아도_되-어. 우리-는_회의_시작-하-ㄴ다.

    [서술<명령, 허용<불허용]    

 

  결국, 그 문장은 어떤 행위를 허용한다는 의미의 문법이 상황에 따라 허용되지 않는다는 의미 변화를 일으킨 것이었다. 이상하고 신비로운 머리카락, 생강이라는 의미의 진저, 톡 쏘는 맵고 싱그러운 향을 내뿜는 듯 그는 분명 영국 사람이었지만 신비롭게도 남현이의 언어를 꿰뚫고 있었다. 알렉스는 남현이에게 긴 설명을 했다. 명령문을 나타내는 종결어미가 없으므로 서술문으로 분류할 수 있지만 형태론 관점에서 보면 그 문장은 부사구와 동사구만 있기에 ‘천천히 오세요.’라는 명령문으로 분류해야 한다고 했다. 주어 생략이 빈번한 한국어 특성이라고 말하면서 알렉스 자신도 주어 없이 말해야 하는 한국어가 가끔 낯설다고 했다. 그다음부터가 문제라고 했다. 형태 분석을 마친 데이터를 의미와 화행에 따라 분석과 분류를 차례대로 해 나가야 한다고 했다. 그의 말은 그런 의미인 것 같았다. 우리 회사가 개발한 음성기록기가 알렉스의 목소리를 텍스트로 변환한 후에 바로 통역해 줬다. 일상 대화를 넘어서는 어려운 설명은 AI가 접목된 기술의 도움을 받았다. 


 “그럼 남현, 정말 마지막 질문이야. 그렇다면 좌변에는 뭘 배치해야 할까? 힌트, 우리 회사에는 없는 거야.” 


 “직급?”


 “맞아. 언어의 직급은 뭐지?”


 “존댓말.”


 “응. 높임말. 한국어 책에는 높임말로 표현해. 그럼 그걸 아카데믹 오드(word)로 바꿔 주면 스피치 레벨이라


고 해.”    

  

 | 천천-히_오-아도-되-어. 우리-는_회의_시작-하-ㄴ다.

    [형태: 서술<명령, 화계/ 의미:허용, 화행:불허용]

    따라서(∴) 허용<불허용     


  남현은 재빨리 스피치 레벨이 무슨 뜻인지 번역해 봤다. ‘화계’라고 번역됐는데 그 의미는 대화 상황에서 발화자가 청자에 따라 말의 높고 낮음을 표현하는 언어적 체계라고 하는 것 같았다. 알렉스의 말은 틀린 데가 한구석도 없었다. 그런데 남현이는 자신이 그의 설명을 왜 들어야 하는지 좀 이해되지 않았다. 그런 건 문과 출신이 하면 될 거란 말을 하려다 말았다. 개발자는 프로그래밍으로 말하면 되는데 알렉스는 서양 사람답지 않게 말이 길었다. 그런데 한편으로는 이거저거 남현이에게 질문하면서 대화를 이끌어 가는 알렉스가 참 고맙기도 했다.       


-3화로 이어집니다-                                                                       

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari