대화형 AI 원료인 '말뭉치' 구축 필요성을 논증하려면
마음 다해 글을 썼지만 조금은 허탈했던
사진=아마존닷컴헬스케어 AI 콘텐츠를 쓰기 전에 출고한 글에서는 말뭉치를 다뤘다. 말뭉치는 컴퓨터가 사람 말을 알아듣도록 학습할 때 필요한 원재료다. 이름하야 언어 데이터베이스. 아마존 알렉사, 구글 어시스턴트 같은 대화형 AI를 개발할 때 사용한다. 이 주제를 다룬 이유는- 글을 의뢰한 기업에서 이 주제로 써달라고 했기 때문이다. 헬스케어 AI 전까지는 주제를 미리 전달받았으니까. 주제는 해당 기업의 사업 방향성 또는 필요에 따라 선정했다. 그 무렵 해당 기업에서는 모 기관을 통해 일상 대화 말뭉치 구축 사업을 수주했다.
주제를 전달받은 뒤, 글 전개방향을 두고 고민했다. 기술 콘텐츠이긴 하지만 말뭉치는 재료이지 기술은 아니니까. 그전에는 챗봇, 챗봇 빌더, 빅데이터 분석 플랫폼, 이미지 인식 기술 등 특정 기술로 딱 떨어져서 개요 짜는 게 어렵지는 않았다. 늘 필요성을 논증하는 게 어렵지. 특정 기업의 기술 콘텐츠를 쓰면서 내가 가장 많이 고민하는 게 '이 기술의 필요성'이니까. 그래도 보통은 기술 개념, 작동과정, 발전과정, 필요성 이렇게 본론 1 또는 2까지 구성하고, 그다음은 해당 기업 기술 이야기로 넘어가면 됐다.
말뭉치는. 처음에는 본론 1, 2를 어떻게 구성하면 좋을지 딱 떠오르지 않았다. 내가 잘 몰라서 그랬던 것 같다. 기술의 필요성을 논증하듯 말뭉치 구축의 필요성을 이야기하면 되는데. 말뭉치와 최근 현안을 조사한 다음, 개요를 이렇게 구성했다. 서두에서는 트렌드를 짚고, 본론부터는 말뭉치 개념을 정의하고, 말뭉치의 쓸모를 다룰 것. 이어서 여러 언어 중 한국어 말뭉치 구축 현황과 이를 구축해야 할 필요성, 한국어 말뭉치가 부족할 때 문제점을 분석하기. 그다음 해당 기업의 말뭉치 구축 사업 운영방향과 계획을 정리하기.
사진=픽사베이글을 쓸 때 힘을 잘 안배해야 한다. 난 보통 서두와 본론 1, 2에 신경을 너무 많이 썼다. 해당 기업의 기술을 중심으로 글을 쓸 때는 그 기업 기술 내용은 자료를 전달받는다. 그러나 서두와 본론 1, 2에 들어갈 내용은 내가 자료를 찾고 참고할 내용을 추려야 하니까. 여기에는 현재 기술 트렌드나 개념 정의, 이 기술의 필요성, 활용분야, 타사 사례가 들어가기도 한다. 해당 기업의 기술을 본격적으로 이야기하기 위한 도움닫기 또는 징검다리라고 생각했다. 그래서 난 이 부분에 중요도를 많이 부여했다. 글을 쓸 때 고민이 배가 됐다.
말뭉치 콘텐츠의 서두를 쓸 때는- 일전에 시리에 대해 기사를 쓴 게 떠올랐다. 기억을 돌이켜보니 올해가 시리가 나온 지 10주년이었다. 시리는 모토로라 출신이 만든 동명 기업 시리에서 개발했다. 이는 2010년 앱스토어에 앱 형태로 출시됐다. 그 회사는 몇 개월 뒤 애플에 인수됐고. 이듬해 아이폰 4S에 전용 비서로 탑재됐다. 그 이야기가 생각나서 그걸로 서두를 열었다. 대화형 AI 비서의 선도적 존재인 시리. 그 시리가 나온 지 올해로 10년이 됐다고. 지금 이 시점에 대화형 AI를 이야기하는 까닭을 끌어오기에 나쁘지 않은 소재였다.
이후 2014년 아마존 에코 출시로 스마트 스피커가 봇물처럼 쏟아졌다고 언급했다. 판매대수 증가분을 제시하며 대화형 AI가 우리 일상 속에 깊숙이 들어왔음을 드러냈다. 굳이 스마트 스피커가 아니라도 이미 스마트폰에 하나씩 탑재돼 있다는 점도. 그러나 말뭉치 구축 필요성을 제시하기 위한 도움닫기로 스마트 스피커 이용 만족도가 낮은 현실을 통계로 제시했다. 성능 불만족이 주요인인데 여기에는 한국어 말뭉치가 부족한 점도 영향을 준다고 짚었다. 영어, 중국어, 일본어 말뭉치 규모와 한국어 말뭉치 규모를 함께 비교하며.
한국어 말뭉치 규모가 부족한 배경에는 국가 단위 말뭉치 구축 사업이 10년간 중단됐기 때문이라는 게 정설이었다. 정부도 그 필요성을 알고, 재작년부터 이를 재개하고 있고. 여러 기업과 손잡고 다양한 말뭉치를 구축한다. 서두에서는 이를 언급하며 내가 글을 쓰는 모 기업은 이중 어떠어떠한 말뭉치 구축 사업에 최근 참여하기로 했다고 덧붙였다. 그다음은 늘 그렇듯 이번 글에서 살펴볼 내용을 간략히 언급하며 서두를 마무리 했다. 이를 확충했을 때 기대효과도 간단히 쓰며. 서두를 쓸 때는 언론보도, 시장조사업체 통계를 참고했다.
사진=픽사베이이어지는 본론 1에서는 말뭉치 개념과 종류, 쓸모를 다뤘다. 특히 쓸모가 중요했다. 먼저 언어학 측면에서 사전 편찬, 언어 연구, 어문정책 수립 자료로 필요하다고 강조했다. 여기에는 국립국어원 자료나 언어학 교수 또는 국립국어원 관계자 칼럼을 참조했다. 이어서 AI 연구 자료로써 말뭉치 중요성을 이야기했다. 요즘은 AI 비서가 이끄는 음성 인터페이스 시대라는 점을 강조했다. AI 비서로 스마트홈 가전을 구동하고 있고, 활용도가 늘어난 만큼 컴퓨터 언어처리 역량을 고도화해야 한다고. 국내에서는 컴퓨터가 한국어를 잘 알아들어야 하는데 그러려면 한국어 말뭉치가 풍부해야 인식률도 높아진다고.
그러나 앞서 언급했듯 우리나라에는 한국어 말뭉치가 많이 부족하고 지난 10년간 국가단위 구축 사업이 중단된 게 영향을 줬다. 반면에 미국과 중국, 일본은 어떻게 말뭉치를 구축했는지 함께 언급했다. 여기에는 김한샘 연세대 교수의 글과 학술대회 발표자료, 언론 보도를 활용했다. 말뭉치 구축 필요성을 공부하고 정리할 때는 김 교수님 자료 덕을 많이 봤다. 이 분야의 전문가이자 권위자인 듯했다. 말뭉치 관련 주요 자료나 발표회에 항상 이름이 올라가 있으니.
말뭉치의 쓸모만 이야기해도 이를 구축할 필요성을 충분히 언급한 듯하다만. 이를 잘 모르는 사람 입장에서 들 수 있는 합리적 의심(?)을 짚고 넘어가면 좋겠다고 생각했다. '한국어 말뭉치가 부족하다고 하지만 세계 공용어도 아니고 한국인 수가 많은 것도 아닌데 그럴 수 있는 거 아닌가'라고. 이런 의문에는 김한샘 교수님 연구자료를 토대로 답해보고자 했다. 말뭉치는 그 나라의 언어자원이라서 중요하고. 과거에는 한국어 말뭉치 규모가 전 세계 다른 언어와 비교했을 때 컸지만 오랜 기간 구축하지 않아서 현재는 작아졌기에 이런 이유로 뒤처진 현실은 무겁게 생각해야 한다고. 이성규 메디아티 전 이사님이 블로터에 쓴 기고글도 도움됐다. 이분이 미디어나 콘텐츠를 주제로 쓴 글에서 배운 게 많은데. '이런 주제도 잘 소화하시는구나'라고 감탄했다. 만랩이 많구나.
이어서 말뭉치가 부족하면 어떤 문제가 있는지 논증하면 말뭉치를 구축할 필요성이 더 와 닿을 듯했다. 여기엔 현재 한국어 말뭉치에 최신 용어가 많이 업데이트되지 않았다는 점, 사전 편찬, 언어 연구, 어문정책 수립에 필요한 참고 자료가 부족할 수 있다는 점, AI 성능 개선에 필요한 자료가 부족하면 더 좋은 AI 서비스가 나오기 어렵다는 점, AI 기업이 국내에서 만들 수 있는 시장 기회도 줄어들 수 있다는 점을 들었다. 앞서 언급한 자료를 참고하면서 내 생각 또는 해석도 함께 담았다. 또 예상 가능한 의문이 '그걸 왜 국가 단위로 구축해야 하는가'이다. 일단 대규모로 구축할 수 있고 통일성도 있으며 스타트업도 접근할 수 있다는 점을 들었다. 스타트업 접근성의 경우 언론보도가 도움됐다.
사진=픽사베이그다음부터는 국립국어원의 말뭉치 구축 사업과 내가 글 쓰는 기업이 참여하는 내용, 그들이 왜 적임자이고 전문성 있는지를 다뤘다. 이 회사가 말뭉치 구축 사업에 여러 번 참여했다는 점이나 기타 업력도 언급했고. 이들의 사업 자료를 참고해 이번 사업의 말뭉치 구축 전략을 4가지로 추려서 제시했다. 또 구체적인 말뭉치 구축 방법을 설명했다. 이를 잘 모르는 사람 입장에서는 흥미롭게 읽힐 수 있는 내용도 있어서 어떻게 환경을 구축해서 말뭉치를 모으는지 보여주면 좋겠다고 생각했다. 화자를 얼마나 모아서 어떻게 하고, 품질은 어떻게 검증하는지 등. 사업내용은 이 글에서 자세히 말하기 어렵지만. 그렇게 쓰고 내용을 요약정리하며 글을 마무리했다.
글쓰기 순서는 '자료조사-자료 정리-현업 질문-초고 작성-무한 퇴고 겸 사실관계 확인-글 마무리' 이렇게 이뤄졌다. 이 글을 준비할 때 영문자료는 별로 보지 않았다. 한국어 말뭉치로 분야가 좁고 우리말이라는 특수성이 있기 때문이랄까. 우리말 자료만 봐도 충분했다. 혹시나 해서 영문자료를 찾아봤지만 내 글에서 당장 활용할만한 내용은 보이지 않았다. 영문자료를 많이 참고해야 하는 글에 비하면 걱정했던 것보다 덜 어려웠다. 내용을 내가 해석해서 말을 더 만들어야 하는 것도 있었다. 말뭉치가 부족할 때 문제점 일부 내용이 그중 하나였다. 그러나 판단 근거가 되는 자료가 있었고 난 살을 더 붙이는 거라서 괜찮았다. 아예 뇌피셜로 끼적이면 문제겠지만.
아쉬운 점이 있다면 이 글은 현재 비공개 처리됐다. 해당 기업과 사업 파트너인 기관에서 사업 이슈가 있기 때문이라고 들었다. 글에 문제 있는 건 아니라고 말해주던데 글쓴이 입장에서는 아쉽다. 글을 쓴다는 건 독자를 염두에 둔다는 의미다. 부정하고 싶어도 내 글이 널리 노출되고 많은 사람이 읽어주길 바라는 마음은 매한가지니까. 따로 개인 플랫폼에 올리기엔 나만의 글은 아니라서 어렵다. 누가 그 글 내용을 인용할 거라면 공식 출처와 주소를 밝혀줬으면 해서 언젠가 글이 다시 공개되길 바라는 마음이다. 말뭉치로 대화형 AI 작동원리를 더 알 수 있어서 유익했다. 준비하면서 나도 많이 배우고 깨닫는 글이 좋다.