brunch

You can make anything
by writing

C.S.Lewis

by 미래지기 Dec 29. 2016

기계학습과 빅데이터 시대에 언어 학습이란?

이를테면 외국어로 작문을 하는 방법



  우리는 학교나 학원에서 오랜 시간 외국어를 공부한다. 외국어라고 하지만 사실은 영어라고 한정 짓는 것이 더 솔직할지도 모르겠다. 살아가면서 영어만 공부하는 것은 아니다. 일본어도 공부하고, 중국어도 공부하고, 프랑스어도 공부한다. 졸업을 하고 난 뒤에도 또 공부한다. 아랍어도 공부하고 독일어와 스페인어, 힌디어에 포르투갈어까지 공부하게 될지도 모른다. 살면서 외국어 한 두 개쯤 구사해야 한다는 부담은 이 시대를 사는 모두가 지고 가는 의무가 되어 버렸다. 네트워크로 연결되어 국제표준Global Standard을 부르짖으며 살아가는 사람들이 먼저 허물어야 하는 국경은 언어다. 이 불꽃같은 운명에 맞서 우리는 지금도 외국어를 공부하고 있다. 그것도 열심히.



  학교에서는 외국어를 문제풀이 대상으로 간주한다. 각종 문장 형식을 가르치고 문법 시험을 치른다. 우리 머리는 공식을 도출하듯 독해를 연습하며 작문을 위해 관용 표현을 암기한다. 듣기와 읽기는 시험을 위해 존재하는 스킬로 간주된다. 그러나 우리 몸은 알고 있다. 공부를 하기 전에 먼저 몸에 익히라고 신호를 준다. 언어는 연역에 앞서 귀납적으로 익히는 것이다.


  모국어를 배울 때 어떻게 했나 생각해 보자. 누구나 몸으로 익혔지 공부해서 획득하지는 않았다. 그런데도 외국어는 공부한다. 왜 그럴까? 처음부터 이중언어를 구사할 수 있는 사람이 아니라면, 누구나 모국어가 자리 잡은 뒤 다른 언어를 모국어처럼 익히기가 대단히 어렵다는 게 가장 큰 이유다. 이것은 자연법칙이라 거스를 수 없다. 그런데 여기에, 영어 같은 외국어를 최소한 하나쯤은 할 줄 알아야 한다는 사회적 압박이 가세한다. 외국어가 필요하다고는 늘 상기시켜 준다. 그러나 모국어를 익히듯 재미있고 여유롭게 배울 시간은 허락하지 않는다. 익히지 못하니 자꾸 공부하게 되는 것이다. 그리고 그것이 재미없는 일이 되면 선택의 갈림길에서 갈등한다. 포기하느냐 아니면 방법을 바꾸느냐를. 외국어를 모국어 수준에 가깝게 익힌다는 것은, 비유하자면 다시 태어나는 경험을 하는 일이다. 그만큼 어렵다.



  언어활동을 할 때 우리 몸은 여러 가지 감각을 활용한다. 말하기는 듣기와 연결되어 있고, 쓰기는 읽기와 연결된다. 먼저 들리지listen않으면 말로 표현speak할 수 없고, 눈으로 이해하는 과정see을 거치지 않고 손으로 적는 일write은 불가능하다. 언어란 들리는 만큼 입에서 나오며 보는 만큼 쓰게 되는 능력이다. 외국어를 유창하게 구사하기를 원하는 사람일수록 더 많이 찾아 듣게 되고 작문을 잘 하고 싶은 사람일수록 더 많이 찾아 읽게 되는 이유는 그 때문이다. 이것은 마치 output의 품질은 input에 달려있다고 말하는 ‘자료처리 과정’과 같다.


  외국어로 글을 쓰는 일이란, 모국어 낱말을 사전에서 찾아 문장 조립하는 게 아니다. 모국어 문장과 가장 가까운 뜻을 지니고 있는 최적의 외국어 문장 또는 문장 패턴을 찾아내는 작업이다. 그러므로 알고 있는 자료가 풍부하면 풍부할수록 적절한 문장을 찾아낼 확률이 높다. 언어 학습은 "수많은 반복을 통해서 말과 글을 내 몸에 하나하나 장착하는 행위"라고 할 수 있다. 나만의 어법, 독창적인 문체 같은 것은 이러한 귀납적 완성이 이루어지고 난 다음에 발생한다.


기초와 개성은 한꺼번에 잡을 수 없는 두 마리 토끼입니다.
(스케치 쉽게하기/김충원)



  작문이 그렇다면 번역은 어떨까? 번역이란 외국어 원문을 모국어로 다시 쓰는 ‘글쓰기 행위’다. 이 일 역시 이미 존재하는 수많은 패턴 가운데 가장 적절한 표현을 찾아 쓰는 ‘발견 과정’이다. 외국어를 이해하는 능력과 모국어를 표현하는 능력, 이 두 가지를 조화롭게 구성해 균형을 찾고 간극을 줄여 나가는 작업이다. 이를 증명하는 사례가 바로 다시 각광을 받기 시작한 인공지능 방법론이며 기계 학습이다. 기계번역은 과거의 연역적 방법론에서 실패를 경험한 뒤 수많은 자료를 모아 패턴을 발견하는 귀납적 추론으로 알고리즘을 바꿨다. 몰라보게 달라진 최근의 기계번역 서비스는 우리에게 교훈을 준다. 외국어로 말을 하고 글을 쓰는 효과적인 방법이 결코 관용어의 용법을 암기하거나 여러 가지 문장 형식에 맞추어 낱말을 조립하는 작업이 아니라는 것을 기계가 증명하고 있는 것이다. 그리하여 외국어 강사가 아닌 기계에게 통찰을 묻는 시대가 되었다.



 이어령 교수는 컴퓨터를 활용해 생각하고 글을 쓰는 일을 CAT (Computer Added Thinking)이라고 했지만, 글을 쓰거나 번역을 하는 사람들이라면 고양이보다는 암소와 더 친해져야 할지도 모른다. COW (Computer Oriented Writing)의 직접적인 도움이 없이 외국어 문장을 만들어 내려면 꽤 긴 시간을 소비해야 할 테니 말이다. 이제 세상의 그 누구도 인터넷 검색엔진보다 더 많은 텍스트를 보유하지는 못한다. 누구나 검색창에 적절한 형식으로 문장을 적으면 이 시대 사람들이 많이 쓰는 표현이나 패턴, 즉 습관을 쉽게 찾아낼 수 있다. 도서관에서 가서 수많은 토플 예문을 외우지 않아도, 스마트폰을 꺼내서 기초적인 문장 구조만 검색창에 잘 구사하기만 하면 누구나 쉽고 빠르게 외국어로 글짓기를 할 수 있는 환경이 구축된 것이다. 인터넷 검색엔진이야 말로 보르헤스가 상상한 바벨의 도서관이다.   

  


  인공지능은 지금 전방위로 인간의 능력을 학습하고 있다. 이미지를 자동으로 분류하고 작곡하며 화가의 그림까지 모사한다. 인간만의 고유한 능력이라는 언어마저 학습한다. 학원에서 문제 풀이를 하는 인간을 모방하는 것이 아니다. 마치 모국어를 배우는 어린아이와 같이, 아무것도 없는 상태에서 데이터를 모으고 학습한다. 글쓰기는 물론이거니와 텍스트와 음성을 인식하고 (Optical Character Recognition / Voice Recognition) 목소리까지 모방한다 (Text-To-Speech). 자동응답 시스템, 위치추적장치, 텔레메틱스, CCTV와 같은 기술은 알아채지도 못하는 사이에 생활 속에 들어와서 우리의 손과 발, 눈과 목소리가 되었다. 학교에서 외국어를 가르치는 방법이 빅데이터로 무장한 인공지능보다 뒤떨어진다면 가까운 미래에 스마트폰보다 말을 못 하고 태블릿 PC보다 글을 못 쓰는 새로운 인류가 탄생하지 않으리라는 보장은 그 어디에도 없다. 기계학습 시대에 언어를 배우는 일은 과거와는 다른 경험이 될 것이 분명하다. 


▨ 미래지기

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari