brunch

You can make anything
by writing

C.S.Lewis

by 샤인웨이 Mar 07. 2018

'데이터'가 좌우하는 기계번역

<3>카카오, AI 미디어 스터디- 번역 엔진

"좋은 데이터가 많아야 훌륭한 기계번역이 가능하다."


한글을 영어로, 중국어를 일본어로 바꿔주는 인공신경망 기계번역(NMT, Neural Machine Translation)은 인공지능(AI)을 구현하는 원천기술 중 하나입니다. 가장 널리 사용되는 AI 기술의 상용화 사례로 꼽힙니다. 주로 포털 기반의 인터넷기업들이 기계번역 분야에서 치열한 경쟁을 펼치며 기술 발전을 이끌고 있는데요. 구글과 바이두, 네이버, 카카오가 대표적이죠.


얼마 전 카카오의 기계번역 발전을 주도한 배재경 컨텍스트팀장이 번역 엔진에 대한 전반적인 내용을 설명하는 자리를 가졌습니다. 배 팀장이 처음부터 끝까지 강조한 키워드는 '데이터'입니다.

카카오의 기계번역 웹서비스.

기계번역 성능 개선하는 '학습데이터'


기계번역은 인공신경망을 계속 학습시키면서 번역 오류를 줄여나가야 하는데요. 이를 위해선 원문(학습)과 번역문(평가)으로 이뤄진 학습 데이터가 필요합니다. 기계번역 알고리즘은 학습데이터 원문을 번역한 결과와 번역문을 비교하면서 번역 오류를 줄여나갑니다. 결국 기계번역 실력을 높이는 데 적합한 학습 데이터를 얼마나 많이 확보하느냐에 따라 서비스 품질이 좌우되는 거죠.


기계번역의 학습 데이터는 주로 문장 단위인데요. 예를 들면 'I am a boy. - 나는 소년입니다.'처럼 원문과 번역문의 세트로 이뤄졌죠. 인공신경망 번역 결과를 학습 데이터와 비교해 1(완전히 일치)과 0(완전히 불일치) 사이 점수를 매기고, 1에 가까워지는 방향으로 인공신경망을 학습시킵니다. 인공신경망이 학습을 진행하면서 번역 오류를 계속 줄여나가는 거죠.


그렇다면 좋은 학습 데이터는 어떻게 확보할까요? 카카오가 보유하거나 수집할 수 있는 데이터는 자막, 뉴스, 연설문, 전자책 등 장문의 글 단위가 많았다고 합니다. 이런 형태의 데이터는 너무 방대하기 때문에 문장 단위로 잘라내는 작업이 필요하죠.


카카오는 '블루(BLEU, Bilingual Evaluation Understudy) 얼라인'이라는 알고리즘으로 문장 단위의 학습 데이터를 추출했습니다. 블루 얼라인은 같은 단어가 나타나면 한 문장일 확률이 높은 것과 같은 규칙들을 파악하는 방식으로 작동합니다.


카카오 '에이블루 얼라인', 학습데이터 추출 성능 개선


카카오가 자체적으로 개선한 '에이블루 얼라인'(Advanced 블루 얼라인)은 유사어에도 점수를 주는 방식을 도입했습니다. 예를 들어 기존 블루 얼라인에선 0점이지만, 에이블루 얼라인에선 유사어 여부를 고려해 0.9, 0.8점을 줍니다. 글에서 문장을 추출하는 규칙들을 정밀하게 개선한 거죠.


정리하자면 기계번역은 학습 데이터에 내재된 숨은 규칙을 찾아가는 과정입니다. 번역 정확도의 상한선은 데이터에 좌우되고, 데이터는 번역 품질뿐 아니라 번역 특성도 좌우합니다. 구어체 데이터로 학습한 기계번역 알고리즘은 원문을 구어체로 번역하는 특성을 갖게 되는 겁니다.


카카오는 그동안 갈고닦은 기계번역 기술을 활용해 번역 챗봇을 시작으로 번역 앱, 번역 API 등을 선보일 예정입니다. 배 팀장은 사내 블라인드 테스트에서 경쟁사(구글, 네이버 등)보다 자사의 번역 품질에서 높은 점수를 받았다고 밝혔는데요. 실제 서비스에서도 그런 모습을 보여줄 수 있을지 지켜봐야 겠습니다.

카카오I 챗봇. 한글을 일본어, 중국어, 영어로 번역 가능.
매거진의 이전글 AI, 스마트폰 함께 '진화'하다

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari