Please, Hotdog world~
학부시절 프랑스어를 배울 때는 물론, 대학원에 진학해서도 번역기는 떼려야 뗄 수 없는 관계였다. 비록 제대로 말은 못 해도 그래도 읽고 쓰는 방법을 12년이나 배운 영어마저도 결국은 번역기의 힘을 빌리기 일쑤였다. 영어도 그런 수준이었으니, 프랑스어는 말할 것도 없다.
하지만 이러한 번역기도 결국 한계가 있다. 영어를 한국어로 번역할 때, 슬랭을 엉뚱하게 해석하기도 한다. 한국어를 영어로 번역할 때는 요즘 세대가 사용하는 줄임말은 아예 이해를 못하는 경우도 있다. 프랑스어는 두 번에 걸쳐 번역기를 돌려야 하는 데, 프랑스어-> 영어, 영어-> 한국어 순서였다. 상대적으로 많은 데이터가 있을 법한 불-영을 먼저 한 후, 영-한을 선택한 것이었다. 이처럼 번역기를 사용하더라도 여러 문제에 맞닥뜨리게 된다.
<플리토>는 이러한 문제에 집중했다. '집단지성 번역'이라는 이름으로 여러 사람이 번역에 참여해 슬랭이나 줄임말, 더 나아가 문맥 속의 의미까지 파악할 수 있다. 정말 *깜놀(I'm Suprised!)이 아닐 수 없다. 오늘은 이러한 <플리토>를 한번 파헤쳐보려고 한다.
*실제로 <플리토> 번역기에 '깜놀'을 입력하면 I'm suprised 라고 번역해준다.
세상의 모든 번역, 플리토에서 한 번에
2012년 9월 창립된 <플리토>는 한국뿐만 아니라 일본, 중국에 지사를 둔 글로벌 언어 번역 서비스다. 2012년 아시아 기업 최초로 테크스타스 런던 지사에서 인큐베이팅을 받았으며 이외에도 다양한 국내외 스타트업 경진대회 상을 수상했다. 더불어 2019년 7월에는 기술특례 상장제도 1호 모델로 코스닥 시장에 상장되었다. 보다 최근에는 <국립국어원>의 과제 보조 사업자로 선정되기도 했다.
이러한 <플리토>는 언어 데이터 플랫폼으로써 다양한 번역 서비스를 제공하며 AI 학습을 위한 언어 데이터를 가공 및 판매한다. 대표적인 번역 서비스로는 인공 신경망 기술을 이용한 '인공지능 번역', 자체 번역가 테스트를 통과한 번역가의 집단지성을 활용한 '집단지성 번역', 전문 번역가와 1:1 매칭을 통해 이뤄지는 '1:1 전문 번역', 대량으로 번역 용어의 체계적 관리가 필요한 기업을 대상으로 한 '기업 번역', 앱을 통해 제공되는 '이미지 번역', 인공지능 알고리즘과 연동해 영상 자막을 제공하는 '영상 자막 번역', 식당 메뉴판, 서비스 안내판 등의 번역을 QR로 제공하는 'QR 플레이스'가 있다. 데이터를 활용한 서비스로는 다양한 조건과 메타 데이터를 제공하는 '언어 데이터', 정해진 시간 내 대규모 고품질 언어 데이터를 구축할 수 있는'API 솔루션'이 있다.
<플리토>는 재밌는 방식으로 언어 데이터를 수집하는 데, '아케이드'라는 서비스다. 이는 크라우드소싱 형태로 데이터를 수집하는 게임형 언어수집과정이다. B2B 비즈니스가 활발해지며 다양한 기업들이 원하는 조건으로 데이터를 가공 및 제공할 수 있도록 다양한 경우의 구어체를 직접 사용자로부터 수집하고 있다.
<플리토>의 주요 고객은 일반 고객, 기업 고객, 그리고 번역가 총 3가지로 나뉜다. 책 <인스파이어드>의 내용을 참고해 고객 이슈, 불편함, 욕구, 생각을 정리해봤다. 일반 고객의 경우, 직접 고객 조사를 실시하지 못한 점이 아쉬우나 과거 번역 서비스를 필요로 했던 나의 경험에 빗대어 정리했다. 기업 고객의 경우, <플리토>와 협력 혹은 언어 데이터를 공급받은 기업(기관)과 관련된 뉴스를 토대로 정리했다. 실제 어떤 점을 필요로 하여 데이터를 구매(혹은 협력)하고자 하는지 정리했다. 마지막으로 번역가의 경우, 번역가와 관련된 티스토리, 블로그, 서적 등을 참고해 정리했다. 실제 번역가에게 빨리 양질의 이력을 쌓는 것은 커리어에 중요한 영향을 끼치는 데, 이러한 점에서 플랫폼으로써 <플리토>가 필요할 것이다.
<플리토>는 한국어, 영어, 중국어, 일본어뿐만 아니라 다양한 언어 데이터를 제공한다. 이 언어 데이터는 전문가 검수(QC) 뿐만 아니라 집단 지성을 활용해 데이터를 검수 및 수집하고 있다. 이렇게 수집되는 데이터는 연령, 성별, 상황(비행기 안/호텔 등) 별 메타데이터가 부여된다. '아케이드'라는 게임형 언어 수집 과정을 통해 텍스트, 이미지, 음성 등 언어 데이터를 사용자에게 제공한다. 이 언어 수집 과정은 크게 제시된 문장을 번역하는 '번역', 제시된 번역을 정확도 평가 및 수정하는 '검수', 이미지, 영상, 또는 오디오에 있는 문구를 받아 쓰는 '받아쓰기', 제시된 주제를 바탕으로 문맥에 맞게 대화를 작성하는 '대화하기', 제시된 원문의 오탈자를 검수하는 '원문 검수'가 있다. 예를 들어 '대화하기의 경우, "식당에서 발생할 수 있는 대화를 이어가 주세요."라는 상황을 부여해 사용자가 직접 대답을 작성하는 방식이다. 이렇게 작성된 대화는 다른 사용자를 통해 적합/부적합 판정을 받는다.
이렇게 집단지성을 활용해 언어 데이터를 쌓는 방식은 일반기업이 1년에 걸쳐 번역 데이터 100만 개를 생산할 때, <플리토>는 4개월 동안 약 300만 개를 만들어 낼 수 있을 만큼 데이터 수집에 큰 도움이 된다. 더불어 단순히 많은 데이터를 만드는 데 그치지 않고, 메타데이터를 부여할 수 있도록 사용자 성별/연령을 수집하고 다양한 대화 케이스를 만들고 있다.
책 <인스파이어드>에서는 제품 관리자가 이해해야 하는 데이터를 곧, '고객이 제품으로 무엇을 하는지에 대한 이해'라고 설명했다. 직접 정량/정성적 분석을 통해 실제 고객들이 어떤 활동을 조사하지 못한 점이 아쉽다. 본 분석에서는 데이터를 수집하는 방식에 대해 정리했다.
왜 <플리토>는 이러한 아케이드 서비스를 통해 언어 데이터를 수집할까? 그 답은 '데이터 저작권'에 있다. 우리가 일상 속에서 자주 접하는 뉴스, 신문기사뿐만 아니라 블로그나 페이스북과 같은 곳에도 모두 저작권이 있다. 그렇기에 이를 무단으로 사용하면 저작권 침해가 발생한다. <플리토>의 아케이드는 이런 저작권 문제를 해결했다. 더 나아가 이렇게 저작권 문제없이 구성된 데이터는 기업 측에 데이터를 판매할 때도 주요한 포인트가 될 수 있다.
<플리토>는 사용자를 잇는 플랫폼 서비스다. 앞서 '고객'에 대한 이해 부분에서 다뤘던 고객을 중심으로 비즈니스 모델을 정리했다. 비즈니스에 큰 축으로는 1:1 번역, 집단지성 번역을 제공하는 '플랫폼 서비스'와 기업을 대상으로 AI학습 등을 위해 '언어 데이터'를 판매하는 활동으로 나누었다.
<플리토>는 플랫폼 서비스를 통해 번역을 제공함은 물론 다양한 사용자로부터 언어 데이터를 수집하고 이렇게 수집된 언어 데이터를 가공/판매하여 언어 데이터 수익을 만든다. <플리토>의 매출에 가장 큰 비중을 차지하는 것은 '언어 데이터 판매'이다. 실제 8월 13일 발표한 분기보고서에 의하면 매출의 약 85%가 언어 데이터 판매로 이루어졌다. 이렇게 보면 언어 데이터 판매가 제일 중요한 비즈니스로 인식될 수 있다. 하지만 이런 언어 데이터를 수집하는 창구가 플랫폼 서비스라는 점을 간과해서는 안된다.
결국 더 양질의 언어 데이터를 만들기 위해서는 플랫폼 서비스에 접속하는 사용자를 늘려야 한다. <플리토>에서는 언어 데이터를 수집하는 활동에서 발생하는 비용으로 '포인트 비용'을 책정하고 있다. 결국 이러한 포인트 비용이 증가해야 더욱더 많은 언어 데이터를 생산할 수 있을 것이다.
실제로 플리토가 2020년 12월 발표한 사업보고서와 얼마 전 발표한 상반기 보고서를 비교해보면 얼마나 많은 데이터가 수집되고 있는지 알 수 있다. 2020년 통틀어 약 13억 원의 포인트 비용이 발생한 반면, 2021년이 절반밖에 지나지 않았음에도 포인트 비용으로만 약 10억이 발생했다.
앱테크를 활용한 언어 데이터 수집
<플리토>는 '아케이드'를 통해 저작권 문제가 없는 데이터를 수집하며 이러한 데이터 수집에 대한 보상으로 사용자에게 금전적 보상(포인트)을 제공한다. 여기서 사용자에게 제공되는 만족은 금전적 보상이다. 데이터를 더 많이 더 다양하게 수집하기 위해서는 더 많은 집단지성의 힘, 즉 더 많은 사용자가 필요하다. 이렇게 수집된 양질의 데이터를 통해 더 다양한 기업에 더 많은 데이터를 공급하고 수익을 창출해낼 수 있다. 이를 <아마존>의 플라이휠에 빗대어 표현해보면 아래와 같다.
0. '아케이드' 보상으로 더 많은 포인트를 제공하면, 더 많은 사용자가 유입된다.
1. 더 많은 사용자가 유입되면 더 많은 데이터가 수집된다.
2. 다양한 데이터를 기반으로 다양한 기업에 Data를 판매한다.
3. 더 많은 수익이 창출된다.
...
4(0). 더 많은 포인트를 제공한다
이렇게 보면 더 많은 데이터를 생산해 수익이 발생한다는 점이 지속적인 성장의 모멘텀으로 보일 수 있다. 하지만 언어 데이터 수집과 포인트 비용의 관계를 생각한다면, 추후에는 이러한 비용을 줄이거나 혹은 이를 대체할 수 있는 또 다른 고객만족 요인을 고민해야 할 것이다.
앞서 비즈니스에서 다루었듯 <플리토>는 크게 번역 서비스와 언어 데이터 판매를 통해 수익을 창출한다. 번역 서비스의 경우, 자체 플랫폼을 토대로 일반 사용자와 고객을 대상으로 번역을 제공하고 있다. 앞서 고객을 나눈 것을 기준으로 시장에서의 경쟁사(서비스)를 파악해봤다. 첫 번째로 일반 고객의 경우, 번역기를 사용하는 고객과 단/장문 번역 서비스를 이용하는 고객으로 구분했다. 번역기를 사용하는 고객의 경우, 흔히 알려진 <Google 번역기>나 <네이버 파파고>를 경쟁 서비스로 선정했다. 다음 단/장문 번역 서비스를 이용하는 고객의 경우 번역 서비스만을 전문적으로 제공하는 기업을 경쟁사로 선정했다. 두 번째로 기업 고객의 경우 다양한 업계나 니즈를 고려해 '기업 번역 서비스'라고 정리했으며, 이러한 서비스도 마찬가지로 번역 전문 기업을 경쟁사로 선정했다.
3사 번역기 비교
번역기 서비스를 제공하는 3사(구글, 네이버, 플리토)에 대해서는 전자정부 UIUX가이드를 참고해 비교했다. 플리토가 제공하는 번역기 서비스를 타사 대비 분석하고자 했다. 그 결과, 3사가 모두 전체 분야에 대해 평균 93.4%(구글 91.9%, 네이버 96%, 플리토 92%)로 높은 준수율을 보였다. 그중에서도 <플리토>는 접근성(모든 유형의 사용자가 이용할 수 있게 만든다) 측면에서 3사 평균 대비 낮은 준수율(69% 대비 51%)을 보였다. 이는 글자크기 조정, 음성 속도 조절 등 관련 기능 제공 유무에 따른 차이이다.
<플리토>를 방문하는 사용자 목적에 따라 번역기 개선 유무가 결정될 것이라고 생각한다. 사용자는 번역기 서비스를 사용하기 위해 <플리토>를 이용할까? 아니면 번역 서비스를 받기 위해 <플리토>를 이용할까? 전자의 경우라면 분명 개선할 필요가 명확하지만, 후자의 경우 번역기 서비스 이용을 통한 유입이 필요하지 않기에 굳이 개선에 자원을 투입하지 않을 것이다.
단/장문 및 기업 번역 서비스 비교
번역 서비스 비교를 위해 구글을 통해 '번역 회사' 검색 후 상위 노출되는 4개 번역 기업의 특징을 정리했다. 플리토를 포함 5개 기업은 전문 PM, 보안관리, 자체 번역 관리 시스템과 같은 기능을 강조했다. 번역 기업을 비교한 결과, 각 번역 기업이 강조하는 기능 대부분을 <플리토>에서 제공하고 있었다.
타사 대비 <플리토>의 강점으로는 여러 가지가 있다. 첫째, 다양한 번역회사와 번역가를 비교할 수 있는 플랫폼을 제공하고 있는 점, 둘째, 다른 번역 기업에서 제공하지 않는 단문 번역 서비스를 제공한다는 점, 마지막으로 '집단지성 번역'이라는 저렴하고 빠른 번역을 제공한다는 점이다.
데이터 판매 시장
<플리토>가 매출 대부분을 창출해내는 데이터 판매 시장은 그 규모가 더욱더 커지고 있으며, 중요성 또한 부각되고 있다. 2020년 데이터 산업 현황조사(데이터산업진흥원, 2021. 03)에 의하면 2020년 데이터 산업 규모는 2019년 대비 14.3% 성장한 약 19조 3천억으로 추정된다. 그중에서도 <플리토>가 사업을 영위하는 '데이터 판매 및 제공 서비스업'은 그 비중이 48.6%에 달한다.
크라우드 소싱 플랫폼을 활용한 데이터 수집 서비스
데이터 판매 시장이 커짐에 따라 데이터를 빠르게 수집하고 활용할 수 있는 능력을 지닌 서비스가 지속적으로 성장하고 있다. 대표적인 예로 호주의 어펜(Appen)은 글로벌 인공지능 데이터 판매 및 가공 기업으로 프로젝트 단위 크라우드 소싱 프로젝트를 활용해 데이터를 수집 및 판매하고 있다.
이러한 빅데이터 확보에 크라우드 소싱이 필요한 이유는 저작권 문제와 빅데이터 특성 때문이다. 저작권이 있는 블로그나 SNS, 뉴스 기사와 같은 데이터는 활용하는 데 한계가 있다. 따라서 이러한 저작권 한계를 극복하기 위해 직접 사용자로부터 데이터를 수집할 수 있는 크라우드 소싱 방식이 데이터 수집에 용이하다(이 내용은 앞서 간략하게 다루었다). 두 번째로 빅데이터 특성이다. 빅데이터 특성은 크게 3V(최근에는 5V, 7V까지 등장)로 나뉜다. 여기서 3V는 Volume(양), Variety(다양성), Velocity(속도)를 뜻한다. 크라우드 소싱은 이러한 빅데이터 특성을 잘 반영할 수 있다.
크라우드 소싱 방식을 활용한 데이터 수집 기업에는 앞서 소개한 호주의 어펜(Appen)과 한국의 딥네츄럴(레이블러), 크라우드웍스(크라우드웍스), 플리토(플리토) 등이 있다. 이러한 기업들의 데이터 수집 서비스를 위 제시한 빅데이터 특성과 연결 지어 분석했다. 분석 결과, <플리토>는 보상을 얻기 위한 프로젝트 장벽이 낮으며, 짧은 시간으로 보상을 얻을 수 있는 시스템(아케이드)이 존재해 사용자로 하여금 손쉽게 참여가 가능하도록 했다. 다른 3사의 경우, 보상을 얻기 위한 프로젝트 신청을 통해 수락을 받거나 사전 선발과정을 거쳐 프로젝트를 수행했다.
<플리토>는 크라우드 소싱의 특성을 잘 활용하고 있었는데, 사용자 유입(Volume)에 있어서는 '아케이드'와 같은 간단한 퀴즈를 통한 보상(앱테크)을 활용했다. 사용자 구분(Variety)에 있어서는 연령/성별을 구분했으며, 번역이나 아케이드에 상황 구분(쇼핑몰에서의 대화, 문학, 식당에서의 대화 등)을 통해 한 명의 사용자가 여러 케이스를 만들어낼 수 있도록 했다. 마지막으로 속도(Velocity)에 있어서는 앞서 확보한 사용자가 동시에 번역할 수 있도록 해 빠르게 데이터가 수집될 수 있도록 했다.
<플리토>가 제공하는 언어 데이터, 말뭉치(코퍼스)는 AI 학습에 핵심 재료이다. 특히 우수한 데이터를 인정받아 <네이버>와 업무 협약을 맺었으며, 최근에는 <국립국어원>에서 실시하는 '한국어-외국어 병렬 말뭉치 구축 사업에 보조 사업자'로 선정되기도 했다.
더불어 <플리토>가 제공하는 언어 데이터 공급단가가 높아짐은 물론, 이러한 언어 데이터를 활용하는 NLP(자연 언어 처리)는 인공지능의 핵심 기능이다. 앞으로의 가능성은 무궁무진하다. 하지만 지금처럼 '포인트'라는 금전적 보상을 활용한 데이터 수집 방식을 개선해 비용을 줄이거나, 혹은 비용을 유지하더라도 또 다른 고객만족 포인트를 찾아내 제공함으로써 더 많은 양질의 데이터를 확보할 수 있을 것이다.
유튜브 채널 '최정화 랑데부(Rendez-vous)' 채널에서 이정수 대표가 한 말이 기억에 남는다. "언어라는 것은 상대를 이해한다는 느낌을 준다. 한마디 던지더라도 받아들이는 사람 입장에서는 상당히 크게 느껴진다"라는 말을 했다. 평소 여행을 다니면 꼭 그 나라 언어를 하나쯤 익혀 활용해보려고 노력하는 편이다. 그래서인지 이러한 이정수 대표의 말이 와닿았다. <플리토>가 언어라는 장벽을 낮추고 사람들이 보다 쉽게 언어를 익히고, 또 다른 문화를 경험하게 하는 데 도움이 될 수 있길 빈다.
언어의 힘은 정말 대단하다고 생각합니다. 대학원 시절 운 좋게 타게 된 에어프랑스 비즈니스석에서 불어로 말을 건네는 저를 보며 놀란 승무원이 비행하는 내내 제게 어찌나 친절하게 대해주던지, 나중에는 틀린 불어를 고쳐주기도 했던 기억이 납니다("네? 50대 시라고요? 3,40대로 보이시는데요!"라는 저의 불어 한마디 때문이었을지도 모릅니다ㅎㅎ). 집단지성이라는 말을 전역하고 2014년 처음 들었던 것 같습니다. 이미 그전부터 이 집단지성을 활용해 서비스를 만들어내고 이만큼 성장한 서비스가 있다는 사실에 내심 나는 너무 멈춰있지 않았나.라는 생각을 해봅니다.
오늘도 정말 긴 글이었습니다. 끝까지 읽어주셔서 진심으로 감사드립니다.
어느덧 여름이 가고 가을이 다가오네요, 다들 환절기 감기 조심하시고 늘 건강하세요:)
감사합니다.
-하노마 드림.
Main photo <꽃보다 청춘>, 여행의 시작 편
<정보 출처>