brunch

You can make anything
by writing

C.S.Lewis

by Brian Cheong Aug 19. 2020

ByteBridge를 소개합니다

머신러닝을 위한 데이터 레이블링, 데이터 컬렉션 솔루션


전례 없는 전염병의 대유행은 저로 하여금 여러모로 많은 고민을 하게 해주었습니다. 그 고민의 결과물이 프로덕트로 바뀌어 세상에 나오게 되어 소개하고자 합니다. 이 글에선 머신러닝에 필요한 데이터의 의미와 개념부터 현재 업계 상황 그리고 어떻게 우리가 어떻게 이 문제를 풀어가는지에 관해 설명하겠습니다.



ByteBridge.io


ByteBridge.io는 데이터 수집과 가공을 어떤 곳보다 효율적이고 저렴하게 진행할 수 있도록 도와주는 솔루션입니다. 구글 및 실리콘밸리의 업체보다 약 90% 이상 저렴하게 서비스를 제공하고, 10배 이상 빠른 속도를 보여주며 전체 과정이 투명하게 자동화되어 누구나 손쉽게 데이터를 수집하고 가공할 수 있는 솔루션을 제공합니다.



데이터 수집 및 가공 업무


머신러닝(특히 지도학습)을 진행하는 데 있어, 데이터는 연료와 같은 역할을 합니다. 연료 없이는 자동차가 움직일 수 없듯, 데이터 없이는 머신러닝을 구현할 수 없습니다. 그리고 높은 수준의 머신러닝을 구현하기 위해서는 수많은 데이터가 필요합니다. 훈련에 필요한 데이터를 수집하는 업무를 데이터 컬렉션(수집)이라고 칭합니다. 특정한 목적을 위해선 그 목적에 맞는 데이터의 수집이 필요한데, (아직은) 알고리즘이 이를 분류하고 지정해줄 수 없기에 수집과 분류의 과정에서 많은 사람의 도움이 필요합니다. 그리고 기계가 학습할 내용을 분류 지정하고 데이터를 훈련 가능한 형태로 가공하는 것도 사람의 힘을 통해서 진행됩니다. 머신러닝과 같은 최첨단(?)의 기술의 진행 과정에 아이러니하게도 사람들의 인풋이 많이 들어갑니다.


전 세계적으로 머신러닝, 인공지능에 대한 관심도가 높아지며 데이터 수집과 가공에 대한 수요도 폭증해왔습니다. 특히 관련 산업이 일찍 발전하기 시작한 중국에는 이미 수많은 데이터 수집 가공 업체가 존재하고 있고, 인도에도 많은 기업이 실리콘밸리를 등에 업고 기반을 갖추어 미국, 유럽의 기업들에 가공 데이터를 공급하고 있습니다.


데이터 자체가 풍부한 구글과 같은 대기업을 제외하면, 대부분의 기업은 훈련을 위한 데이터 자체가 부족하기 때문에 비용을 지불하고 가공된 데이터를 구매해야 합니다. 예를 들어, 안면 인식 솔루션을 훈련하기 위해선 다양한 국가의 다양한 인종의 얼굴 사진 데이터가 필요한데, 글로벌 대기업은 이미 많은 데이터를 자체적으로 확보하고 있지만, 대다수의 스타트업은 데이터 수집에 어려움을 겪고 있습니다. 더 나은 솔루션을 위해서 체계적인 데이터의 집적은 필수적입니다. 기업 입장에서는 어떻게 하면 더욱 낮은 비용으로 데이터를 수집, 가공하고 효율적으로 훈련을 진행할 것인가가 집중할 수밖에 없습니다.



기존의 업계 상황


앞서 설명한 것과 같이, 데이터 수집과 가공에는 많은 인력이 필요합니다. 그러다 보니 대부분 데이터 가공 업체들이 인건비가 상대적으로 저렴한 중국, 인도에 사무실을 가지고 직접 가공 인력을 관리하거나 다시 아웃소싱을 진행하는 형태로 데이터 공장을 운영하고 있습니다. 전체 운영 과정은 사실 인력 사무소 운영 방식과 매우 유사합니다.


데이터 수요자(갑)가 필요한 데이터 관련 업무(라벨링 혹은 컬렉션)를 데이터 공급 업체(을)에 발주하면, 데이터 공급 업체(을)는 1) 다양한 국가에 위치한 자체 팀(병1)에 업무를 분배하거나 2) 관련 업무를 처리할 수 있는 외주 업체(병2)에게 하청을 주게 됩니다. 그리고 이 하청업체(병1,병2)는 다시 관련 업무에 종사할 사람들(정)을 모집하고, 피시방과 유사한 형태의 데이터 공장에서 관련 업무에 대한 트레이닝을 진행하고 집중적으로 업무를 실행합니다. 그리고 나서 하청업체(병)들이 1 차적으로 데이터 검수 과정을 마치고 나면, 그 데이터가 을에게 전달되고, 을은 다시 한번 자체 데이터 검수 과정을 거친 후 갑에게 결과물을 제공합니다. 


이 과정은 인터넷 업계가 일하는 방식이라기보다는 전통적인 생산라인과 공급업체의 운영 방식과 유사한데, 이 과정에서 발생하는 비효율이 매우 높아 이를 처리하는 데 들어가는 시간은 길어지고 전체 비용은 높아지게 됩니다. 정보 비대칭과 2차, 3차 유통 단계에서 발생하는 비용으로 인해 기업 입장에서는 높은 비용을 지불할 수 밖에 없고, 실제 수집 및 가공 업무를 진행하는 사람들에게 남는 수익은 적어지게 됩니다.


(구글 또한 직접 운영하거나 협업하는 데이터 공장을 통해 데이터 레이블링 서비스를 제공하고 있으며  covid-19기간엔 이마저 휴업 상태로 넘어갔다)



기회


저는 우리가 지금까지 쌓아온 프로덕트 개발 역량과 블록체인 관련 기반 기술을 기반으로 이 분야에서 큰 혁신을 이루어 낼 수 있다고 생각합니다. 1) 블록체인의 크로스보더 마이크로 페이먼트, 스마트 컨트랙트는 손쉽게 신뢰의 기반을 세울 수 있게 해주며, 중간 단계를 손쉽게 제거할 수 있게 해줍니다. 2) 데이터 검증을 위한 자체 컨센서스 기제는 수많은 사람이 동시에 다양한 업무에 협업할 수 있게 해주며, 정확한 결과를 신속하게 만들어낼 수 있게 해줍니다. 3) 우리는 이 모든 과정을 모두 네트워크 위에서 구현하여, 그 처리 과정을 고객에게 투명하게 보여주고 데이터 처리에 필요한 시간과 비용을 예측할 수 있게 해주어 전체 프로세싱의 효율성을 크게 개선할 수 있습니다.


이 전체 프로세스의 참여자 기준으로 좀 더 자세하게 설명하자면,


데이터 공급자


데이터 공급자/가공자는 시간 장소에 구애받지 않고, 손쉽게 모바일 어플리케이션(Acorn Box)을 통해서 손쉽게 데이터 레이블링, 데이터 컬렉션 업무에 참여할 수 있습니다. 알고리즘을 통해 빠른 속도로 업무 결과가 검증됨과 동시에 거의 실시간(일반적으로 수분 이내)으로 업무에 대한 보상을 지급받을 수 있습니다.


그동안 저희가 쌓아온 모바일 서비스 개발 역량은 휴대폰의 기종과 관계없이 참여자가 안정적으로 더 나은 결과물을 만들어낼 수 있는 솔루션을 제공합니다. 블록체인에서 아이디어를 얻은 합의 알고리즘은 다양한 사람들이 동시에 하나의 업무에 참여하고, 정확한 결과물을 효율적으로 생성해낼 수 있게 해줍니다. 블록체인 기술은 스마트컨트랙트를 통해 참여자들의 기여를 투명하고 공평하게 평가하며 빠르고 저렴한 결제를 지원합니다.


코로나로 인해 실물 경제가 위협받고, 전 세계적으로 많은 일자리가 사라지고 있는 이때 새로운 소득 창출의 기회를 제공합니다.


WorkBox 소개 영상: https://www.youtube.com/watch?v=kRokLM2OJ-M




데이터 수요자


데이터 수요자(기업 혹은 개발자) 입장에선 그동안 블랙박스 상태였던 데이터 수집 및 가공 과정을 투명하게 확인하고, 압도적으로 빠르고 저렴하게 원하는 데이터를 제공 받을 수 있습니다.


수많은 공급자가 훨씬 효율적으로 결과물을 생성해낼 수 있게 됨에 따라, 보통 일주일 이상 걸리던 데이터 가공 시간이 수 시간 수준으로 줄어들게 됩니다.


데이터의 가공 과정이 대부분이 네트워크 위에서 완성되기 때문에 데이터 수요자는 업무의 처리 과정, 속도, 완료까지 걸리는 시간, 완료에 필요한 비용 등을 실시간으로 파악할 수 있어, 업무의 효율을 높이고 안정적으로 리스크를 관리 할 수 있게 됩니다. 개발자는 ByteBridgeige의 Dashboard를 통해 데이터를 업로드하고, 처리 완료된 결과물을 다운받을 수 있습니다. 저희가 제공하는 api를 통해 데이터 전송, 가공, 다운로드 등 모든 과정을 기존의 프로그램과 손쉽게 연동할 수도 있습니다.


(ByteBridge 대시보드 예제전체 8,000개의 이미지 중 7,200개에 대한 처리가 완료되었고 그중 10,800개의 박싱이 처리되었음을 확인할 수 있다. 현재까지 전체 비용은 75.6 달러 발생했고 전체 예상 비용은 84달러 수준으로 처리될 것으로 예상됨을 표시하고 있다)



그동안 협상에 의해 결정되던 데이터 가공 비용이 훨씬 투명하게 결정되고 비용 또한 크게 낮출 수 있게 되어 협상 과정에서의 비효율과 시간 낭비를 줄일 수 있게 되어 개발자들은 더욱 중요한 업무에 더 많은 시간을 할애할 수 있게 됩니다.


기존의 영미권 업체와 비교하였을 땐 최대 90% 이상 저렴하게 서비스 제공이 가능하고, 중국, 인도 등 업체와 비교하였을 때도 약 50% 이상 저렴한 서비스 제공이 가능합니다. 물론 처리 속도는 10배 이상 개선되었습니다. 지금 ByteBridge.io 에 가입하면 이미지 박싱을 약 8,500장 처리할 수 있는 정도의 크레딧을 무료로 제공하고 있으니 가입하셔서 테스트해 보시기 바랍니다.


웹사이트 http://www.bytebridge.io



Go Big


기존 업계의 일반적인 업무 프로세스에서 중간 관리 업체, 특히 중간 관리 인력이 모두 블록체인과 알고리즘으로 전환 됨에 따라, 저희는 기존 업체들이 관리할 수 있는 것보다 훨씬 많은 양의 데이터와 많은 수의 데이터 가공 인력 그리고 훨씬 많은 고객 응대를 매우 낮은 비용으로 처리할 수 있게 되었습니다. 이에 따라 우리는 빠른 속도로 서비스 스케일링을 할 수 있을 것으로 기대하고 있으며, 이 과정은 서비스 제공에 들어가는 비용을 더욱 낮출 수 있게 해줄 수 있을 것으로 기대하고 있습니다.


대부분의 과정이 자동화됨에 따라 중간 커뮤니케이션 부담을 줄일 수 있어 우리는 더욱더 손쉽게 서비스를 다른 국가로 확대 적용할 수 있을 것으로 기대하고 있으며, 이에 따라 다양한 국가를 대상으로 한 마케팅과 세일즈를 준비하고 있습니다. 세계 어느 국가에서도 경쟁력을 갖춘 가격과 효율성을 제공할 수 있을 것입니다.



한국 시장과 데이터


최근 국내에서 인공지능, 머신러닝 등에 대한 관심도가 높아지고 있고, 정부 등 다양한 기관에서 데이터 가공의 중요성을 강조하고 있습니다. 안타깝게도 다양한 이유로 한국의 데이터 획득 및 가공 비용은 중국 등 다른 국가에 비해 훨씬 높게 형성되어 있고, 이는 개발 인프라 측면에서는 부담으로 작용하고 있습니다. 모든 경쟁이 글로벌에서 이루어지고 있는 이때 저희 솔루션은 관련 업계의 전체 비용을 낮추고 효율성을 개선하는 데 크게 기여할 수 있다고 생각합니다. 혹시 주변에서 데이터 수집 및 가공에 대한 수요가 있는 기업, 개발자가 있다면 언제든지 추천 부탁드립니다. 가입하는 모든 분은 무료 크레딧으로 서비스를 테스트해 볼 수 있고, 저희 개발팀이 매우 손쉽게 기존 서비스에 포팅할 수 있게 도와드릴 수 있습니다 .



마지막으로


피터틸의 제로투원에 보면 새로운 서비스는 적어도 10배 이상의 개선을 이루어 내야 시장에 의미 있는 충격을 주고 그 시장을 점령할 수 있다고 합니다. 저희는 새로운 서비스를 준비하고 개발하면서 우리의 서비스가 그 정도 수준의 결과물을 가져올 수 있다고 생각하며 서비스 개발에 몰두했고, 실제 검증 테스트 기간 저희의 가설이 틀리지 않았음을 다시금 확인할 수 있었습니다. 이제는 기본적인 서비스가 완성 단계에 다다름에 따라 본격적으로 국내외 대상의 마케팅, 세일즈를 시작하고자 합니다. 주변에 협업 기회가 있다면 언제든지 추천 해 주시고, 다양한 방식의 Growth Hacking에 관심이 있거나 B2B Sales에 관심 있으신 분들은 직접 연락주시면 감사하겠습니다.



참고로 최근 야후파이낸스와 블룸버그에 픽업된 기사도 아래에 붙입니다.


작가의 이전글 글로벌 네트워크 경제 시스템 구축을 위하여

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari