brunch

You can make anything
by writing

C.S.Lewis

by 한나 Oct 10. 2022

데이터 라벨링 노동 줄이는 10가지 데이터 관리 방법

AI(인공지능)을 위한 데이터 관리도 SaaS로 스마트하게 하자!

오늘 글은 전문적인 ML 엔지니어, 업계 종사자 분들을 위한 글은 아닙니다. (제품마다의 상세한 기능 분석은 하지 않아요.) 데이터 바우처 또는 AI 모델 구축을 위해 라벨링 프로젝트에 니즈가 있는 기업 담당자분들이나 국내 어떤 데이터 라벨링 기업이 있는지 살펴보고 싶은 분들을 위한 '데이터 라벨링 입문'글이니 살펴보기 전 꼭 참고해주세요!


인공지능이라는 말만 들으면 뭔가 엄청 어려울 것 만 같잖아요. '아~ 인공지능 그냥 뭐 알아서 자동으로 해준다는 것 아닌가?' 정도로만 생각하게 되고요. 사실, 그게 다라고 생각하셔도 돼요. 인공지능이니까 알아서 자동으로 해주는 것! 오늘 준비한 데이터 라벨링 SaaS 또한 데이터 라벨링을 인공지능을 사용해 자동으로 할 수 있게 하는 거죠.



개요


사실 아직 까지는 인공 지능이 사람의 모든 능력을 대체하기는 어려워요. 로봇이나 드론 자율 주행 차량 AI 모델이 100%에 가까운 완성도를 가지려면 신뢰도 높은 데이터로 훈련된 AI가 필요하죠. 이런 AI를 만들기 위한 과정 중 '데이터 라벨링'이 필요한 거고요.

- 라벨링에 대한 개념

이처럼 AI가 계속해서 학습되기 위해서는 많은 양의 데이터가 필요한데 일반적으로 알고 계시는 '빅데이터'를 모두 필요로 하기보다는 일부의 '똑똑한 데이터'를 필요로 합니다.

예를 들어, 피자는 어떻게 만드는지 아이에게 알려준다고 했을 때 모든 피자 사진을 보여주면서 이렇게 생긴 게 모두 피자고 대충 이런 재료들이 들어간다라고 아이에게 교육하는 것보다는 피자는 치즈와, 올리브, 페퍼로니, 양파 등으로 구성되어 있고, 이것이 올리브고 이것이 양파야 등등 을 콕! 집어서 알려준다면 아이가 피자는 어떻게 생긴 재료들로 만드는지 이해하는데 더 도움이 되겠죠? 이 과정에서 똑똑한 데이터는 피자의 사진에 올리브와, 양파라고 이름을 붙인 데이터가 되는 거죠. AI가 더 학습하기 쉬워지니까요. 이렇게 피자의 양파와 올리브에 이름을 붙여주는 과정을 '라벨링(Labling)'이라고 해요.



과거에는 이 같은 라벨링 작업을 모두 사람이 수기로 진행했었지만 AI 기술이 발전하면서 '이 피자에는 올리브, 페퍼로니, 양파, 치즈, 햄'으로 이루어져 있어!라는 라벨을 모두 자동으로 달 수 있게 되었어요. 데이터에 주석을 단다라고도 표현을 하는데 기업들은 이 과정에 시간과 돈이 많이 든다는 것을 알기 때문에 외주로 맡기게 되죠.

- 아웃소싱, 외주를 주기 위해 라벨링 회사를 알아볼 때
대부분의 데이터 셋 구축, 라벨링에 관심이 있는 회사들은 바우처 사업을 통해 서비스를 사용하고는 해요. 사용 전 라벨링을 의뢰하는 회사가 사용하기보다는 라벨러들이 얼마나 유용하게 쓸 수 있는가? 에 초점을 두고 검토하기도 하고요. 어떤 경우에 이 서비스들을 검토하게 되는지 아래 두 가지 경우로 예를 들어 볼게요.

- 대행) 라벨링 프로젝트를 수주받은 담당자인 경우
고객사는 라벨러들이 라벨링을 진행하면서 어떻게 퍼포먼스가 나오는지 확인할 수가 있고 슈퍼브 에이아이의 스위트 툴로 직 접 라벨링 사업을 할 수 있다면 비용은 절감하고 더 저렴하게 진행할 수도 있겠네요.

- 대대행) 프로젝트를 수주받았으나 운영 관리는 외주를 맡기는 경우
고객사로부터 프로젝트 수주는 완료했으나 내부 리소스 또는 인력, 또는 구조상의 문제로 대대행을 맡기는 곳도 있을 텐데요. 그럴 경우 라벨링에 필요한 적합한 제품을 검토하게 될 거고요.

그럼 이제 피자를 만들기 위해 피자의 구성요소들을 찾아주는 라벨링 기술을 가진 국내 기업들을 한번 살펴볼게요.



목차 (ctrl+f로 희망하는 키워드 찾기!)

1. 크라우드웍스
2. 슈퍼브에이아이
3. 딥네츄럴AI
4. 테스트웍스
5. 인피닉
6. 셀렉트스타
7. 솔트룩스
8. 에이모
9. 구글 데이터라벨링 서비스 AI 플랫폼
10. AWS Sagemaker




1. 크라우드웍스 crowdworks


✅ 라벨러를 위한 교육 과정을 함께 운영하며, 이 교육생들이 과정 수료 후 직접 라벨링을 진행합니다.
✅ 크라우드소싱(긱플 등)에 집중해 크라우드 워커 관리에 중요도를 두고 있고 빠른 데이터셋 구축을 지원해요.
✅ 다양한 분야의 레퍼런스를 보유하고 있어요.


사람과 인공지능의 가치가 세상의 혁신을 함께 만들어 갑니다. AI 학습 데이터 NO.1 플랫폼, 크라우드웍스

- 지원하는 데이터 유형 : 이미지, 텍스트, 오디오, 그 외

크라우드웍스는 크라우드 소싱에 좀 더 많은 투자를 하고 있는 곳인데요. 사용자들이 이미지, 텍스트, 오디오 라벨링을 진행하면 그를 통해서 리워드를 주고, 정규 교육과정을 통해 라벨러를 교육하고 그 인력들을 활용해 수주하는 프로젝트들의 라벨링을 보다 빠른 시간에 진행할 수 있다는 것이 가장 큰 장점인 듯해요.
*크라우드 소싱이란 : 대중(Crowd) 아웃소싱(Outsourcing)의 합성으로 기업이 문제를 제공하고 이를 대중들이 해결하도록 하는 방법을 말합니다. 대중이 기업에 제시한 문제를 해결하면 기업은 그에 대한 보수를 제공하고요.


국내 가장 많은 크라우드 워커를 보유하고 있고 그를 기반으로 다양한 프로젝트 진행해 다양한 레퍼런스를 가지고 있다는 점이 가장 큰 장점이네요. 단기간 동안 진행된 사례들을 다수 살펴볼 수 있었습니다.






크라우드웍스의 경우 데이터 품질에 민감하고 라벨러 관리를 번거로워하는 기업들에게 적합할 듯해요. 단, 라벨러 관리가 데이터 품질로 이어지는 것은 아니라는 점도 꼭 명심하세요. 데이터 품질에 대한 우선순위가 높다면 2.슈퍼브에이아이를 추천해요.



2. 슈퍼브에이아이 Superb AI, 데이터 레이블링 플랫폼 '스위트 Suite'


✅ 커스텀, 오토 라벨링을 통해 모델 배포 시간을 줄이고, 완성된 데이터 셋 퀄리티가 높아요.
✅ 추가적인 상담이나 데모 예약 없이 바로 제품을 시작할 수 있어요.
✅ DataOps를 통해 데이터 라벨링부터 모니터링, 관리까지의 모든 과정을 한 번에 진행할 수 있습니다.   


인공지능 개발의 진입장벽을 낮춰 누구나 쉽게 인공지능을 개발할 수 있도록 돕는다.


아무리 빠르게 데이터 셋을 구축할 수 있고 라벨링을 마무리한다고 해도 완성품에서 데이터 품질이 낮아지거나 오류가 있다면 어떨까요? 데이터 셋을 구축하는 건 시간도 시간이지만 '정확도'가 제일 중요한 거죠. (예를 들어, 자율주행 데이터셋을 구축하는데 빠르게 완료되었을지라도, 이미지 라벨링이 몇 장이라도 잘못된다면 자율 주행 시 사고가 날 수 있겠죠.)  

바로 이렇게요. (영상 참고)

이런 사고들은 빠른 AI 모델 구축에서 영향받는 부분이 있는데, 모델이 다양한 변수의 데이터를 제대로 학습하지 못했기 때문에 발생하니까요. 또는 이미지 분류가 제대로 되지 않았거나요. 해서 데이터 셋 구축 시에는 무엇보다 '정확도'가 제일 중요해요. (빠르게 구축해서 사고가 나는 것보다, 느리더라도 천천히 가며 사고가 안 나는 게 더 중요하잖아요?)

이런 정확도에 초점을 맞춘 슈퍼브에이아이 데이터 플랫폼 Suite의 라벨링 방식에는 몇 가지 큰 차이점이 있는데요. 라벨러의 라벨링 시간과 노동력을 줄여주는 오토라벨링, 커스텀 오토라벨링을 기술을 가지고 있다는 점이에요. 이는 오늘 소개드리는 제품들 중 가장 작업 효율성이 높다고도 볼 수 있어요.

라벨러가 모든 라벨링에 공을 들이는 것이 아닌 오토 라벨링을 통해 자동으로 라벨링이 완성된 데이터 중 완성도가 떨어지는 데이터를 자동으로 분류하고 라벨러는 이를 중점적으로 확인해 의미 있는 데이터 가공에 더 집중할 수 있습니다. 또한, 데이터에 주석을 붙여 분류함으로써 작업 효율도를 더 높이게 되고요. 이런 기능들은 라벨러의 시간을 절약하고 고용해야 하는 라벨러 숫자도 줄어들어 비용 절감에도 한몫하고요. (제품 소개 영상)

라벨링 기능 외에도 슈퍼브에이아이의 스위트 Suite 플랫폼에서는 데이터 옵스 (DataOps) 구축을 위한 다양한 기능을 함께 이용할 수 있습니다. 라벨링 기능으로 구축한 데이터셋의 정확도나 품질 등의 요소들을 모니터링할 수 있도록 하는 거죠. 이를 통해 잘 못된 라벨의 발견 및 수정이 가능하죠. 모델에 부정적인 영향을 미치는 데이터를 삭제할 수도 있고요.

직접 제품을 체험하고 소개자료를 살펴보면서 이 제품이 얼마나 고품질의 데이터에 집중하고 있는지 알 수 있는 부분들이 참 많았는데요. 관련 기업들 중 다수는 크라우드소싱에 더 중점을 두기도 하지만 슈퍼브에이아이는 품질 높은 데이터와, 이를 관리하고 정제하여 품질 높은 AI 모델을 만드는데 더 집중하는 것처럼 보였어요. 해서, 장기간의 AI 모델 구축 프로젝트나, 보다 정밀한 데이터 셋 구축이 필요한 상황이라면 슈퍼브에이아이의 제품을 이용하는 걸 추천해요.

여담이지만 이 회사는 Y콤비네이터로부터 투자받은 7번째 한국 스타트업이어서 많은 주목을 받는 것 같기도 했어요. 최근에는 이런 데이터 중심의 제품 고도화, 사업 방향이 그 가치를 인정받아 220억 규모의 투자를 유치했다는 기사도 확인할 수 있었는데요. 대체적으로 스타트업 투자 혹한기로 불리는 요즘 200억 이상의 투자를 받았다는 것 자체로 제품에 대한 신뢰도도 덩달아 높아졌던 것 같네요. EO에 창업에 대한 이야기가 있어 가지고 와봤는데 관심 있으면 한번 살펴보세요.

추가적으로 국내에서는 잘 다루고 있지 않은 AI, MLOps에 대한 뉴스레터를 발행하고 있는데요. AI나 MLOps/DataOps 관련 최신 정보에 관심이 있다면 이곳에서 뉴스레터를 구독해 보세요.






국내 다수의 데이터 라벨링 기업들이 주로 크라우드소싱에 집중하는 것과 별개로 슈퍼브에이아이는 데이터는 내 사랑♥ 을 외치는 데이터 장인..이라는 느낌을 받을 수 있었어요.

장기간의 프로젝트 또는 고품질의 데이터셋, 모델 구축 후의 관리 및 실시간 모니터링 등이 필요한 경우에는 슈퍼브에이아이의 스위트 플랫폼을 추천해요.






3. 딥네츄럴AI DeepNaturalAI


✅ 데모 예약이나 승인 없이 바로 제품을 이용해볼 수 있습니다.(SaaS 서비스 제공)
✅ 크라우드 소싱이 아닌 가입 후 사용하는 제품에서는 텍스트 데이터만 사용할 수 있어요.
✅ 오토 라벨링(Auto-Labeling)과 외부 작업도구를 API를 통해 연결할 수 있어요.


일반 데이터부터 AI 학습용 데이터까지 더 높은 성장을 위한 고품질 데이터 가공은 인공지능 전문 기업 딥네츄럴에게 맡기세요!'


- 지원하는 데이터 유형 : 텍스트

홈페이지나 문서 가이드 등을 통해서 제품에 대한 특징을 알아보기는 어려웠는데요. 본격적인 시장 출시를 위해 제품을 준비하는 과정이라는 느낌을 받을 수 있었습니다. 작업은 텍스트만 가능했고 이미지 라벨링을 위한 바운딩 박스, 폴리곤 등의 유형은 추후 업데이트 예정이라고 합니다.

하지만 외부 작업도구를 API를 통해 연결할 수 있어, 기본 제공되는 도구가 텍스트만 있는 건가? 하는 생각도 들었어요. API를 통한 외부 작업 도구 연결과 오토라벨링 기능을 제공 하나, 오토라벨링에 대한 효과/효능 등에 대한 정보가 미비했습니다.



혹, 기존의 데이터셋을 보유하고 있어 외부 작업도구를 통해 진행하는 기업에 적합할 수는 있겠으나, 도입 전 면밀한 검토가 필요하겠어요. (데이터셋은 대부분의 기업이 마이그레이션을 해주니 큰 문제가 되지 않을 수 있겠네요.)  



딥네츄럴에서는 크라우드소싱을 위한 플랫폼 '레이블러'도 함께 운영하고 있어요. 웹/앱을 통해 사용자가 프로젝트를 클릭하고 라벨링을 진행하며 이를 통해 보상을 받을 수 있는 구조입니다. 아직까지는 기업 데이터 라벨링을 위한 서비스보다 크라우드소싱을 위한 레이블러 플랫폼에 더욱 집중하는 것 같아 보여요.






딥네츄럴의 라벨링 소프트웨어에서는 외부 API 연동을 통한 외부 작업도구를 지원한다는 특징이 있습니다. 이를 통해 기존의 데이터 작업 중에 이관이 필요한 경우 유용하다고 보이긴 했으나, 대다수의 기업이 데이터 마이그레이션 서비스를 지원하니 이 부분도 참고해주세요. 전반적으로 서비스 고도화에 힘쓰고 있는 듯했습니다.






4. 테스트웍스 TESTWORKS


✅ 추가적인 상담이나 데모 스케줄 예약 없이 바로 제품(블랙 올리브)을 체험할 수 있어요.
✅ 자체 개발한 데이터 수집용 CCTV, 블랙박스가 있어요. 데이터 호환이 편해요.
✅ 크라우드 소싱(AI WORKS)을 지원해요.

테스트 웍스는 AI 데이터 및 소프트웨어 테스트 전문기업입니다. 플랫폼 및 자동화 기술력을 바탕으로 고객의 제품 및 서비스 상용화를 지원합니다.


- 지원하는 어노테이션 유형: Bounding Box, Polygon, Polyline, Points, Cuboid

테스트웍스는 데이터 수집용 CCTV, 블랙박스도 같이 서비스하고 있는데요. 그래서 그런지 데이터 수집부터 라벨링, 추가로 지원하는 크라우드 소싱을 통해 모든 서비스를 원스톱으로 진행한다는 슬로건을 가지고 있어요. 확실히 모든 프로세스를 모두 일임할 수 있기 때문에 데이터셋 구축 등과 같은 부분의 인력 투여가 어려운 곳이라면 모두 맡겨 이용하기 편리하겠습니다.

라벨링 시 지원하는 어노테이션 유형은 'Bounding Box, Polygon, Polyline, Points, Cuboid' 등이 있으며 리뷰를 위해 제품 가입 후 직접 체험해봤고 제품에 대한 정보가 전혀 없는 상태였음에도 불구하고 프로젝트 생성부터 라벨링까지 막히지 않고 진행할 수 있었어요. 제품 기능 업데이트와 더불어 사용자 편의에도 높은 우선순위를 두는 것 같았습니다.



제품 기능 업데이트도 중요하지만, 사용자 편의성 측면에서도 관심이 높다는 것은 그만큼 기업이 고객 니즈를 잘 반영하는 곳이라는 뜻이기도 한데요. 고객에 대한 관심도가 높기에 프로젝트를 의뢰함에 있어 믿고 맡길 수 있겠다는 느낌을 받았습니다.



테스트웍스를 통한 프로젝트 진행의 가장 이점은 현장 데이터 수집을 위한 도구를 직접 제공하고, 직접 제공하는 데이터와 연동되는 라벨링 프로그램, 크라우드소싱 서비스를 통해서 AI 모델 구축을 위한 준비과정을 모두 일임할 수 있다는 점이겠죠?






5. 인피닉 INFINIQ



✅ 어노테이션 도구 및 정제 품질 검수에 대한 방법을 구체적으로 제시해 고객 신뢰도를 높이고 있어요.
✅ 크라우드소싱 서비스를 제공하며, 제품 데모 또한 별도 스케줄 없이 바로 체험해볼 수 있어요.
✅ 홈페이지에 제공되는 정보 대비 데모 버전의 완성도에 조금 의문점이 들었어요.


Specialized in autonomous driving solutions based on AI - AI 전환을 돕는 DataOps 고도의 인공지능 모델 개발과 제품화를 위해 방대한 데이터셋을 구축 및 관리하고 모델을 평가하는 반복적인 과정에서 여러 조직 간 협력과 인사이트 검토는 매우 중요한 과정입니다.


에이모 제품을 살펴보면서 가장 인상 깊었던 점은 '홈페이지가 고객 니즈를 잘 반영하고 있구나'라는 점이었어요. 어노테이션 도구 및 데이터 품질 검수 방법 등의 고객사가 프로젝트를 의뢰하기 전에 어떤 정보를 필요로 하는지 정확하게 캐치하고 있었고 이런 정보가 홈페이지에 정보가 정말 잘 나와 있었습니다.


이렇게 제품 데모를 체험해보고 홈페이지도 조금 더 살펴봤는데요. 크라우드소싱을 위한 서비스를 소개하는 페이지의 데이터 숫자가 '이게 맞나..?' 싶을 정도로 일관되어서 약간 끝에는 의문점을 가지게 되기도 했습니다.






처음 홈페이지에 방문하고, 정보를 찾아봤을 때 활발하게 PR 활동을 하는 곳이며 고객 이해도가 높은 곳이구나 라는 긍정적인 인상을 받을 수 있었는데요. 페이지 별로 찾아보니 표시되고 있는 데이터에 대한 의문점을 가질 수 있었어요. 그렇다 보니 설명하고 있는 기능과, 품질 검수, 데이터 정제 방법 등의 구체적인 내용들이 전부 100% 실행되는 걸까?라는 의문점도 가질 수 있었고요.






6. 셀렉트스타 SELECTSTAR


✅ 이미지, 비디오, 오디오, 텍스트, 레이더 형식의 데이터 수집을 지원해요.
✅ Data-Centric-AI를 위한 오픈 데이터셋을 제공해요.
✅ 제품 데모를 바로 확인할 수 없으며, 모바일 크라우드소싱을 기반으로 데이터셋을 구축해요.


The Data for Smarter AI 셀렉트스타는 인공지능 개발에 필요한 데이터를 크라우드소싱으로 수집 및 가공하는 플랫폼입니다. 셀렉트스타의 고품질 데이터로 인공지능의 발전을 앞당기세요!


셀렉트스타는 모바일 크라우드 소싱 방식을 기반으로 딥러닝, 수학적 알고리즘, 전문적인 데이터셋 구축을 진행하는 곳인데요. 여기서 주목해야 할 거는 모바일 '크라우드 소싱 방식'을 기반으로 한다는 점이에요. 이는 위의 크라우드웍스, 딥네츄럴AI의 레이블러와 같은 작업 방식으로도 볼 수 있겠죠? 라벨링 시 '반자동 라벨링'방식을 채택하고 있고 이에 따라 라벨러들이 오토라벨링 대비 더 많은 시간을 투자하게 되지는 않을까? 하는 생각도 해볼 수 있었습니다.




데이터 라벨링은 이미지, 비디오, 오디오, 텍스트, 레이더 형식을 지원하고 있으며 이외에도 필요한 데이터가 있다면 상담이 가능하다고 해요. 재밌었던 건 오픈 형 데이터셋을 제공한다는 점이었는데요. 데이터셋을 받으려면 기업 및 연락처 정보를 제출해야 하긴 했지만(...) 제품에 접속해서 샘플 프로젝트로서 데이터를 사용하는 것이 아니기에 필요한 데이터가 있다면 직접 다운로드하여 사용할 수 있어 데이터셋 기초 자료가 필요한 기업에 도움이 될 수 있겠습니다






셀렉트스타 또한 크라우드소싱을 기반으로 데이터셋 구축을 진행하고 있어요. 크라우드소싱을 통한 방법은 낮은 비용과 빠른 시간으로 데이터 셋 구축을 진행할 수는 있으나, 초보 라벨러들도 대다수 참여하기 때문에 데이터 셋 품질의 완성도가 떨어질 수도 있다는 단점도 존재하는데요.

데이터셋 품질이 우려되고 오토라벨링을 통한 데이터 품질이 일반 라벨링과 어떤 차이가 있는지 궁금하다면 '슈퍼브에이아이의 스위트'를 확인해 보세요. 






7. 솔트룩스 Saltlux


✅ 데이터 라벨링 외 다양한 AI 기반 서비스를 제공해요
✅ 제품 데모를 체험할 수는 없었어요.
✅ 크라우드소싱 서비스를 제공하나, 준비 중으로 보여요.  


인공지능의 선두주자, 빅데이터 플랫폼, 인공지능 서비스, 챗봇, 메타휴먼, 그래프 DB


- 지원하는 어노테이션 유형 : bounding box, polyline, polygon, key point, text OCR, handwriting OCR, semantic segmentation

솔트룩스는 데이터 라벨링 AI SaaS 외에도 AI기반의 다양한 솔루션들을 제공하고 있어요. 전통적인 형태의 SaaS를 제공하기보다 기업 맞춤형 솔루션들을 다수 제공하는 기업으로도 유명하죠. 데이터 라벨링 제품은 그중 하나인 거죠.

데이터 라벨링을 위한 제품 체험은 어려웠고 그렇다 보니 라벨러들이 어떻게 작업하는지에 대한 부분도 짐작하기 어려웠어요. (비밀스러운...) 어노테이션 도구로는 bounding box, polyline, polygon, key point, text OCR, handwriting OCR, semantic segmentation 등 다양한 옵션을 제공하고 있습니다. 역시나 마찬가지로 크라우드 소싱을 위한 서비스를 제공하고 있다고 공지하는데 아직 사이트가 오픈되지는 않았는데요. 이 또한 준비 중에 있는 것으로 보이네요.

솔트룩스를 통한 데이터 라벨링 의뢰의 장점은 AI를 기반으로 한 다양한 서비스들과 함께 연계하여 의뢰가 가능하다는 점이 있겠어요. 예를 들어, 고양이/강아지 구분 AI 모델을 위해 데이터셋 라벨링을 위탁한다면 그와 동시에 고양이/강아지를 활용한 AI 챗봇도 만들 수 있다는 점이요.  






솔트룩스는 데이터 라벨링 외에도 다양한 AI 기반 서비스를 제공하고 있다 말씀드렸었죠. AI모델을 위해 정말 고품질의 데이터셋과, 실시간 컨설팅 등을 위한 전담 인력 등이 필요하다면 크라우드소싱 보다는 데이터 품질에 높은 관심을 두는 기업에 문의하는 게 좋을 거예요.


 




8. 에이모 AIMMO


✅ 자율주행에 특화된 데이터셋 구축을 강조하고 있어요.
✅ 오토라벨링(스마트 라벨링)을 지원해요.
✅ 고객을 대상으로 SaaS 서비스를 제공하고 있지는 않지만, 크라우드 소싱으로 사용해볼 수 있어요.


Enabling a data-powered tomorrow. 에이모는 인공지능의 활용을 원하는 산업·기업에서 다양하고 정확한 인공지능을 쉽고 빠르게 만들 수 있도록 딥러닝 기반 데이터 라벨링 서비스 플랫폼을 제공하고 있습니다.


- 지원하는 데이터 유형: Image, OCR, Cuboid, Video
- 지원하는 어노테이션 유형: Object Detection, Segmentation, Object Tracking, Key point

에이모는 자율주행에 특화된 AI 라벨링을 하는 곳으로 알려져 있죠. 다양한 어노테이션 유형을 지원하며 직접 체험을 통해 제품을 살펴볼 수는 없었으나 크라우드소싱을 위한 사이트에 가입 후 제품을 체험해볼 수는 있었어요.

에이모 또한 오토라벨링(스마트라벨링) 기능도 지원하고 있다고 나와 있으나 아직까지는 SaaS 형태의 서비스로 제공이 되고 있지 않아 직접 체험하고 알아볼 수 있는 정보가 제한적이어서 아쉬웠네요.






에이모는 조만간 SaaS 형태의 서비스 제공할 예정이라고 해요.






9. Vertex AI - 구글 데이터 라벨링 서비스 AI 플랫폼




✅ 커스텀 모델링과 오토라벨링 기능을 제공해요.
✅ 구글 클라우드 서비스를 한 곳에서 활용할 수 있어 편리해요.
✅ 단, 프로젝트 의뢰 담당자와 소싱 라벨러를 위한 프로그램이기보단 인하우스 ML 엔지니어를 위한 서비스예요.

'VertexAI'는 통합 인공지능 플랫폼 내에서 선행 학습된 도구 및 커스텀 도구를 사용하여 머신러닝 모델을 더 빠르게 빌드, 배포, 확장합니다.'


국내를 겸하며 국외도 포함하는 GCP (구글 클라우드 플랫폼) 내 서비스인데요. 이는 라벨러나 담당자가 직접 체험하는 것보다는 ML 엔지니어, 프로젝트 수주 업체에서 사용하는 플랫폼으로 볼 수 있어요.

ML 모델이 필요한 기업이 프로젝트를 의뢰하는 의뢰처에서 모델링을 위한 도구로 선택할 수 있는 방법 중 하나인 거죠. 사실 위의 모든 제품들이 마찬가지이긴 하지만, 구글과 아래 아마존 AWS 가 제공하는 도구들은 그 범위가 조금 더 넓다고 볼 수 있겠죠? 위의 기업들은 기업이 제공하는 제품에 한해서 라벨링이 진행되고 그 과정에서 엔지니어들이 필요에 따라 이 도구들을 사용할 수 있겠죠.






구글 Vertex AI와 AWS 세이지 메이커는 Server & Storage로 많이 사용하기도 해요. 이에 대해서는 추후 더 중점적으로 다뤄볼게요.






10. Amazon Sage maker Ground Truth - 아마존 세이지 메이커


Amazon SageMaker를 사용하면 이미지, 텍스트 파일 및 비디오와 같은 원시 데이터를 식별하고 정보 레이블을 추가하며 기계 학습(ML) 모델을 위한 고품질 훈련 데이터 세트를 생성하기 위해 레이블링 된 가상 데이터를 생성할 수 있습니다.


구글과 더불어서 대형 플랫폼에서 사용할 수 있는 다른 후보입니다. AWS와 GCP 클라우드 등은 엔지니어들 사이에서 워낙 유명하기에 다들 아실 거라고 생각해요. 아마존 세이지 메이커는 Ground Truth, Ground Truth+ 두 가지 제품으로 나뉘는데요. 두 제품 모두 머신러닝을 위한 데이터셋의 구현을 단순화하는 완전 관리형 데이터 라벨링 서비스를 제공한다고 하지만 Ground Truth+ 제품에서는 라벨링을 위한 인력까지 모두 제공하고 있어요. (가격적인 측면의 부담은 있을 듯합니다.)


주요 특징으로는 모든 라벨링 서비스가 그렇듯 고품질의 데이터셋과, 고품질의 정확도 등을 말하고 있는데요. 오늘 소개드린 대부분의 제품들이 가격 공개를 꺼리고 있어 대략적인 가격을 알기 어려웠는데 AWS는 모든 솔루션들의 예상 비용을 미리 알아볼 수 있어 이점은 매우 편리했습니다.



구글과 같이 클라우드 서비스를 동시다발적으로 제공하는 곳이기에 AWS S3와 같은 연동에 대한 부분은 걱정할 필요가 없겠어요. 단, 기업 내부에 엔지니어 인력이 부족한 경우 또는 없는 경우, 개개인 별로 맞춤 커스텀이 더 필요한 경우는 구글/아마존과 같은 대형 플랫폼보다는 라벨링만 전문적으로 진행하는 기업에 문의하는 것이 더 편할 수 있어요. 집중 관리를 받을 수 있을 테니까요.   






아마존 세이지 메이커는 '2. 슈퍼브에이아이의 스위트 플랫폼'과도 연동해 사용할 수 있는데요. 연동해서 사용 시 세이지 메이커 비용을 줄일 수 있다는 장점이 있어요. AWS 세그먼트 메이커 등의 서비스를 이용하면서 비용은 줄이고 싶을 때, 슈퍼브에이아이 스위트와 함께 사용해보세요.






오늘 정리한 '데이터 라벨링 노동 줄이는 10가지 데이터 관리 방법' 요약해볼게요.


- 슈퍼브에이아이는 오늘 소개드린 어떤 기업보다 데이터에 진심인 편이며 데이터 중심과 DataOps를 위한 기능들을 모두 제공하고 있어요. 시간을 들여 고품질의 데이터 셋을 필요로 하는 경우 적합했습니다.

- 크라우드웍스 등 다수 기업이 크라우드소싱을 동시에 진행하고 있어요. 크라우드웍스는 국내에서 가장 높은 크라우드소싱 인력을 가지고 있다고 해요.

- 테스트웍스는 데이터 수집을 위한 CCTV, 블랙박스 등의 서비스를 같이 하고 있어요.

- 셀렉트스타는 오픈 데이터셋을 제공하고 있어요. 처음 데이터가 필요할 때 참고하면 좋겠네요. (단, 데이터셋은 전문 데이터셋 사이트에서도 받을 수 있어요)

- 에이모는 아직 엔드유저를 대상으로 하는 제품 출시를 하지 않았어요. 곧 한다고 하네요.



이번 데이터 라벨링 SaaS 내용을 준비하면서 느꼈던 건 SaaS라고 하기에는 아직 평가판으로 공개적으로 오픈되는 곳들이 많이 없다는 거였고, 이용 가격도 구체적으로 알 수 없었다는 점인데요. 데이터양과 프로젝트 범위에 따라 예산 산정이 되는 부분이기에 이런 부분들은 아쉬웠습니다.

데이터 라벨링 시장 자체가 국내에서는 크지 않아요. 해외에 비하면 제품 수도 매우 적은 편이고요. 그렇다 보니 기업 간 선의의 경쟁이 산업의 발전에 높은 영향을 주게 될 텐데요. 라벨링 시장의 파이가 작기 때문에 시장 활성화를 위해 기업들이 가능한 오픈할 수 있는 정보는 오픈해가며 선의의 경쟁을 해나가면 좋겠습니다. (분명 고객들도 그런 노력을 알아줄 거예요.)

데이터 라벨링은 머신러닝 학습에 필수적이기에 계속해서 니즈가 있는 산업일 텐데요. '개요'에서도 말씀드렸지만 이렇게 정확하게 레이블이 지정된 데이터 셋을 구축하기 위해서는 많은 노력이 필요해요.


오늘 소개드린 회사들은 AI 모델을 구축하는데 시간과, 비용을 절약하고 업무를 더 효율적으로 할 수 있도록 지원합니다. AI를 위한 머신러닝 모델을 만드는 데에 필수적이죠. 그 과정에 필요한 대부분의 요소들이 자동화되어 있어 모델을 구축하고 배포하는 등의 절차가 훨씬 덜 번거로울 테니까요.

요즘 구축되는 데이터 셋들은 몇 년 전 보다 훨씬 높은 정확도를 가지고 있고, 다양한 데이터로 구성되어 있어요. 이렇게 품질 높은 데이터들이 계속 나오고 있어 AI는 더 빠른 속도로 학습할 수 있고요. 결과적으로 100% 완벽한 자율주행차와 로봇 등 의대 중화는 그리 멀지 않을 수도 있겠어요.


완벽한 데이터 셋 구축을 위해 고민하고 있다면 슈퍼브에이아이의 스위트 플랫폼을 확인해 보세요. 오늘 소개드린 그 어떤 제품에서보다 품질 높은 데이터 셋을 구축할 수 있을 거예요.




Written by @Hannah, Brand Marketer

Hannah는 브랜드 마케터이자 SaaS 칼럼니스트입니다.
스토리텔링 및 전환을 위한 콘텐츠를 통해 잠재고객과 기업이 관심을 갖는 문제에 대해 통찰력 있게 알아봅니다. 항상 쉬운 문장으로 내용을 전달하는 것에 중점을 둡니다.

작가의 이전글 꼭 완벽한 구성의 글이 아니어도 되지 않을까
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari