brunch

You can make anything
by writing

C.S.Lewis

by 한나 Oct 26. 2022

AI 데이터 구축 프로젝트 시 꼭! 알아야 할 것

잘 모를수록 천천히 시작해야 하는 게 좋아요. 

이번 글은 이런 분들이 보면 좋아요.

- 데이터 구축을 통한 AI 모델 프로젝트 시작을 위해 적합한 업체를 찾고 있는 분 

- 빠른 진행으로 적당한 퀄리티의 모델 보다, 시간이 좀 걸려도 편향성이 적은 데이터셋을 구축해야 하는 분  

- 데이터 구축 프로젝트 진행 상황을 계속해서 모니터링하고 싶은 분






AI 데이터 구축 프로젝트를 시작할 때 제일 우선적으로 고려해야 할 것은 우리 프로젝트 데이터 셋 구축에 필요한 '기술'을 파악하는 것인데요. 이 기술을 알아보는 건 사실 직접 프로젝트를 수행해보거나 데이터 라벨링을 의뢰해보기 전 까지는 모릅니다. 업체 소개서와 기술력이 좋다는 말들에 믿어보게 될 뿐이죠. 

데이터 구축 프로젝트를 통해 결과적으로 어떤 모델을 구축하느냐에 따라 필요한 기술이 달라지게 됩니다. 단기간 동안 빠르게 데이터 셋을 구축해 우선 배포를 해야 하는 AI 모델을 구축해야 하나요? 아니면 조금 시간을 투여해서라도 정확도 높은 AI 모델을 구축해야 하나요? 여러분의 프로젝트 성격을 이 글을 통해 다시 한번 점검해 보세요. 모든 내용을 읽기엔 시간이 부족하다면 지금 바로 고품질 데이터셋 구축하는 방법을 알아보세요.




 


좋은 데이터와 시간의 상관관계


'좋은 데이터는 편향성이 적어야 하고 품질이 좋아야 하고 라벨링 되는 데이터들의 정확도가 높아야 하고..'

이렇게 이상적인 데이터를 보유하고 있다는 것만으로도 행운인 거 아시죠? 보통은 데이터를 구축하는데서부터 애를 먹는 곳도 많아요. 일단 우리는 데이터를 보유하고 있고 그걸 통해 데이터셋을 구축하는 과정에 있다고 가정할게요. 우선, 어떤 우여곡절을 통해 우리는 좋은 데이터를 가졌어요. 축하할 일이죠. 

데이터를 가지고 있는 경우 그다음 단계로는 아래 같은 절차를 고려하죠. 데이터 PM, 데이터 사이언티스트 및 머신러닝 엔지니어를 주축으로 본인들이 만들고자 하는 AI 모델을 실현시키기 위해 라벨링을 위해 정보를 알아보고 그 과정에서 라벨링 프로젝트에 포함된 라벨링 기술이 얼마나 전문적인지를 검토하게 됩니다. 


ML 모델을 만들기 위한 데이터 구축 절차 예시 


단, 전문적인 기술이 필요하지 않고 단기간 내 빠르게 모델을 만들어야 하는 경우는 인력의 활용 정도를 우선 고려하게 되겠네요. 이제 감이 오시나요? 좋은 데이터(위에서 말씀드린 편향성이 적고, 데이터 라벨링 정확도가 높은 데이터셋)를 얻기 위해서는 시간 투자가 필요합니다. 대규모 인력으로 소싱을 의뢰한다고 해서 품질 좋은 데이터를 산출물로 기대하기는 힘들어요. (물론, 모든 업체들은 다 전문가입니다. 어느 정도의 정확성을 갖추고는 있습니다. 기대하시는 만큼이 아닐 수 있다는 거죠.)

그렇다면 시간을 투자하고, 소수 정예의 인력, 그리고 고도화된 기술을 통해 데이터셋을 구축하면 어떨까요? 당연히 데이터셋 품질이 높아질 수밖에 없겠죠. 시간과, 데이터, 인력은 트라이앵글과 같이 삼각관계에 있다는 점을 프로젝트 소싱 업체 선정 전 꼭 이해하고 있어야 합니다. (단순히 기업 담당자가 우리 좋아요. 빨리해요. 우리 기술 좋아요. 하는 말에 혹 하지 말고요.) 


누구나 빠르게 완성하고 싶을 거예요. 누구나 빠르게 프로젝트를 마무리 짓고 싶을 거고요. 

하지만, 뭐든 빠르게 진행하는 게 꼭 정답은 아니라는 것도 알고 있잖아요. 






잘 알수록 멀리 돌아가는 것이 좋다


'아 그냥 알던데서 하자 번거롭기도 하고... 조금 결과물이 마음에 안차긴 해도 그래도 편하니까..'

AI 업계는 알음알음 지인 추천으로 제품을 사용하는 경우도 많죠. 그렇다 보니 새로운 기업과의 미팅을 통한 조율, 알아가는 시간보다는 결과와 과정이 마음에 들지 않았어도 그냥 기존의 업체와 계속하는 경우도 많아졌어요. 만약 이 글을 보는 여러분이 그렇다면 이번 한 번만 그러지 마시라고 제안하고 싶어요. 


뭐든 새로운 도전을 통해야 결과물에도 변화가 오는 것 아니겠어요? 지금 그리고 있는 AI모델이 더 정확했으면 좋겠잖아요? 그러니 이번에는 새로운 업체와 컨택도 하고 요즘의 기술들을 한번 살펴보세요. 분명 새로운 곳과 미팅하길 잘했다고 생각할 테니까요.  일부 업체들은 샘플 프로젝트 운영을 통해 예상 정도를 산출해주기도 하는데요. 이런 곳이 있다면 무조건 이곳과 함께 진행하는 걸 추천드려요. 그만큼 자신들의 기술력에 자신 있다는 반증이니까요. 그럼 이제 경우에 따라 어떤 소싱 업체를 선택하는 것이 좋은 지 한 번 알아볼게요. 






빠르게, 대규모 라벨러들을 통해 진행해야 하는 프로젝트 


우리 프로젝트가 빠른 시간 내에 여러 건의 산출물을 내야 한다면 대규모 크라우드 소싱을 통해 데이터셋을 구축하는 방법을 추천합니다. 이런 경우 대표적인 서비스로 '크라우드 웍스'가 있는데요. 

 

크라우드 웍스는 데이터 라벨링을 위한 국비 교육과정을 운영하는 곳으로 유명한 곳이죠. 직접 만든 가이드라인에 따라 교육생들을 훈련시키고 그 교육생들이 직접 라벨러가 되어 작업에 투여된다는 취지입니다. 자사가 만든 가이드라인을 따르는 라벨러이다 보니 정확성도 높다고 홍보하고 있고요. 




시장에는 크라우드 소싱을 영위하는 많은 기업들이 있습니다. 그중 크라우드 웍스는 국비 과정 운영으로 인지도가 높을 뿐이죠. 인지도가 높다고 여러분의 프로젝트의 맞는 산출물을 내논다는 것은 아닙니다.

빠른 시간 안에 프로젝트를 완료하는 것이 중요하다면, 보고 자료 및 중간 모니터링 여부가 가능한지 등의 것들을 꼭 확인해야 합니다. 뭐든 속사포로 진행되는 것에는 단점이 있을 수밖에 없습니다. 다 비슷한 조건을 제시하고 있다면 견적 비교를 통해 선택해야겠죠? 또는 그 회사의 기존 레퍼런스를 참고하는 것도 성공적으로 프로젝트를 완료하는 것에 도움이 될 거예요. 






시간보다는 테스트 셋 구성을 통한 검증이나
데이터 
품질 정확도가 중요할 때  


슈퍼브에이아이는 이전 데이터 관리 소프트웨어 모음집에서도 한 번 '고품질 데이터 셋'에 대해 얼마나 진심인지 말씀드렸던 적이 있어요. 그만큼 AI SaaS 관련 내용이나 데이터 관리에 대한 내용을 다룰 때 빠질 수 없는 곳인데요. (마치, 마케팅 자동화 툴 중에 뭐가 제일 좋아? 할 때 허브 스폿을 빼놓지 않는 것처럼요.) 

대부분의 데이터 PM, 데이터 사이언티스트 분들은 빠르게 마무리되는 것보다는 산출물의 품질에 더 신경을 쓰게 돼요. 하지만, 1번과 같이 다수의 기업들이 대규모 라벨러들을 투입해 빠르게 프로젝트를 완료할 수 있지만 결국 마무리 단계에서 퀄리티 이슈가 나오기 마련이죠.



슈퍼브에이아이는 그런 회사들의 니즈를 반영해 소수정예의 인원으로 고품질 데이터를 구축하고 고객마다의 프로젝트를 이해하고 개선하는 데 집중하고 있어요. 



또한, 상당한 기술력이 있다고 자부하는 곳이기도 하고요. 실제로 슈퍼브에이아이가 제공하는 커스텀 오토라벨링 기능은 국내에서도 찾아보기 힘든 기능이라고 하네요. 






AI 프로젝트에서의 사람과 데이터의 관계


계속해서 이번 글에서 말하고 있지만 AI 데이터 구축 프로젝트의 성공 여부는 사람, 데이터, 시간 이 세 가지 요소에 달려 있습니다. 올바른 사람들과 좋은 데이터들을 구축해나갈 수 있다면 그게 바로 베스트겠죠. 


제일 좋은 것은 AI 솔루션들에 대한 관심도가 높은 사람들과 소통해가며 정보를 얻는 것입니다. 물론 크라우드 소싱 또한 그런 곳과 함께하는 것이 좋겠죠. 크라우드 소싱은 대규모 인력으로 빠른 시간 내 라벨링 과정(데이터 구축)을 마칠 수 있기 때문에 기대감을 가지게 됩니다. 이런 지나친 기대감은 결과물에 대한 실망으로 이어지는 법이고 그렇게 되면 좋은 데이터들을 받았음에도 괜한 의심을 가질 수 있습니다. 



이런 과정을 생략하고 싶다면 관련 분야의 전문가, 데이터 구축 기술에 대해 깊이 연구하고 있는 업체들을 찾는 것이 좋습니다. 초기 단계에서부터 마무리까지의 계획과 보유한 기술의 작동 방식 및 해당 기술을 개선하기 위해 어떤 조치를 하고 있는지 등에 대해 손쉽게 설명할 수 있는 곳과 많은 만남을 가져보세요. 여러분을 이해시키기 위해 많은 시간을 쓰는 곳이야 말로 바로 복잡하고 귀찮은 과정을 모두 생략할 수 있는 유일한 곳일 테니까요. 






여담 


오늘은 AI 모델을 구축하기 위해 적합한 라벨링 툴 제공 기업 (SaaS)을 선택하기 위한 팁을 다뤄봤어요. 
몇 년 전과 다르게 국내에서도 SaaS 제품들이 한창 붐을 일으키고 있죠. 제품 간 경쟁도 많아지고 있고요. 시장 경쟁이 치열하다는 건 그만큼 소비자에게 더 유리한 것이니 좋은 현상인 듯해요. (물론 제품 개발자들은 죽어 나가겠죠...) 


이런 맥락에서 고리타분하고 올드한 마케팅으로 유명한 AI 업종에서도 SaaS 붐이 일어나고 있는데요. 다음 글에서는 올드함을 유지하던 AI SaaS 분야의 마케팅이 왜 트렌드에 민감해지고 있는지에 대한 내용을 소개해볼게요! 

 





같이 읽으면 좋아요

- 데이터 라벨링 노동 줄이는 11가지 데이터 관리 방법





Written by @Hannah, SaaS/Brand Marketer

Hannah는 브랜드 마케터이자 SaaS 칼럼니스트입니다.
스토리텔링 및 전환을 위한 콘텐츠를 통해 잠재고객과 기업이 관심을 갖는 문제에 대해 통찰력 있게 알아봅니다. 항상 쉬운 문장으로 내용을 전달하는 것에 중점을 둡니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari