brunch

You can make anything
by writing

C.S.Lewis

by 김도환 Jan 03. 2023

데이터 가공에 대한 비용산정방식

데이터 바우처 지원시 견적 받기전 확인하면 좋은 비용산정방식 가이드


'클라우드 워커', '클라우드 알바'라는 용어를 최근 들어보셨나요?

AI 학습에 사용될 데이터들을 분류하고 라벨링 혹은 태깅 작업을 하는 사람들을 클라우드 워커라고 칭합니다.

최근 AI 기술의 발전과 수요 증가로 이 클라우드 워커에 대한 수요가 늘어나고 있습니다.


출처 : 잡코리아



이러한 데이터 가공 작업을 의뢰하고 진행하는데 얼마의 비용이 드는지

또 어떻게 그 비용을 산정하는지 알아보겠습니다.






■ 대상 

➪AI 학습용 데이터에  관심 있는 지자체, 학계 등 공공 영역과 AI 시장 진입을 원하는 기업


■ 목적

➪ 데이터 구축 과정에 필요한 작업내용과 소요 예산을 사전에 점검

➪ 적정 비용으로 사업을 추진할 수 있도록 방향성을 제공



■ 분석 데이터 

➪ AI 학습용 데이터의 대표적인 4가지 데이터  유형

‘텍스트, 이미지, 음성, 비디오’ 각각의 데이터 구축 단계별 작업 내용을 분석하여 제시


예시)

이미지 데이터로만 비용 산정 산술식 제공








- 구축 과정 중 데이터 수집부터 AI 알고리즘 학습에 필요한 데이터 한 쌍(원천 데이터+ 라벨링 데이터)을 

생성*하는 단계까지의 작업요소와 소요비용을 분석  


* 구축 절차에 따라 품질에 결격 사유가 없는 데이터 한 쌍을 도출했을 경우, 

현장에서 활용가능한 수준의 데이터라고 할 수 있음  



※ AI 학습용 데이터를 구축하기에 앞서, 과업에 대한 임무정의 및 구축 기획·설계 과정이 선행되어야 하며,   

- ‘작업요소’는 데이터 구축 시 중복되지 않는 최소 단위의 작업(TASK)으로, 데이터 유형별 필요한 작업과 각 소요비용 산정 기준을 제시




기계학습에 활용하기 위해 모든 AI 학습용 데이터는 공통적으로 ‘수집 및 정제, 가공,  검수’ 단계의 구축 과정(작업요소그룹)을 통과  


※ 각 과정은 기본적으로 순차적이나, 데이터 특성에 따라 동시적으로 진행되기도 하며, 작업요소(Task)에서 비용이 발생하는 공통 항목을 도출하여 ‘비용산정 요소’로 명명 하고, 요소 간 조합을 통해 비용 산정 산식을 제시합니다.



▉ 비용산정 요소

비용산정 요소 비용산정 요소란, 구축 작업별 비용을 구성하는 항목 중 공통내용을 정의한 것으로, 

 작업 요소별 소요비용 산식의 단위 항목으로 활용



① 물량 : 데이터 구축 목표량, 작업량 등 작업의 규모를 의미 

② 인원 : 구축 작업에 참여하는 작업자를 의미 

③ 기간 : 구축 작업에 소요되는 시간을 의미 

④ 장비 : 구축 작업에 활용되는 기기를 의미 

⑤ 장소 : 구축 작업이 진행되는 공간을 의미



▉ 비용 구성 요소


AI 학습용 데이터 구축 전 과정에서 비용이 발생하는 구성 요소 항목은 3가지 예산 유형으로 구성 


 직접인건비 : 데이터 구축 작업 수행과 직접적인 관련이 있는 비용 


 제경비 : 직접비(직접인건비, 직접경비)에 포함되지 않고, 데이터 구축을 위한 기획,  경영, 총무 등에서 

                발생하는 간접 경비   


  직접경비 : 데이터 구축 시 소요되는 직접적인 비용




※ 용어 정리



▪AI 학습용 데이터 구축 비용은 기본적으로 투입공수에 의한 방식으로 산정 

▪투입공수에 의한 비용산정 방식은 M/M(Man-Month) 방식을 사용


1) 비용산정 절차 및 절차별 주요 내용 AI 학습용 데이터 구축 비용산정 절차는 데이터 구축 기획부터 수행할 작업 분석 및 관련  비용산정에 이르기까지 6단계로 구성 


① 작업 설계 

② 투입공수 산정 

③ 직접인건비 산정 

④ 제경비 산정  

⑤ 직접경비 산정 

⑥ 최종비용 산정






예시)

[이미지 데이터] 비용산정 절차 및 상세 내용


■ 작업요소 산식 표



■ 작업량 전체 표



■ 데이터 유형 : 이미지 이미지 유형 AI 학습용 데이터 구축 특징  


➪ 원시데이터가 이미지 유형인 AI 학습용 데이터는 ‘이미지 분류’, ‘객체 인식’, ‘영역 구분’  등의 다양한 

    문제 해결을 위한 목적으로 구축 


➪ 이미지 유형의 데이터는 이미 존재하는 콘텐츠를 구매하여 정제하거나, 직접 촬영,  이미지 편집본 등을 

    정제하여 이미지 원천데이터 생성 


➪ 확보된 이미지 원천데이터는 가공(라벨링) 과정을 통해 라벨링 데이터를 생성하고,  데이터 검수를 통해

   1쌍의 AI 학습용 데이터를 도출






위와 같은 방식으로 비용을 산정방식을 익혀두시면 

가공서비스 견적을 받을때 확인하시는데 도움이 되실 겁니다.


자세한 산정방식을 더 확인하고 싶으신 분들께서는 아래 URL을 클릭해 PDF를 다운받아 확인해주시면 감사하겠습니다.


출처 : AI 학습용 데이터 구축 비용산정 가이드

https://aihub.or.kr/aihubnews/notice/view.do?currMenu=131&topMenu=103&nttSn=10034



  

출처 : 데이터 바우처

https://kdata.or.kr/datavoucher/bg/nt/ptNoticeDetail.do?boardId=BORD000000000095


긴 글 읽어주셔서 감사합니다.


AI개발 무료 컨설팅 받기⇩

https://walla.my/newclients



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari