brunch

You can make anything
by writing

C.S.Lewis

by 박네오 Sep 16. 2020

데이터 라벨링 알바에 도전해봤다

데이터 막노동의 세계


코로나와 함께 갈수록 길어지는 백수생활.

이 상황에 너무 안주하고 있는 것 같아 새로운 시도에 나섰다.


언택트 시대에 부업으로 떠오르고 있는 '데이터 라벨링'에 도전했다.

여기서 '데이터 라벨링'이란?

데이터 라벨링(Date Labelling)
: 인공지능 AI가 스스로 학습할 수 있게끔 데이터를 가공하는 작업이다. 사진, 동영상, 글귀 등에 등장하는 동물, 사물, 특정 단어 등 모든 것에 라벨을 달아 AI에게 알려주면 AI가 이를 학습하면서 유사한 대상을 인식할 수 있게 된다.

쉽게 말해 AI가 똑바로 읽고 기억하기 위해 데이터(사진, 동영상, 글귀 등)에 이름표를 붙여주는 것이다. 


AI 기술이 발전하면서 데이터 라벨링 작업을 필요로 하는 업체가 많아졌고, 간단한 교육만 받으면 누구나 할 수 있기에 일자리 창출의 대안으로 꼽히기도 한다. 중국 최대의 전자상거래 기업인 알리바바에도 20만 명이 데이터 라벨러로 일하고 있으며, 향후 관련 직원의 수가 500만 명에 이를 것으로 추산된다고 하더라. 국내에서도 언론을 통해 종종 소개되어 심심치 않게 접할 수 있는 단어가 되었다.


 '오 그럴 듯한데?'라는 생각을 실천으로 옮기게 된 건 정부의 뉴딜 일자리 사업 추진 소식을 들었기 때문이다. 실제로 지난 7월에는 행정안전부를 비롯한 공공기관에서 '공공데이터 청년 인턴'을 모집하기도 했다. 기존 공공기관 인턴에 비해 훨씬 많은 인원을 뽑았고, 기본 교육을 이수하면 어렵지 않게 업무를 수행할 수 있다는 설명은 나 같은 문과생들의 마음을 사로잡았다. 컴퓨터활용능력이라도 미리 따놓을 걸 하는 아쉬움이 있었지만, 워드와 정보처리기능사 자격증과 핀테크 및 통계 프로그램 교육 이수 경험을 있는 대로 끌어모아 지원했다.


합격했다면 지금 이 글이 청년 인턴 후기가 됐을지도 모르겠다.

행정안전부 인턴에서만 8,000명이나 되는 인원을 모집했기에 불합격의 실망감이 컸다. 관련 전공 및 이과 지원자들로만 뽑아도 쉽게 넘을 인원이었지만 그럴 거면 처음부터 전공을 정해서 뽑지 하고 투덜거리게 된다. 막연한 희망은 주지 않는 게 나을 때도 있다. 그래도 정부에서 국고를 털어가며 데이터 사업을 벌인다는데 관련 역량을 키워놓으면 나쁠 건 없겠다 싶어서 데이터 라벨링 알바를 찾았다.





막상 플랫폼을 검색하니 국내에서 인지도가 있고 이용자가 모여있는 곳은 단 한 곳뿐이었다. 

'크라우드웍스(crowdworks)'

(홍보 글은 아니지만 궁금해하실 분들을 위해 링크를 단다.)


크라우드웍스 워크스페이스(작업공간)

크라우드웍스 사이트에 회원가입을 한 뒤 데이터 라벨링 교육(초급, 중급, 고급)을 이수하면 위와 같이 진행 가능한 작업 목록이 뜬다. 그중에서 하고 싶은 작업을 선택해 시작할 수 있다.

난 데이터 라벨링 관련 경험이 전무했기에 기본적으로 제공해주는 바운딩 실습과 텍스트 태깅 실습을 차례로 신청했다. 데이터 라벨링 교육이 이 실습을 통해 이루어진다.


바운딩 실습에서는 사진 속 특정 대상(동물, 자동차, 포스터 등)을 사각형 상자 안에 가두는(?) 작업을 한다.

예를 들면 이런 식으로.

자동차를 바운딩한 사진이다. 초록색 상자로 표시된 부분이 바운딩된 모습.


텍스트 태깅은 주어진 글귀 혹은 문단을 읽고 물음에 맞는 적절한 문장이나 단어를 드래그해 표시하는 작업이다.

주어진 글을 읽고 질문에 맞는 답을 태깅하면 된다.


정말 별거 아닌 것 같다는 생각이 든다면 반은 맞고 반은 틀리다.

작업 전 안내 사항을 꼼꼼히 읽는다면 경험이 없는 누구라도 쉽게 도전해볼 만한 일이다.

하지만 이게 보기보다 까다롭다.

빨간색 상자로 표시된 부분이 반려된 작업이다.(오른쪽 작업창에도 표시된다.)

까다로운 첫 번째 이유꽤나 섬세한 작업을 요하기 때문이다.

AI가 최대한 명확하게 인식하도록 도와주는 작업답게 자동차를 바운딩한다면 상하좌우의 여백을 꽉꽉 맞춰서 정확하게 가둬줘야 한다. 여백이 조금만 넓거나 좁아도 반려가 돼서 몇 번이고 수정해야 한다. 어떤 작업은 바운딩할 대상을 찾지 못해 반려만 수십 번 뜨기도 했다. 나름 꼼꼼하고 섬세한 작업을 잘한다고 자부하고 있었는데 반성 많이 했다.


초록색 상자로 표시된 부분이 직접 바운딩을 한 부분

두 번째 이유높은 인내심을 필요로 하는 작업이 있다는 점이다.

위의 영수증 사진에서는 글자와 숫자를 바운딩해야 했다. 주어진 조건(띄어쓰기)에 따라 문자를 하나로 바운딩을 하거나 두세 개로 나눠서 바운딩해야 한다. 한 장의 사진을 작업하는데 많은 시간이 걸렸다. 중간에는 내가 지금 무슨 짓을 하고 있나 하는 회의감이 들기도 한다.(심지어 태그를 다 해놓고 중간에 저장을 안 해서 내용이 다 사라지기도 했다. 작업 중 저장은 필수다.) 


우여곡절 끝에 주어진 실습(바운딩 실습-초급, 중급, 고급 / 텍스트 태깅-초급, 중급)을 모두 마쳤다. 꼬박 하루를 다 썼다.

그렇다면 이제부터 진정한 데이터 라벨러로 도약하는 것인가

했지만 세상 일이 그리 쉽지만은 않았다.


크라우드웍스에서는 작업을 통해 번 수익금(누적 포인트)으로 작업자의 등급을 매기는데, 등급이 높을수록 할 수 있는 작업의 종류와 개수가 늘어난다. 최초에 받게 되는 브론즈 등급에서는 작업이 제한적이다. 특히 데이터 라벨링 작업보다는 직접 사진을 촬영하거나 소리를 녹음해 제공하는 데이터 콜렉팅 작업이 주를 이룬다. 간혹 데이터 라벨링 관련 작업이 들어오긴 하지만 매우 인기가 좋아 순식간에 마감된다. 자주 사이트를 들여다보지 않으면 일감을 얻을 수 없다. 데이터 라벨러만을 생각하고 가입한 작업자라면 실망할 수도 있다.


마지막으로 이 글을 읽는 분이 가장 궁금해할 것 같은 첫날 수입을 공개한다.

오른쪽 상단 빨간 박스 부분을 참고하시라.

그렇다. 하루를 투자해 7,200원을 벌었다.

이것도 운이 좋았다. 기본적으로 제공되는 실습 교육을 통해 받을 수 있는 포인트는 3,580원이다.(모든 실습 완료 가정 시) 내 수익은 여기에 설문조사 금액이 더해진 것으로 어렵지 않게 기본 금액의 두 배를 적립할 수 있었다.

첫 술에 배부를 수는 없는 일이다. 하지만 데이터 라벨링을 너무 낭만적인 부업으로 본다면 그것도 조심해야 할 일이다. 남의 돈 벌기는 결코 쉽지 않으며 요즘엔 기회도 드물다.




p.s 이 글은 크라우드웍스를 시작하고 일주일을 지난 시점에서 작성한 글이다. 그동안 한 개의 SNS 라벨링 작업을 했고, 세 개의 소리 수집 작업에 참여했다. 수익금은 아직 들어오지 않았다. 가끔 들어오는 설문조사 작업이 가장 쏠쏠하다. 포인트가 바로 적립될 뿐만 아니라 시간 투자 대비 수입이 좋다.

매거진의 이전글 #2 내게 스토리가 없는 이유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari