AI 기본 재료가 되는 데이터 라벨링 선두주자 Scale AI
테크에 관심있는 사람이라면 한번쯤 보았을 수도 있는 유튜버가 있다.
바로 Joma Tech.
한창 회사에서 찍는 Day in a life가 유행할 당시, 그가 페이스북 인턴 활동 중 찍은 브이로그 영상이 대박을 쳤다. 그 이후 테크와 사회 풍자를 결합한 컨텐츠 크리에이터로 전환하며, 그는 200만명 이상의 구독자를 보유한 테크 유튜버가 되었다.
테크 유튜버에서 한층 더 발전해 테크와 사회 풍자를 결합한 미니 드라마 형식의 영상을 제작하던 그는, 어느날 갑자기 돌연 자취를 감춰 버렸다.
그 이후 내 기억속에서 Joma Tech는 서서히 잊혀져가고 있었는데, 최근 Meta가 143억 달러(한화 약 20조) 지분 투자를 하고, 전략적 파트너십을 계약하며 화제가 된 Scale AI 때문에 그의 한 유튜브 영상이 떠올랐다.
그건 바로 Joma Tech가 Scale AI와 인터뷰 한 후 Ghosted 되어 Scale AI를 살짝 멕이는 영상.
("Ghosted"라는 표현은 인터뷰 후 아무런 통보나 설명도 잠수해버렸다는 뜻이다. 쉽게 설명하면 인터뷰하고 쌩깠다는 이야기)
5년 전 Alexander Wang은 20살 정도에 불과했는데, 이 영상을 처음 봤을 때 나는 그를 그냥 어린 천재 개발자 정도로만 인식했었고, Scale Ai 비즈니스 모델이 그렇게 중요하다는 생각을 하지는 않았었다.
https://www.youtube.com/watch?v=HTXTVfBCeSY
영상 속에서 Scale AI에 대해 Joma Tech가 표현한 Outsourcing Bitch Work는 의역하자면 귀찮은 일 대신해주는 아웃소싱 업체라는 뜻이다.
그럼 도대체 이 Outsourcing Bitch Work가 도대체 얼마나 중요하길래 Meta가 20조나 주면서 지분 투자를 했는지 이야기 해보도록 하자.
그리고 그 20조 뒤의 가치 이면에는 어떤 그림자가 숨어있을까?
(Joma Tech 영상을 보게 된다면 Scale AI에 대해 조금 더 쉽게 이해할 수 있을 것이다)
AI에게 세상을 가르치는 데이터 라벨링
AI가 세상을 이해하기 위해서는 어떤 노력이 필요할까? 바로 데이터를 학습해야 한다.
근데 AI에게 저품질 데이터, 즉 편향되거나 잘못된 이름표가 붙은 데이터를 먹이면 어떻게 될까?
(최근 일론 머스크의 xAI의 Grok이 AI Hallucination 이슈를 겪고 있어, 다음 주 리뷰해보도록 하겠다)
그렇게 되면, AI는 세상을 왜곡해서 이해하고, 이상한 사상을 사용자에게 주입시킬 수 있다.
바로 이 지점에서 Scale AI의 20조 가치가 빛을 발한다.
고품질 데이터를 빠르고 정확하게 생산할 때 필요한 작업이 바로 데이터 라벨링(Data Labelling)이다.
그렇다면 데이터 라벨링은 무엇일까?
위 그림에서 소 4마리가 있다고 가정하면, 한 마리는 "Big Cow" , 다른 세 마리는 "Baby Cow"이다.
이 글을 읽고 있는 당신이라면 어떤 것이 Big Cow이고 Baby Cow인지 바로 구별할 수 있을 것이다.
하지만 인간이 이것을 구별할 수 있는 것도 학습의 결과이다.
인간도 이것을 학습하지 않았다면 어떤 개체가 "Big Cow"이고 "Baby Cow"인지 구별할 수 없다.
우리는 어릴 때부터 "소"는 어떻게 생겼는지 책에서도 보고, 티비에서도 보고, 차를 타고 가다가도 보는 학습을 거쳤기 때문에 소들을 구별할 수 있다.
이와 마찬가지로 컴퓨터에게 어떤 것이 "Big Cow"이고 어떤 것이 "Baby Cow"인지 캡쳐해서, 이름표를 달도록 해주는 것이 바로 데이터 라벨링이다.
데이터 라벨링은 바로 학습을 시키기 위한 자료 준비 과정이라고 생각하면 된다.
그럼 왜 Joma Tech는 이 작업을 Outsourcing Bitch Work라고 표현했을까?
그건 이 작업이 바로 노가다 작업이기 때문이다.
인간이 직접 하나씩 캡쳐해서 이름표를 달아줘야 하기 때문에, 곰인형에 눈 붙이고, 코를 다는 것과 큰 차이는 없다. 단지 컴퓨터로 작업 방식이 바뀐 것일 뿐.
이런 악덕 아웃소싱 업체는 어딜 가나 비판의 대상이 된다.
Scale AI 역시 이런 비판에서 자유로울 수 없다.
Scale AI 그들은 악덕 업체인가?
1. 저임금 착취 논란
필리핀, 베네수엘라, 케냐 등 개발도상국의 작업자들에게는 현지 최저임금에도 미치지 못하는 시간당 1달러 미만의 보수가 지급되는 사례가 다수 보고되었다.
2. 불안정한 플랫폼 '리모타스크(Remotasks)'
Scale AI는 '리모타스크(Remotasks)'라는 자체 플랫폼을 통해 작업자들을 관리한다. 그런데 이 플랫폼에서 이유도 모른 채 계정이 정지되거나, 작업한 만큼의 보수가 제대로 지급되지 않는 문제가 빈번하게 발생한다는 불만이 쏟아진다. 작업자들은 사실상 '갑'인 플랫폼의 일방적인 조치에 아무런 대응을 할 수 없는 구조이다.
3. 노동법 사각지대
데이터 라벨러들은 정식 직원이 아닌 '독립 계약자'로 분류된다. 이는 기업 입장에서 4대 보험, 유급 휴가, 퇴직금 등 정식 고용에 따르는 책임을 회피할 수 있음을 의미한다. 아파도 쉴 수 없고, 일감이 끊겨도 아무런 보호를 받지 못하는 '그림자 노동자'가 되는 것이다. 이 때문에 미국 노동부에서 직접 Scale AI의 노동 관행에 대한 조사를 착수하기도 했다.
4. 정신적 스트레스
데이터 라벨링 작업 중에는 폭력적이거나 선정적인 콘텐츠, 혐오 발언 등을 분류하는 작업도 포함된다. 작업자들은 유해 콘텐츠에 반복적으로 노출되면서 상당한 정신적 스트레스와 트라우마를 겪지만, 이에 대한 적절한 심리적 지원이나 보호 장치는 거의 제공되지 않는다.
이렇게 AI 불법 노동 문제는 현재도 진행중이다.
AI가 만들어내는 부가가치는 엄청나고, 그 원천 기술을 가진 회사들의 주가는 날아오르고 있다.
사람들은 AI 한달 구독료 20달러 정도를 내는 수고를 아끼지 않는다.
지금 스마트폰을 가지고 있지 않은 사람을 찾기 힘든 것처럼, 5~10년 후에는 전 세계 모든 사람들이 AI 구독을 하고 있을지도 모른다.
근데 이 모든 부는 몇 개의 AI 회사로 집중되기만 할 뿐, 그 기술을 완성시키기 위해 노력한 수많은 Outsourcing 작업자들은 최저임금도 받지 못하는 현실이다.
AI 하극상은 이런 문제를 고민하는 것에서 시작된다.