기업들은 AI(인공지능)에 취해 있습니다.
IDC는 전 세계가 AI에 투자하는 금액은 2019년의 41조 원에서 2023년 100조 원 이상 상승할 것으로 보고 있습니다. 하지만 지금까지 5개 회사 중 1개 회사만이 머신 러닝의 잠재력에 대해 잘 이해하고 있고 핵심 사업에 접목하고 있습니다.
그 이유 중 하나는 실무에 활용할 수 있는 좋은 품질의 데이터가 부족하기 때문입니다. 이코노미스트에 따르면 현재 AI의 가장 일반적 형태인 ‘supervised learning(이하 지도 학습)’은 데이터에 레벨링을 요구합니다. 예를 들자면 엑셀로 치면 표 데이터가 있을 때 제일 윗 행에 각 열이 무슨 데이터인지 열의 이름이 있어야 한다는 거죠.
이 데이터 레벨링 작업은 자기도 모르게 ‘아 하기 싫어’라고 중얼거리면서 외주를 주고 싶은 작업입니다. 그리고 업계에서는 이미 그 외주 작업을 하고 있습니다.
데이터 레벨링 마켓은 2023년까지 3배 이상 성장하면서 5조 원 이상 커질 것으로 예상합니다. 데이터 레벨링 작업을 기업에게 받아서 마이크로 단위로 쪼개서 외주를 주는 중개인 역할을 하는 기업도 생겼습니다. 이런 작업은 저임금 국가인 인도나 베트남, 필리핀에서 주로 성행하고 있습니다.
문제는 작업들을 잘게 쪼개서 여러 인력들이 진행하다 보니, 사람들이 실수하는 경우가 발생합니다. 사람의 실수가 들어간 데이터를 통해 학습하는 AI가 만들어낸 알고리즘의 품질 역시 떨어지고 맙니다.
이 문제를 방지하기 위해 다른 스타트업들은 사람을 작업에서 아예 빼는 프로세스를 하고 있습니다. Scale AI는 사람들의 감독하에 AI 알고리듬이 라벨링 작업하게끔 하고 있습니다. 이 회사의 주인인 알렉센더 왕 씨는 작년의 수십억 매출에서 올해 매출은 10배 정도 성장했다고 인터뷰했습니다.
AI Reverie라는 회사는 게임에 쓰일 이미지를 만든 후, 데이터 레벨링 해서 컴퓨터가 이미지 학습을 하게끔 하기 위해 사람을 같이 보냅니다. 이 방법은 실제 상황에서 가져오기 힘든 데이터를 찾는데 유용합니다. 심해에 사람이 있는 이미지나, 폭우, 심한 안개 이미지 같은 이미지 말이죠.
이 데이터 레벨링 시장의 단기전망은 밝습니다. 장기적 관점에서 이 시장의 위협은 ’unsupervised learning(비지도 학습): 데이터 레벨링이 필요하지 않은 방법’이 있습니다만 데이터 레벨링 스타트업 Labelbox의 사장인 Manu Sharma 씨는 현재로는 비지도 학습은 학문적 시도이며 언제 비지도 학습이 가능하다고 말하는 건 추측일 뿐이다 라고 전달했습니다.