인공지능 딥러닝을 위해 데이터를 가공하는 데이터 라벨러
이 세상에는 수많은 정보들이 존재한다. 신문이나 잡지, 책, 사전 심지어 어느 회사의 사보나 길거리에서 받는 전단지까지 비록 유한하지만 충분한 정보로 남게 된다. 인터넷과 네트워크 그리고 각종 플랫폼이 발달하고 전 세계 곳곳을 서로 잇게 되면서 더욱 많은 데이터들이 무한한 공간에 차곡차곡 쌓여가고 있는 중이다. '태산'을 이뤘어도 수도 없을 빅데이터의 거대한 정보량은 가히 놀랄만한 수준에 이른다. 'data'라는 키워드를 구글링 하면 44억 6천만 개의 결과 값이 나온다. 'AI'라는 키워드를 검색하면 45억 1천만 개의 결과가 나오는데 검색 결과의 물리적인 값은 경우에 따라 달라지겠지만 셀 수도 없을 만큼의 결과에서 충분히 필요한 정보로 얻을 수 있다는 결과가 나온다. 사실 구글링을 통한 검색 결과는 전 세계 웹 사이트 어딘가에 난립한 것들을 수집해 크롤링(Crawling)한 값이다. 크롤링을 통해 수집한 정보에는 텍스트, 사진, 영상, GPS 정보, 쇼핑 정보 등 다양한 데이터가 존재할 수 있다. 물론 정해진 규격도 없고 용량도 일정하지 않으며 위에서 언급한 것처럼 형태도 다양하다. 즉 물리적으로 데이터를 규정할 수 없으니 '빅 데이터(Big Data)'라는 키워드에서 '빅'이라는 단어의 개념은 단순히 '크다'는 의미의 'Big'을 넘어 확장성을 가진 'Wide', 그리고 제한이 없다는 'Limitless'로 해석해볼 수 있겠다. 이처럼 무한하게 쌓이는 데이터는 인공지능(AI)의 발전과 함께 그 중요성을 더해가고 있다. 때문에 데이터 관련 사업이나 빅데이터 전문가 육성에 대한 목소리도 이어지고 있는 중이다. 그렇다면 인공지능과 빅데이터 사이에 존재하는 인간의 임무는 무엇일까?
디지털 뉴딜과 데이터 라벨링
2020년 7월 정부가 발표한 디지털 뉴딜 정책 중 가장 핵심 요소라 할 수 있는 것이 데이터 라벨링(Data Labelling)이었다. 인공지능의 고도화와 함께 주목받기 시작한 데이터 라벨링은 인공지능이 수행하는 딥러닝(Deep Learning)과 직결되는 임무다. 인공지능의 학습 데이터가 어느 문제지에 나와있는 정답지처럼 명확해야 하고 이를 기반으로 수많은 데이터를 학습하고 답을 추론하는데 쓰이는 것이 인공지능 학습의 기본인데 여기서 '정답'이라는 것이 '개냐 고양이냐'처럼 구분이 명확해야 보다 세부적인 딥러닝이 가능해진다. 언급한 것처럼 데이터 라벨링 역시 어느 특정 이미지 속의 동물들을 직접 구별해주는 셈이다. 강아지와 고양이 사진을 두고 사람이 직접 구별해주는 작업을 두고 라벨링이라고 한다. 이렇게 라벨링을 거친 데이터 셋을 인공지능에 입력해 학습할 수 있도록 하는 것인데 이를 '인공지능 고도화의 초석 단계'라 말하며 인공지능 인프라 구축에 필수적인 절차로 여겨지고 있다. 그래서 인공지능 고도화와 빅데이터의 정제(data cleansing)라는 개념 사이에 인간의 임무로서 데이터 라벨링이 존재하는 것이다. 사실 딥러닝은 대량의 데이터로 학습을 진행한다. 당연하지만 정답을 도출하거나 정답에 가까운 수준의 추론에 이르기까지 학습을 수행하게 되는데 라벨링이 완료된 학습 데이터 셋(data set, 여기서 말하는 '데이터 셋'은 자료의 집합체를 의미한다)을 기반으로 한다. 우리가 구글링 해서 받은 결과 값에는 정답에 가까운 정보들이 있기도 하지만 정답이 아니거나 무관한 결과 값이 나오기도 한다. 앞서 언급했듯 결과 값에는 텍스트나 이미지, 영상 등 다양한 종류의 답이 존재하게 되는데 이를 일컬어 데이터 구조가 없는 '비정형 데이터(unstructured data)'라 말하기도 한다. 데이터 라벨링의 또 다른 의미는 이러한 비정형 데이터를 알기 쉽게 변형하거나 가공하는 정제 과정을 뜻하기도 한다. 인공지능 고도화의 초석 단계라고 언급하기도 했지만 인공지능 테크놀로지의 경쟁력을 결정짓는 작업이기도 하다.
※ 디지털 뉴딜 : 인류는 코로나19를 맞이하면서 전례 없는 위기를 겪었다. 온라인 소비가 집중되고 재택근무와 원격수업 등 이른바 언택트 시대를 맞이하게 되면서 비대면 확산을 몸소 경험했다. 이에 디지털 역량이 국가의 경쟁력을 말해주는 핵심 요소로 부각되기에 이르렀다. 우리나라의 강점이라 할 수 있는 정보통신 기술 ICT(Information and Communication Technologies) 테크놀로지를 전 산업 분야에 융합하면서 경제 위기 극복은 물론 새로운 일자리를 창출한다는 거대한 의미의 '국가 디지털 대전환 프로젝트'가 바로 디지털 뉴딜이다.
크라우드웍스의 데이터 라벨러 육성
이러한 데이터 라벨링을 선도하는 기업 중 하나가 '크라우드웍스(Crowdworks)'다. 인공지능 학습에 활용되는 데이터를 수집하고 가공하는 서비스가 이들의 주된 사업이다. 크라우드웍스는 창업 이후 네이버에서 첫 투자를 받았으며 이후로 가파르게 성장하며 투자를 이어가기도 했다. 실제로 투자를 진행한 네이버는 물론이고 삼성, LG 등 대기업들과 협업 프로젝트를 진행한 바 있다. 개방형 플랫폼에서 수많은 사람들이 참여하게 되는 이른바 '크라우드 소싱' 방식으로 진행되는데 인공지능 학습 데이터를 가공하는 수많은 데이터 라벨러들이 존재하고 있다. 또한 데이터 라벨링 교육을 이수받을 수 있도록 학습 체계를 마련하고 있다. 후술하겠지만 한국인공지능협회가 주관하는 '인공지능 (학습) 데이터 전문가'라는 이름의 자격증 과정이 자리하고 있다.
디지털 플랫폼을 기반으로 공유경제가 확산되면서 등장한 근로 형태의 새로운 기준, 이른바 '긱 워커(Gig Worker)'시대가 안착했고 우리는 우리가 원하는 시간에 초단기로 업무를 수행하게 되며 수행한 업무에 따라 포인트(또는 그에 맞는 보상)를 지급받는 방식이다. 크라우드웍스는 전문적으로 데이터 라벨링을 하는 사람들의 직업으로서 데이터 라벨러 자체가 하나의 직업으로 자리하고 있다고 전했다.
어쩌면 플랫폼(혹은 서비스) 개발보다 중요한 것도 데이터 가공일지 모른다. 크라우드웍스 박민우 대표도 '3~4명이 서비스 개발하는 시간과 비용보다 10명이 3~4개월 남짓 서비스 개발에 필요한 데이터를 가공하는데 소요되는 것이 더 많다'라고 할 정도다. 비정형 데이터가 수도 없이 쌓이고 있는 빅데이터 시대에서 데이터 가공은 보다 복잡하면서 정교해질 것이다. 그러니 인공지능 생태계에서 전방에 자리한 데이터 라벨러들의 직무라던가 급속도로 쌓이는 빅데이터 시장을 고려한다면 체계적인 학습을 통해 보다 전문적인 라벨러들의 육성 그리고 학습 데이터의 품질을 높여 인력들의 경쟁력을 강화하는 등 적극적인 교육 과정도 필요해 보인다.
긱 워커 시대 속의 인공지능 데이터 전문가
긱 워커 시대를 맞이한 지금 우린 긱 이코노미 시장의 확대를 직접 목격하고 경험하는 중이다. 테크놀로지 발전에 따른 긱 워크 산업의 고도화가 병행되고 있는 만큼 실질적인 전문가를 요구하는 기업들도 함께 늘어나고 있다. 데이터 라벨러 역시 전문가 수준 그 이상을 요구하고 있으며 크라우드웍스는 전문 라벨러로 발돋움 할 수 있도록 AIDE(Artificial Intelligence Data Expert)라는 인공지능 (학습) 데이터 전문가 교육과정을 제공하고 있다. 전문 데이터 라벨러의 공식적인 명칭은 인공지능(학습) 데이터 전문가이고 한국인공지능협회 주관으로 자격시험을 거쳐야 발급받을 수 있다. 크라우드웍스는 자격시험을 위한 교육과정을 아래와 같이 제공하고 있다.
크라우드웍스의 AIDE 커리큘럼에는 인공지능과 빅데이터, 데이터 라벨링에 대한 이론부터 이미지와 음성, 영상, 텍스트 등 다양한 데이터의 수집과 분류 그리고 판별까지 학습하게 된다. 이러한 내용을 바탕으로 이론과 실습에 대한 온라인 시험을 거쳐 AIDE 자격증을 손에 쥘 수 있게 된다. AIDE 자격증을 소지하게 되면 기업들이 요구하는 데이터 라벨링 긱 워커 또는 AI 서비스 기획자 등 인공지능 분야 전문가로 취업하는데 충분히 도움을 줄 수 있을 것 같다.
실제로 인공지능 테크놀로지는 데이터와 직접적으로 연결된다. 4차 산업혁명 속에 존재하는 자율주행, AI 스피커를 포함한 IoT 디바이스, 로봇 등 다양한 영역에서 데이터를 필요로 한다. 네트워크라던가 인공지능이 임무를 수행하는 각종 인프라 역시 매우 중요하지만 빅데이터를 우선적으로 다루는데 집중하고 있다. 가령 AI 스피커에 유저들이 요구하는 쿼리 즉 질문에 대한 답변을 제공할 때에도 클라우드에 존재하는 데이터에서 '정답(혹은 학습에 따라 정답으로 추론될만한 것)'을 찾아 제공한다. '2 곱하기 9는 18'이라는 단순한 산수부터 복잡한 수학은 정해진 계산에 따라 정답을 도출한다. 야구나 축구 등 정해진 시간과 점수, 타율이나 유효슈팅 모두 숫자로 계산되어 답변을 제시할 수 있다. 하지만 도로 위의 복잡한 표지판을 구분한다던가, 로봇이 공장에서 특정 임무를 수행하는 경우 즉 산업에 필요한 데이터 셋 모두 모두 명확한 라벨링이 필요한 것이니 인공지능 기술 개발을 위한 양질의 학습 데이터를 요구하는 수요는 점차 늘어날 수밖에 없다. 그러니 데이터 라벨러에게 요구되는 전문성 또한 높아지고 있는 중이다.
2020년 디지털 뉴딜과 함께 쏟아진 각종 미디어들의 기사를 참고해보면 데이터 가공의 중요성과 데이터 라벨링에 따른 일자리와 시장 규모 등은 놀랄만한 수준에 이르렀다. 위 이미지에서도 볼 수 있듯 정부가 구축하고자 하는 데이터 댐은 다양한 분야에 활용되는데 여기에 데이터 수집과 가공은 필수적인 과정이었다. 그러니 데이터 라벨링과 관련된 일자리 전망도 당연한 셈. 더불어 데이터 라벨링의 국내 시장 규모만 해도 무려 2조 원 이상이라고 전했다. 인공지능 테크놀로지의 눈부신 발전과 지금 이 순간도 하나둘씩 쌓여 거대한 산을 이루고 있는 빅데이터 사이에 인간은 데이터를 구분하는 작업을 수행하고 있다. 디지털 뉴딜과 그에 따른 디지털 트렌드가 시대를 바꾸고 있는 중이다.
※ 아래 사이트를 참고하여 작성했습니다.
※ 본 게시글은 크라우드웍스로부터 원고료를 제공받아 솔직하게 작성한 글입니다.
- 크라우드웍스 아카데미 : https://bit.ly/3OaWmjn
- 디지털 뉴딜, digital.go.kr/front/main/main.do
- 한국판 뉴딜 관련 글 : https://brunch.co.kr/@louis1st/356
- AI 학습용 데이터 No.1 플랫폼, 클라우드웍스 소개 영상