긱 경제, 데이터 플랫폼
일과 커리어에 대한 본질적인 고민을 한창 하던 작년에 베트남에서 전자책으로 읽었던 <직장이 없는 시대가 온다 / Gigged : The Gig Economy, the End of the Job and the Future of Work>. 불현듯 이 책이 떠올랐다. 바로 데이터 가공, 데이터 바우처, 크라우드 소싱, 데이터셋 구축 등의 이름으로 재택 알바 공고들이 여기저기서 나오는 것을 보고.
어랏, 내가 매일 하루 종일 다루는 게 데이터고, 머신러닝 작업 과정에서 70프로 이상의 시간을 잡아먹는 게 데이터 전처리란 말을 귀 따갑게 듣고 있는 와중이며, train을 위한 방대한 양의 데이터를 확보해서 잘 가공하고 훈련을 시켜야 좋은 결과를 얻을 수 있다는 명제를 익히던 찰나.
작년에 Gigged를 읽으면서 크라우드 소싱이라는 개념을 접하면서 미국 기자 출신의 저자가 아마존이 운영하는 온라인 크라우드 소싱 중개소인 메커니컬터크 에서 데이터 라벨링 작업을 하면서 생활하는 노동자에 대해 다뤘던 게 기억났다.
머신러닝, 딥러닝을 다들 신적인 존재처럼 맹신하는 사람들도 있다는데 그만큼 컴퓨터가 아직 똑똑하지는 않아서 우리가 보는 것들에 대해 이름을 붙여주고 학습을 시켜 줘야 한다. 우리 일상에서 이제는 직접 사람과 대화하지 않아도 고객센터 챗봇으로 궁금한 점을 해결하는 것도 다 데이터로 챗봇을 학습시켜서 대응 능력을 기른 터.
컴퓨터가 사물을 어떻게 학습해서 인식하는지에 대한 아주 대표적인 TED 강연 참고. 고양이를 고양이라고 부를 수 있게 되기까지 이 사진은 고양이다 아니다는 라벨링 작업은 다 사람을 거쳤다.
프로젝트를 준비하면서 관련 사진 자료를 어떻게 하면 더 많이 빨리 모으고 라벨링 작업을 처리할까 고민하고 있던 중이었기에 구글로 검색을 해 본다. '데이터 가공', '데이터 플랫폼', '크라우드 소싱' 등등.
국책 사업인 데이터 바우처 사업을 주관하는 기업들이 크라우드소싱 방식으로 자체 플랫폼, 앱 등을 통해 불특정 다수에게서 데이터를 수집하고, 라벨링, 검수까지 건당 5원, 10원부터 1,000원 2,000원 등등 희소성과 난이도에 따라 가격이 측정되어 있었다. 물론 싼 가격의 미션은 건건이 몇 초만에 완료할 수 있는 것들이다.
책에서 나온 메커니컬터크는 2005년에 설립되었다는데, 그에 비하면 데이터 산업을 미래 발전의 원동력으로 삼겠다는 것 치고는 우리나라가 한참 뒤진 건 사실. 오래전부터 쌓아온 데이터들로 각종 알고리즘이 만들어지면서 또 프로그램 언어를 세로 만들어 전 세계 독점을 시켜 버리는 구글 신들과 비교했을 때 한글 데이터는 이제야 불붙어서 구축하는 단계인 것 같다.
자연어 처리 쪽에 관심이 있어서 텍스트, 음성 쪽 데이터 라벨링은 어떤 식으로 하는지 앱을 깔고 직접 며칠 동안 라벨링 작업을 해보면서 아 이런 식으로 해야만 데이터를 축적할 수 있겠구나라는 생각이 문득. 한글 대화의 경우 특히 문맥상의 흐름과 이해가 중요한데 소수 인원이 전 국민의 언어 패턴을 다 꿰고 있는 것도 아닐 것이고 음고와 말투 등이 다양하니 돈을 주고서라도 데이터를 수집하는 게 맞는 것이긴 하나 내 목소리와 내 음성의 패턴 그리고 문장을 구사하는 스타일 등등이 공유되면서 개인정보에 대한 우려도(이미 privacy는 없는 세상이긴 하나)
10여 년 앞서 나간 미국이었으니 관련 산업의 문제점들과 보완책들이 논의되고 있는 모양. 1년 전만 하더라도 내가 책에 등장한 데이터 라벨링을 직접 해보리라고는 생각도 못하고 세상이 참 많이 변하고 있구나 정도만 느끼며 읽었던 책인데. 한국에서도 곧 다가올 미래니 다시 한번 책을 들춰본다.
AI 데이터에 관심 있는 분들은 AI Hub 사이트도 한번 참고해 보시길. 한국정보화진흥원에서 “지능정보산업 인프라 조성사업” 사업의 일환으로 구축한 플랫폼인데, 분야별 학습 데이터도 일부 신청을 통해 활용할 수 있다.
AI Hub : https://aihub.or.kr/
책 소개 링크 : http://www.yes24.com/Product/Goods/69625333
"긱 경제는 한때 그 창조자들이 상상했던 것과 달리 '노동의 미래'에 대한 주문형 개선책이 아니다. 그러나 노동의 미래가 구체적으로 어떤 모습으로 다가올지 전망하고 그에 대비하기 위해 우리가 구체적으로 어떤 수고를 기울여야 할지 고민한다면, 긱 경제가 현실의 생생한 사례로서 매우 중요한 역할을 할 것이다."
- 책 후기 마지막 문장 중