brunch

You can make anything
by writing

C.S.Lewis

by 그로밋의 기술지능 Jul 13. 2023

라벨링의 추억

데이타 중심이란?

- 제조업 공장에 가본적이 있는가?

요즘 공장엔 사람이 거의 없다.. 대부분 자동화되었기 때문이다.

그런데 사람이 있는 유일한 곳이 있다..

제품의 결함을 찾아내려고 육안으로 비젼검사를 하는 곳이다.


- 라벨링은 인간같은 영장류 만이 할 수 있다.

왜냐고?

지구상에서 인간이 가장 비선형 적인 존재이기 때문!

일찌기 뉴턴도 혀를 내둘렀을 정도~


- 비선형적이라는게 무엇인가?

바로 예측불가능하다는 것이다.

그때 그때 다르며, 개인마다 다르다.


- 라벨링을 OpenCV등으로 컴퓨터로 자동화하려고 잔머리를 굴리는 순간

컴퓨터는 선형적인 라벨링 결과를 마구 생산해 낸다.


- 선형적인 라벨링 데이타가 왜 문제일까?

선형적인 데이타는 딥러닝 모델의 일반화성능을 떨어뜨린다.

이른바 오버핏(Overfit, 과적합)이라는거 말이다.

오버핏이 발생하면 조금만 양상이 다른 입력이 들어와도 잘못된 예측결과를 출력한다.


- 이렇게 비선형적이고 개인적인 라벨링 결과물들은 NFT 와의 연결도 아주 궁합이 잘 맞을듯 하다.

시도해 보시라~


- 석박사 출신 딥러닝 엔지니어들도 라벨링을 할까?

물론이다.

아이디어가 떠오를때마다 라벨링 하청을 줄순 없으니까..

그래서 혼자서 매일 최소 500장씩 라벨링하는게 일상다반사 다.


- 가방끈 긴 명문대 출신들이 수백장씩 라벨링을  수시로 하고있으면 자괴감이 들법도 하다.

하지만 그게 현실이다.

라벨링이야말로 딥러닝의 꽃 이니까.


- 제조업 쪽은 데이타가 늘 부족하다.

왜냐면 소량 다품종 생산이 요즘 트랜드이기 때문이다.

따라서 한장의 이미지도 유출을 극도로 꺼리며 데이타 공유시 보안서약서는 기본이다.


- 따라서 수많은 웹기반의 편리한 라벨링 유틸들이 있지만 아무도 웹에는 소중한 데이타를 업로드 하려하지 않는다.

그래서 여전히 Labelme같은 오프라인 유틸 류가 대세인 것이다.


- 데이타가 인공지능의 핵심이란걸 개인과 기업들이 점점 깨닫고 있다.

따라서 데이타의 보안은 점점 더 중요해질것이다.

그래서 동형암호 같은것까지 등장하고있다

심지어 대기업 안에들어와서 라벨링과 개발을 해달라는 요구까지 한다.


- json, xml, csv, txt 등등 라벨링 포맷은 아직은 춘추전국시대다.  그리고 앞으로도 그럴것이다.

왜냐고?

잘 라벨링된 빅데이타 자체가 포맷권력(?) 이기 때문이다.


- 수학적 영상처리는 몇장의 이미지만 보여줘도 알고리즘을 짜는게 가능하다.

하지만 데이타가 다양할수록 정확도는 떨어진다.

반대로  딥러닝은 라벨링부터 해야한다. 그리고 빅데이타일수록 정확해진다.

왜냐면 진짜 알고리즘은 오로지 데이타로부터만 나오기 때문이다.


- 따라서 수학적 영상처리와 데이타-드리븐 방식의 딥러닝은 서로 보완을해줄 필요가 있는데 요즘은 무조건 딥러닝으로만 해결하려 달려드는게 문제다. 이는 지구환경에도 안좋은 접근방식이다.

그리고 그와중에 수학적 영상처리 엔지니어들은 하나둘 은퇴를 하는중이다.


- 또한, 딥러닝 방식은 일반화성능에 도달하기 까지

엄청난 라벨링 노가다와 인간소통 비용이 필요하며

결과 성능에대한 통계조작의 유혹을 견뎌내야한다.

의도치 않게 학습셋이 테스트셋에 섞여들어가는 데이타누수 현상도 종종발생하고..

결국 과거 식스시그마운동 때처럼 사람들로 인한 문제  발생과 실패확률이 매우매우 높다.


- 모든 최신 논문들이 자기네 모델링 기법으로 SOTA(최고성능)를 찍었다고 주장한다,

하지만 아무도 데이타 이야긴 하지 않는다.

왜냐하면 모델링 보다 데이타가 더 중요하다고 말하는순간  자신들의 논문의 가치가 떨어지기 때문이며

데이타 자체론 논문을 쓸수 없기 때문이다.


- 데이타가 좋으면 어떤 모델로 학습해도 결과가 좋다.

하지만 데이타가 나쁘면 어떤 모델로 학습해도 결과가 나쁘다.


- 좋은 데이타란 무엇인가?

잘 라벨링되고 충분히 많으며 충분히 다양한 데이타를 말한다.


- 갑기업은 종종 엉터리로 라벨링된  데이타로 을기업에 갑질을 하기도 한다.


- 아이패드와 손가락 핀치, 애플펜슬 등으로 이미지 라벨링을 편리하게 하는

앱이 나오면 아주 강력할거 같은데..

아무도 시도를 안하고 있다.

시도해 보시라~


- 한때 경증 자폐증을 겪는 소통가능한 자폐우들이  

집중력도 좋고 라벨링을 매우 잘한다는 소문이 있었다.

지금은 어떤지 모르겠다.


- 오늘날엔 외로운 노인분들이 나가서 폐지를 줍지만

미래엔 외로운 노인분들이 컴퓨터를 켜고 라벨링을 할지도 모른다.

왜냐하면 근미래엔 그런일들 마저 로봇으로 대체될지도 모르니까...


미리 연습해 두자.

작가의 이전글 맥스웰의 제자, 포인팅 이야기
작품 선택
키워드 선택 0 / 3 0
댓글여부
afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari