2022년 가을. 나는 이미지 세그멘테이션 작업을 열심히 했다. 세그멘테이션 작업이란 물체의 외곽선을 따라 그리는(정확히는 점을 찍는) 작업이다. 외곽선을 따라 그리고 해당 개체를 '사람' 혹은 '버스'와 같은 라벨을 달아주는 일. AI는 버스의 외곽선을 많이 학습해가면서 버스를 식별할 수 있게 된다.
세그멘테이션 작업에선 물체의 외곽선을 거의 그대로 따라 그려야 한다. 픽셀 단위의 정확성을 요구하기 때문에 아주 정밀하게 작업해야 한다. 어두운 이미지에서도 올빼미 눈을 하고 이미지의 경계를 명확하게 찾아내야 한다. 채도가 낮으나 밝기가 밝은 거의 하얀 이미지에서도 이미지의 경계를 명확하게 찾아내야 하고, 빛 번짐 때문에 경계가 흐릿한 이미지에서도 경계를 찾아내야 한다. 작업 가이드에선 '모니터의 밝기와 채도 조절을 통해 이미지의 경계를 찾을 수 있다'라고 했다.
동물의 신체 경계선을 찾아내고, 도로의 차선을 따라 그리는 작업을 열심히 하던 지난가을엔 유난히 손목이 많이 시렸다. 눈도 더 많이 아팠고. '좀 더 타이트하게 경계를 표시하라'는 반려도 많이 받았는데 검수자들은 '화면을 최대한 확대해서 경계를 그려보라'라고 조언했다. 처음엔 도대체 어느 정도까지 확대해서 작업하기를 원하는 건지 울컥했던 적도 있지만(픽셀 단위까지 확대를 해도 정확한 경계를 찍을 수는 없다) 작업을 해 나가면서 검수자들이 원하는 정확도를 점점 맞춰가게 됐다. 너무 어두운 이미지라 경계를 도통 찾을 수 없었던 이미지에서 검수자들은 '모니터의 설정 값을 바꾸면 경계가 보인다'라고 했다. 이건 내 모니터로는 극복할 수 없었던 문제다.
이미지를 좀 더 많이 확대해서 작업하다 보니 하나의 개체를 완성하는데 시간이 배로 들었다. 오래된 모니터의 설정값을 바꾸는 것은 더 많이 번거로웠고, 울퉁불퉁한 개체의 경계를 정확히 따라가기엔 내 손과 마우스는 충분히 정밀하지 못했다. 정밀도를 추구하다 보니 시급이 박살났고, 효율을 추구하다 보니 작업 승인율이 박살났다. 한번은 굉장히 복잡한 세그멘테이션 작업을 한 적이 있는데 한 장을 완성하는데 최소 30분이 걸렸다. 장당 금액은 2000원 대 후반 정도. 그렇게 작업한 건의 시급을 계산해보니 처음엔 5000원 정도. 한참을 작업해 조금 익숙해지고 나니 최저시급을 겨우 넘기는 수준이 됐다. 익숙해질 때쯤 해당 프로젝트는 끝이 났다.
세그멘테이션 작업의 효율을 높일 필요가 있었다. 태블릿과 펜슬로 작업을 해보기도 하고 마우스 컨트롤이 좀 더 정밀하다는 마우스를 새로 구입하기도 했다. 모니터에 코를 갖다 대어도 보이지 않는 경계를 찾을 수 있을 거란 기대에 새 모니터도 하나 장만했다. 손목 보호대도 샀고, 저렴한 손목 찜질기도 하나 샀다. 어차피 바꾸려고 했다고 위안을 하며 책상 위 액세서리들을 하나둘씩 바꿔갔다.
나중에 계산을 해보니 한 번 하는데 30분이 걸리는 장당 2000원 대 후반 정도의 짜리 작업을 최소 125번은 해야 모니터 값이 나왔다. 시간으로 따지면 쉬지 않고 약 63시간. 물론 나는 그 작업을 63시간이나 하지는 못했다. 여기서 제일 안타까운건 무턱대고 모니터를 산 나겠지만, 내 모니터의 성능과 내 마우스의 정밀도를 문제 삼았던 검수자들의 의견 또한 굉장히 유감이었다. 사실 라벨링 업무에 사용하는 모든 기기는 업체에서 제공하는 것이 아니라 내 소유의 장비이기 때문이다. 데이터라벨링 업무는 장소나 장비 사용에 대한 감가상각비가 고려되지 않는다. 오히려 장비에 대한 투자가 필요했다.
이렇게 글을 쓰긴했지만 사실 세그멘테이션 업무는 조금 경험을 쌓으면 장비탓을 하지 않고도 숙련도가 올라갈 수는 있다. 작업을 하다보면 작업이 승인되는 정도의 경계가 어디인지 경험적으로 알 수 있게 된다. 실제로 작업자가 쓰는 장비를 노골적으로 폄하하는 검수자도 거의 없었다. 다만, 잊을만 하면 전달되는 '모니터의 밝기/채도 조절에 익숙하지 않은 것 같습니다'라는 데이터라벨링 사이트의 자체 검수자의 의견은 아무리 생각해도 뒤끝이 남는다.