brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Apr 08. 2021

더 많은 데이터 중심으로, 더 작은모델로!

코세라 창업자 앤드류 응님 ML 커뮤니티 발표

최근 온라인 교육 업체인 코세라가 최근 뉴욕 상장 주식 거래소에 상장했습니다. 그동안 우리에게는 스탠퍼드 인공지능 강의에 친숙한 앤드류 응 교수는 이 회사의 공동 창업자였습니다. 한편, 최근에 한 ML 커뮤니티 온라인 발표에서 좋은 데이터란 무엇인가에 대한 질문에 더 많은 데이터 중심적이고 덜 모델 중심적이어야 한다고 촉구했습니다. 이 말은 ML 커뮤니티에서 MLOps에 대하여 머신 러닝 모델을 보다 체계적으로 구축 및 배포해야 한다고 발표한 내용들 중에 제일 핵심이었습니다. 


그는 이어서 머신 러닝 발전은 팀이 모델을 다운로드하고 표준 벤치 마크 데이터셋에서 더 나은 결과를 얻으려고 노력했기 때문이라고 덧붙였습니다. 대부분의 시간은 코드, 모델 또는 알고리즘을 개선하는 데 소비된다고 말하면서 많은 문제에 대해 코드를 개선하는 것이 아니라 보다 체계적인 방식으로 데이터를 개선하는 방향으로 우리의 사고방식을 전환해야 한다고 강조 했습니다.


이렇게 앤드류 응은 모델 중심보다 데이터 중심이 더 강조하는 이유는 머신 러닝 개발을 더욱더 가속화할 수 있기 때문이라고 밝혔습니다. 기존 소프트웨어 개발 방법은 코드로 구동되는 반면 인공지능 시스템은 코드 (모델 + 알고리즘)와 데이터를 모두 사용하여 구축된다고 그 차이점을 다음과 같이 그는 설명했습니다.  


시스템이 제대로 작동하지 않으면 많은 팀이 본능적으로 코드를 개선하려고 합니다. 그러나 많은 실제 애플리케이션의 경우 데이터 개선에 집중하는 것이 더 효과적입니다. 

그는 머신 러닝의 발전이 벤치 마크 데이터셋의 성능을 개선하려는 노력에 힘 입어 이루어졌다고 강조했습니다. 연구자들의 일반적인 관행은 코드를 개선하는 동안 데이터를 고정하는 것 입니다. 그러나 데이터셋의 크기가 1만개 미만인 것처럼 적당하지 않은 경우, 혹은 반대로 데이터셋이 좋으면, 머신 러닝 팀이 더 빨리 진행할 수 있다고 다음과 같이 주장했습니다.


우리 작업의 80 %가 데이터 준비라면 데이터 품질을 보장하는 것이 머신러닝 팀의 중요한 작업입니다.

일반적으로 만일 머신 러닝의 80 %가 데이터 정리라고 가정 해 봅시다! 우리 작업의 80 %가 데이터 준비인 경우 왜 데이터 품질을 보장하지 않는 것이 머신 러닝 팀에게 가장 중요하지 않은지 되묻지 않을 수가 없었습니다. 또한 그는 모든 사람들이 ML에 대해 농담하는 것이 80 % 데이터 준비라고 언급했지만, 아무도 신경 쓰지 않는 것 같다고 이야기했습니다.


최근 NeurlPS 2020 컨퍼런스에서 캠브리지대 인공지능 연구자들이 발표한 “머신 러닝의 배포 과제: 사례 연구 조사 (Challenges in Deploying Machine Learning: a Survey of Case Studies)” 논문을 살펴보면, 실제 프로덕션 시스템에 머신 러닝 모델을 배포하면 여러 가지 문제들이 발생할 것을 발견할 수 있습니다.  


특히, 최근 몇 년 동안 머신 러닝은 학문적 연구 분야와 실제 비즈니스 문제에 대한 해결책으로 이 설문 조사에서는 다양한 사용 사례, 산업 및 애플리케이션에 머신 러닝 솔루션을 배포하는 것에 대한 게시된 보고서를 검토하고 머신 러닝 배포 워크 플로의 단계에 해당하는 실제 고려 사항을 추출 했습니다. 


다시 말해, ML 연구가 진행되는 방향에 대한 아이디어를 얻을 수 있고, 벤치 마크를 앞지르는 데 있어 전례 없는 경쟁을 현재 연구자들은 하고 있다고 예를 들어 설명했습니다. 구글에 BERT가 있으면 OpenAI에 GPT-3이 있습니다. 그러나 이러한 멋진 모델은 비즈니스 문제의 20%만 차지합니다. 좋은 배포를 차별화하는 것은 데이터 품질입니다. 그렇게 된다면, 누구나 사전 훈련된 모델이나 라이선스가 있는 API를 손에 넣을 수 있습니다. 


또한 캠브리지 대학의 연구자들이 수행한 연구에 따르면, 가장 중요하지만 종종 무시되는 문제는 데이터 분산 작업입니다. 문제는 데이터가 서로 다른 스키마, 서로 다른 규칙 및 데이터 저장 및 액세스 방식을 가질 수 있는 서로 다른 소스에서 스트리밍 될 때 발생합니다. 이제 이것은 ML 엔지니어가 정보를 머신 러닝에 적합한 단일 데이터셋으로 결합하는 지루한 프로세스 작업입니다. 또한 작은 데이터셋은 노이즈가 많은 데이터에 문제가 있지만, 데이터 볼륨이 클수록 레이블 지정이 어려울 수 있습니다. 


인공지능 전문가와의 접촉은 고품질 레이블 수집의 또 다른 병목이 될 수 있습니다. 인공지능 전문가에 따르면 고변량 데이터에 대한 액세스 부족은 실험실 환경에서 실제 세계로 머신 러닝 솔루션을 배포할 때 주요 과제입니다. 사용자가 많은 소비자 소프트웨어 인터넷 회사는 많은 훈련 샘플 데이터셋을 가지고 있습니다. 만일 데이터 포인트가 충분하지 않은 농업 또는 의료와 같은 다른 환경에서 인공지능을 배포한다고 상상해 보자면백만 대의 트랙터를 기대할 수 없을 것입니다. 

 

앤드류 응에 따르면 좋은 데이터는 일관되게 정의되고 모든 에지 사례를 다루며 생산 데이터에서 적시에 피드백을 받고 적절한 크기로 조정할 수 있어야 합니다. 그는 데이터셋을 개선할 수 있는 최선의 방법을 찾기 위해 엔지니어에게 의존하지 말라고 조언했습니다. 

 

그 대신 그는 ML 커뮤니티가 반복 가능하고 체계적인 고품질 데이터셋과 인공지능 시스템을 만드는 데 도움이 되는 MLOps 도구를 개발하기를 바란다고 조언했습니다. MLOps가 현재 초기 분야이며 앞으로 인공지능에 있어서 가장 중요한 목표이므로 앤드류 응은 마지막으로 머신 러닝을 효율적으로 배포하기 위해 다음과 같이 규칙을 제안했습니다.

 

MLOps의 가장 중요한 임무는 고품질 데이터를 제공해야 합니다. 

레이블링 일관성이 핵심입니다. 예를 들어, 레이블러가 바운더리 박스를 사용하는 방식을 확인합니다. 레이블링에는 여러 가지 방법이 있을 수 있으며, 그 자체로 좋더라도 일관성이 없으면 결과가 악화될 수 있다는 점을 명심하십시오!

기본 모델의 데이터 품질을 체계적으로 개선하는 것이 저품질 데이터로 최신 모델을 쫓는 것보다 낫습니다.

훈련 중 오류가 발생하면 데이터 중심 접근 방식을 취하십시오!

데이터 중심 보기를 사용하면 더 작은 데이터셋 (10k 샘플 미만)의 문제를 개선할 여지가 상당히 있습니다.

더 작은 데이터셋으로 작업할 때 데이터 품질을 높이기 위한 도구와 서비스가 중요합니다. 



Challenges in Deploying Machine Learning: a Survey of Case Studies 논문: https://arxiv.org/abs/2011.09926
MLOps 정의: https://en.wikipedia.org/wiki/MLOps

A Chat with Andrew on MLOps: From Model-centric to Data-centric AI 유투브: https://www.youtube.com/watch?v=06-AZXmwHjo

매거진의 이전글 유니버설 컴퓨팅 엔진으로 사전 훈련된 트랜스포머
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari