brunch

매거진 GCP

You can make anything
by writing

C.S.Lewis

by 하이프마크 Dec 29. 2021

GCP : Google Cloud AutoML

GCP




Google Cloud AutoML은 구글의 머신러닝 기능을 기반으로 빌드하여 비즈니스 요구에 맞는 자체 커스텀 머신러닝 모델을 직접 만들고 애플리케이션과 웹 사이트에 통합할 수 있는 서비스입니다. 


AutoML을 사용하면 머신러닝에 대한 지식이 부족하더라도 머신러닝의 장점을 활용할 수 있습니다. 자체 데이터를 바탕으로 모델을 학습, 평가할 수 있는 GUI 환경이 기반이 되기 때문에 콘솔을 통해서 커스텀 러닝 모델을 만드는 것입니다.


 Cloud AutoM의 작동방식은 다음과 같습니다.





데이터세트가 AutoML로 넘어가면 AutoML 측에서 Train, Depoly, Serve를 전부 처리합니다. 또한 지원되는 REST API 코드를 이용해 응용 프로그램을 만들 수 있습니다.


기본적으로 GCP 내부에서 서비스하는 툴을 사용해 학습시키는 것이 일반 적인데요, AutoML Natural Language을 통해 텍스트 및 문서 분류, 문서 항목 추출, 문서 감정 분석 등을 학습시킬 수 있고, AutoML Tables을 통해 구조화된 데이터 기반의 최선 러닝모델을 자동으로 배포하고 지원하도록 할 수 있습니다.


또한 AutoML Translation을 사용해 번역쿼리가 분야에 맞는 결과를 반환하도록 자체 커스텀 번역 모델을 만들 수 있고 AutoML Video Intelligence을 통해 직접 정의한 라벨에 따라 동영상의 장면과 세그먼트를 분류하도록 러닝머신 모델을 학습시킬 수 있습니다. 객체 추적 역시 가능한데요, 동영상의 한 순간부터 다음 순간까지 특정 객체를 추적하도록 만들 수 있습니다. AutoML Vision으로 정의한 라벨에 따라 이미지 분류, 객체 감지 및 추출을 할 수 있도록 자체 커스텀 머신러닝 모델을 학습시킬 수 있습니다. 


이 서비스는 다음과 같은 워크 플로를 보이는데요.


데이터 준비 – 학습 – 평가 – 배포 및 예측입니다.


데이터 준비를 할 때는 다음과 같은 점들을 고려해야 합니다.  


달성하려는 결과가 무엇인가요?

이 결과를 달성하기 위해 인식해야 하는 카테고리 또는 객체는 무엇인가요?

인간도 그러한 카테고리를 인식할 수 있나요? 

시스템에서 보고 분류할 데이터 유형과 범위를 가장 잘 보여주는 예시는 무엇인가요?

카테고리 혹은 라벨 당 최소 10개 이상의 데이터 


이를 고려해서 데이터를 수집합니다. 라벨이 지정된 예제를 각 카테고리에 충분히 포함시키고 예시를 균등하게 분배해야 합니다. 또한 데이터가 문제 공간의 다양성과 상이성을 포착하도록 하고 예측하려는 데이터와 유사한 데이터를 찾아 의도된 출력과 매칭을 완성하셔야 합니다.


이제 이를 통해 데이터 세트를 만들어  80%를 학습에, 10%를 검증에, 10%를 테스트에 사용합니다.  


학습 세트 : 세트데이터의 대부분은 학습 세트에 있어야 하며 이러한 데이터는 모델이 학습 중에 ‘보는’ 데이터이며 모델의 매개변수, 즉 신경망 노드 간의 연결 가중치를 학습하는 데 사용됩니다.

검증 세트 : 검증 세트는 학습 프로세스에 사용되며 이 프로세스가 반복되는 동안 검증 세트를 이용하여 검증할 때 사용합니다.

테스트 세트 : 테스트 세트는 모델이 학습을 모두 완료하면 성능을 평가할 때 사용합니다. 테스트 세트에서 측정된 모델 성능을 통해 모델이 실제 데이터에서 어떤 성능을 보일지를 상당히 가늠할 수 있습니다.


이후에는 모델 평가로 진행됩니다. 모델학습이 끝나면 성능에 대한 요약을 받는데, 다양한 기준을 통해 성능을 평가해볼 수 있습니다. 기준은 다음과 같습니다.  



모델 출력



 점수 임곗값




참양성, 참음성, 거짓양성, 거짓음성



그 외 정밀도와 재현율, 평균 정밀도 등의 기준이 있습니다.


이처럼 클라우드 AutoML은 AI 전문가의 생산성을 높이고, AI의 새로운 분야를 발전시키며, 관련 지식에 대한 정보가 적은 엔지니어가 이전까지는 상상만 했던 강력한 AI 시스템을 구축할 수 있게 도와줄 수 있는 서비스입니다.


하이프마크에서는 기업의 웹앱로그데이터의 클라우드 적재와 ETL 파이프라인 구성 그 외 클라우드 내 데이터분석 환경 구축 및 분석 시각화 서비스를 함께 제공하고 있습니다.


AWS, GCP등 클라우드 이전 매니지드서비스 및 웹앱로그데이터 태깅 적재 관련 문의사항이 있으시면 하이프마크에 문의 주세요


감사합니다. 


참조 : https://cloud.google.com/vertex-ai/docs/beginner/beginners-guide

매거진의 이전글 GCP : Compute Engine
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari