brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Mar 04. 2021

인공지능을 대규모로 가속화하려면?

AWS AI/ML Innovate2021를보고

지난주에 아마존 웹 서비스에서 AI/ML Innovate 2021이라는 온라인 행사가 열렸습니다. 매년 개최되고 있는데, 올해는 코로나 영향으로 버추얼 콘퍼런스 형식으로 열렸습니다. 이미 몇 달 전 리인벤트 2020에서 새로운 AWS의 인공지능과 머신러닝의 제품과 서비스는 발표했기 때문에 오히려 저는 비즈니스 분야와 사례에 대해 알아보기로 이번에는 마음을 먹었습니다. 머신러닝 관련된 기술들은 직접 핸즈온 랩을 통해 해 볼 수 있으니 여기를 눌러 등록하면 3월 중순까지는 해 볼 수 있으니 참고하기 바랍니다.     


현재 아세안(ASEAN) 지역에서 AI/ML Head를 맡고 있는 버나드 레옹 박사가 "AI 및 ML을 대규모로 가속화하기 위한 전략(Strategies to accelerate AI and ML at scale)"라는 주제로 발표를 했습니다. 부주제로 "아이디어에서 POC로, 비즈니스 성과 달성하기(From idea to POC and achieve business outcomes)"로 B2B로 대기업에서 스타트업에 이르는 조직들이 AWS 비즈니스팀과 협력하여 대규모에 맞게 AI 및 ML을 가속화할 수 있는 방법에 대해 발표했습니다. 


생각보다 내용이 좀 길지만 인공지능 또는 머신러닝 프로젝트를 계획하고 있는 비즈니스 및 기술 리더들에게  머신 러닝을 활용하여 중요한 비즈니스 문제를 해결하는 데 도움이 될 것입니다. 린 스타트업의 최소 기능 제품(MVP, Minimum Viable Product)처럼 아이디어 개념 증명에서 시작하여 비즈니스 성과를 달성하는 데 도움을 줄 수 있습니다. 또한 기업들이 성공적인 인공지능 및 머신 러닝 전략을 계획부터 구현 및 배포까지 할 수 있도록 지원합니다. 


기업 내의 조직 문화를 형성하거나 머신 러닝 프로젝트 로드맵을 계획하거나 회사의 기술 선택에 영향을 미칠 수 있습니다. 여러 성공적인 머신 러닝 프로젝트를 동시에 실행할 수 있는 조직을 구축하는 것과 관련된 원칙과 주요 전략도 얻을 수 있습니다. 그렇다면, 그러한 머신러닝 프로젝트를 시작하기 위해 취할 수 있는 몇 가지 실무적인 단계와 함께 규모에 맞게 달성할 수 있는 비즈니스 문제를 해결하기 위한 여정을 떠나볼까요? 


규모에 맞게 머신 러닝 스킬을 갖추려면?  


머신 러닝 스킬(MLS)을 달성하는 것은 두 가지 중요한 그룹이 모두 달성할 수 있도록 하는 것입니다. 여기서 두 가지 그룹이란 머신러닝 빌더들과 비즈니스 이해관계자들과 클라우드 IT 서비스 그룹입니다. 먼저 높은 수준에서 데이터 과학자와 비즈니스 이해 관계자들이 머신 러닝 도구와  프로세스를 통해 민첩성을 유지할 수 있도록 지원하는 것입니다. AWS의 속도와 민첩성으로 혁신을 하기 위해서는 셀프서비스 액세스 할 수 있어야 하며,  빨리 실험하고 변화에 신속히 대응할 수 있어야 합니다. 또한 클라우드 IT 서비스 그룹은 동시에 높은 수준의 거버넌스, 보안 및 운영 준비를 보장하는 데 필요한 클라우드 IT 구성원을 지원합니다.


[그림 1 - 규모에 맞는 머신러닝 스킬에 대하여]


두 그룹 모두 중요한 고객 요구사항들을 가지고 있지만 때로는 한 그룹이 다른 그룹과 협력할 수 있습니다. 물론 현실은 두 그룹들 중 최고들로만 구성하여 첫 번째 프로젝트를 넘어 두 번, 심지어 첫 번째 팀이나 두 번을 넘어서 성숙해가는 조직들이 여러 그룹에서 여러 프로젝트를 수행할 수 있도록 지원합니다. 대규모 조직 내에서 이를 바로 실현하는 것은 단순한 데이터 과학의 계획뿐만 아니라 그 이상 성공적인 머신 러닝 전략을 구현하려면 경영진 및 이해관계자 조정이 필요합니다. 이를 위해서는 보안 및 규정 준수에 초점을 맞춘 여러 업무 팀을 구성해야 하는데, 머신 러닝 모델의 라이프사이클 개발에는 높은 수준의 실험과 발견을 요구하는 측면이 있습니다.


머신 러닝 모델을 제작, 훈련 및 배포를 하나로?  


사실 아마존 웹 서비스에서 딱 하나만 머신 러닝 도구로서 사용하라고 한다면, 바로 아마존 세이지 메이커 일 것입니다. 이 아마존 세이지 메이커는 모든 개발자들과 데이터 과학자들에게 쉽게 쓸 수 있도록 머신 러닝 모델을 제작, 훈련 및 배포를 하나로 지원하는 완전 관리형 서비스입니다. 


[그림 2 - 모델 제작, 생성 및 배포를 할 수 있는 아마존 세이지 메이커] 


그리고 세이지 메이커는 머신 러닝 프로세스 및 인프라 관리의 각 단계에서 무거운 리프팅 작업을 제거합니다. 고품질의 인공지능 모델을 쉽게 개발하고 구현할 수 있도록 지원합니다. 기존의 머신 러닝은 전체 머신 러닝의 워크플로우를 위한 통합 도구가 없기 때문에 훨씬 더 어렵고 복잡했고 비용이 많이 들었습니다. 이에 세이지 메이커 팀들은 시간이 많이 걸리고 오류가 발생하기 쉬운 자체 툴과 워크플로우를 연결했습니다. 또한 머신 러닝에 사용되는 모든 구성 요소를 단일 도구 세트에 제공함으로써 이러한 문제를 해결합니다. 따라서 모델은 훨씬 적은 노력과 저렴한 비용으로 더 빠르게 생산에 착수할 수 있도록 도와줍니다. 


대규모 머신 러닝 프로젝트를 성공하려면? 


이미 규모에 맞게 운영하고 있는 회사의 경우, 머신러닝 성숙도 수준을 달성하려면 하나의 여정을 거쳐야 한다고 말합니다. 그러한 여정이란 7단계 주요 패턴으로서 이루어집니다. 첫째, 인간적인 요소로부터 인공지능에 대한 기업 문화를 만드는 것부터 시작합니다. 둘째, 팀에 대한 자격과 권한을 부여함으로써 최소 하나의 팀을 구성합니다. 세 번째로 실제 데이터를 현업에서 어떻게 잘 모을 수 있을까 설정하는 데이터 전략이 필요합니다. 


[그림 3 - 여러 단계를 거치는 머신러닝 여정]


넷째, 인공 지능을 통해 실험해서 결과를 얻기 위한 POC를 진행합니다. 다섯째, POC 단계부터는 개념 증명 단계뿐만 아니라 그 이후의 데이터에도 액세스 할 수 있도록 지원하는 모범 사례까지 염두에 두어야 합니다. 여섯 번째, 만일 실패하거나 하나의 작은 단위에서 성공을 하면 반복적으로 개념부터 세우고 증명하는 단계를 이루어야 합니다. 일곱 번째, 이제 규모에 맞게 더 확장해 나가서 살을 붙여 나가야 합니다. POC를 통해 성공하면 반복적으로 규모에 맞게 안정적으로 운영할 수 있습니다. 여정의 맨 끝에는 관련된 프로젝트에 대하여 평가가 이루어져야 합니다.  


어떤 사람들에게는 그 여정이 다른 사람들보다 조금 더 혼란스러워 보였을지도 모르겠지만, AWS는 1,000 여개의  고객, 기업 및 스타트업들과 함께 이를 제대로 실현한 기업으로부터 이러한 여정을 배울 수 있었습니다. 그렇다면, 성공적인 머신러닝 기업 문화를 가진 조직을 구축하는 데 필요한 몇 가지 공통적인 추세를 관찰한 내용들을 좀 더 상세히 이야기 나누고자 합니다.  


첫째, 인공지능 기업 문화 확립하라!


다른 새로운 이니셔티브와 마찬가지로 인공지능 기업 문화에 대한 성공의 기본 열쇠는 처음 시작부터 팀 규범과 기대치를 잘 설정하는 것입니다. 경영진이 조직을 위해 할 수 있는 가장 좋은 일 중 하나는 머신 러닝 팀이 달성하기를 원하는 목표에 대한 명확한 목표와 기대치를 정의하고 공유하는 것이 첫 번째입니다.  

예를 들어, 데이터 과학 팀이 예측 모델이라는 용어를 만드는 작업을 수행한다고 가정해 보겠습니다. 예측 정확도가 기존의 팀에 상당한 영향을 미칠지 고객이 사전에 파악해야 합니다. 데이터 팀이 모델을 통해 고객 데이터를 얼마나 자주 실행할 수 있으며, 머신 러닝 모델을 통해 데이터를 실행하기 위해 수집하는 데이터를 얼마나 자주 업데이트하는지 파악해야 합니다. 


[그림 4 - 인공지능 기업 문화를 확립하는 방법]

두 번째는 팀들이 회사 내의 인공지능 기업 문화가 올바른 프로젝트이고 올바른 일을 하기 있는지 성공적인 팀들을 위해 노력하고 있는지 초점을 맞추어야 합니다. 셋째, 데이터 과학자 및 머신 러닝 엔지니어가 처리하게 될 방대한 데이터셋을 통해 보안과 거버넌스를 확보해야 합니다. 이러한 데이터셋은 고객 제품, 조립 라인 등에 대한 데이터가 아닌 프로덕션 데이터 일 경향이 높습니다. 따라서 다른 프로덕션 시스템에서와 마찬가지로 데이터를 더 잘 관리하고 제어해야 하므로 보안과 거버넌스의 우선순위를 지정해야 합니다.


넷째, 개발팀에게 적극적인 투자가 반드시 있어야 합니다. 개발 팀이 필요한 기술과 도구뿐만 아니라 외부의 인공지능 전문가들에게 조언을 받아야 들어하며, 인재 채용 또한 계속해서 이루어져야 합니다. 다섯째, 훌륭한 리더들은 데이터 과학에 대해 잘 알고 있습니다. 그리고 다른 과학과 마찬가지로, 미지의 세계로 항해하는 것을 포함할지도 모릅니다. 여러분의 팀들은 이전에 결코 풀지 못했던 문제를 해결하려고 노력할지도 모릅니다. 그래서 기술적으로나 도메인상으로 관련된 새로운 기술을 배우고 발전시키는 데 시간이 주어지면 이득을 얻을 것입니다. 그러므로 협업하고 지식을 공유하는 것이 매우 중요합니다. 


여섯 번째, 유용한 머신 러닝 모델을 만드는 데 시간이 얼마나 걸릴지 아는 것은 대개 매우 어렵습니다. 이러한 프로젝트에서 일하는 데이터 과학자는 기존의 스크럼이나 폭포수 메서드와는 달리 여러분 회사의 R&D 팀원들이 시간을 할당하는 방식과 유사하게 시간을 할당할 수 있습니다. 그러므로 실험을 수용하고 개발 팀에 투자를 아끼지 말아야 합니다. 일곱 번째, 반복 가능한 MLops  실습을 구현하면, 이러한 반복적인 수동 작업을 자동화할 수 있습니다. 이를 통해 팀이 이에 집중할 수 있도록 가속화하고 비즈니스에 고유한 가치를 더할 수 있습니다. 


여덟 번째, 최고의 팀들은 그들이 무엇을 상대하고 있는지 알기 때문에 그들이 최고라는 것을 잘 알고 있습니다. 비즈니스 성과를 기준으로 결과를 측정하되 인공지능의 다양한 기능인 컴퓨터 비전, 물체 감지할 수 있는 정확도가 얼마인지, 비즈니스 매출과 매출 증가를 초래하는 제품의 개인화 엔진을 만드는 것입니다.  끝으로, 활용 사례와 관계없이 성공 여부는 측정하여 달성 시 기념하고 축하하는 자리를 마련하는 것이 좋습니다. 또한 이러한 단계별 토론의 우선순위를 지속적으로 정하고 시간이 지날수록 개선해야 합니다. 


둘째, 올바른 자격과 권한을 가진 팀을 활성화하라! 


일반적인 머신 러닝 프로젝트에는 여러 가지 다양한 역할을 결합하여 가상 팀을 구성합니다. 크게 데이터 과학 기술을 보유하고 있는 팀과 소프트웨어 엔지니어링 기술을 활용하는 팀으로 나눌 수 있습니다.  하지만 규모에 따라 일반적으로 팀이 약간 더 커집니다. 


[그림 5 - 올바른 자격과 권한을 가진 팀을 활성화시키기] 


화면에서 왼쪽부터 볼 때, 데이터 엔지니어들은 데이터 과학자에게 데이터를 소싱하고 제공할 책임이 있습니다. 데이터 엔지니어들은 프로덕션 시스템이나 프로덕션 데이터베이스에서 데이터를 추출하고 변환하여 데이터 과학자에게 강력한 데이터 처리 도구와  기능을 쉽게 사용할 수 있도록 방법을 제공합니다. 또한 운영 데이터를 신속하게 시각화할 수 있습니다. 


오른쪽으로 이동하여 중간을 보면, 데이터 과학자들은 일반적으로 데이터를 이해하는 사람으로 인식됩니다. 이들은 통찰력 또는 보이지 않는 패턴을 식별하여 비즈니스 프로세스를 개선하거나 만들기 위해 과학자가 데이터 및 강력한 컴퓨팅 환경에 액세스 하여 교육 과정을 구축하고 머신 러닝 모델을 구축해야 할 수 있습니다. 여기서 아마존 세이지 메이커와 같은 툴은 일상적인 운영을 가속화할 수 있으며, 자주 소프트웨어 엔지니어들과 함께 작업하는 데이터 과학자를 도와 다른 시스템과 애플리케이션이 머신 러닝을 통합하고 활용할 수 있습니다.


이제 아래에 있는 DevOps 엔지니어 또는 IT 관리자 편으로 가보겠습니다. 이러한 기초적으로 중요한 팀은 AWS 계정 및 환경을 구성하고, 인공지능 앱 또는 서비스에 대해 모니터링하고 로깅 기능을 갖춥니다. 또한 머신러닝 파이프라인 자동화와 같은 작업을 자동화하여 수행하며 앱이나 서비스 배포 또한 합니다.  또한 보안 엔지니어와 함께 올바른 정책 규칙 및 보고서를 작성하여 모든 팀들에게 다른 프로덕션 시스템과 동일한 보호 및 예방 조치를 통해 데이터를 처리하도록 보장할 것입니다. 


만약 여러분의 조직이 실제로 이 모든 규칙들을 가지고 있지 않다면, 프로젝트 조직은 아마존 세이지 메이커와 같은 관리형 머신 러닝 서비스를 최대한 활용할 수 있습니다. 따라서 세이지 메이커는 모델을 제작, 훈련 및 배포하는 엔드 투 엔드 프로세스를 단순화합니다. 이 팀들의 성공을 크게 도우려면, 해당 주제에 대한 도메인 전문가들과 함께 그것들을 자세히 살펴보고 지원하는 것입니다. 또한 이 다이어그램에는 없지만 프로덕트 및 프로젝트 관리자는 비즈니스 이해관계자들과 QA 등에 일반적으로 참여하게 됩니다. 전반적으로 데이터 과학 조직과 도메인 전문가 간의 긴밀한 파트너십을 통해 모델을 구축함으로써 조직의 관성 극복을 위한 출발점이 됨을 잊지 마세요! 


[그림 6 - 팀 활성화 사례로 DBS 소개]


팀 활성화 사례로 DBS를 소개했는데, AWS 딥 레이서 프로그램을 DBS는 인공 지능 및 머신 러닝 분야의 직원들을 가속화된 학습을 통해 더욱 숙련시켰습니다. 흔히 AWS 딥 레이서는 일종의 취미로 알았는 데, 조직 내의 인공지능 개발 팀의 개인 간 팀 간의 경쟁을 다지기 위해 좋은 훈련인 것 같아 개인적으로 저는 놀라웠습니다. 


AWS의 CEO인 앤디 제시는 2020년 리인벤트에서도 소개한 이 핵심 아이디어는 세계 최고의 은행으로 선정된 ASEAN DBS에 2년 연속 투자하고자 하는 인재들이 AWS 딥 레이서를 사용하여 교육을 제공한다고 말했습니다. 이를 통해 그들은 투자 제품, 서비스 및 프로세스에 걸쳐 직원들과 머신 러닝의 응용을 가속화할 수 있었고, 현재까지 AWS 서비스를 이용하며 3천 명 이상의 직원이 근무하고 있습니다. 직원들이 머신러닝 사고방식뿐만 아니라 도구와 실습도 습득하도록 보장함으로써 직원들이 DBS의 그룹 CEO를 모범적으로 이끌고 딥 레이서 강화 학습에 도전할 수 있는 개척자에서 혁신자로 조직을 다음 단계로 끌어올릴 수 있도록 보장함으로써 머신러닝 여정을 계속해 나간 좋은 사례입니다. 


셋째, 올바른 데이터 전략을 세워라! 


다음으로 여러분의 데이터 전략은 어떻게 세워야 할지에 대해 도움을 드리겠습니다. 우리의 목표를 한번 더 잘 인식하고 머신 러닝 모델을 만들고, 그 모델이 어떻게 훈련했는지를 만드는 것입니다. 인간의 두뇌가 훈련되는 것과 마찬가지로, 우리가 보거나 듣거나 맛보는 것과 같은 입력 데이터를 얻습니다. 그러고 나서, 그 물체가 무엇인지 이해하게 됩니다. 영어로 말한다면, 비행기를 "Airplane"라고 생각하죠. 왜냐하면 그것이 바로 레이블 이기 때문입니다. 이와 마찬가지로 머신 러닝 모델도 같은 방식으로 작동하기 때문입니다. 컴퓨터 알고리즘을 통해 레이블 데이터를 가져오면, 보이지 않는 새로운 것에 레이블을 붙일 수 있는 모델이 나옵니다. 훈련 데이터 및 레이블과 유사하다면 모델을 기반으로 합니다. 따라서 여러분이 다음 머신 러닝 프로젝트를 계획하는 초기 단계에 있을 때 말입니다. 


[그림 7 - 데이터 전략과 인공지능 보안 고려사항]


그러므로 현재 어떤 데이터에 액세스 할 수 있는지 생각해 보는 것이 중요합니다. 데이터 과학 팀에 쉽게 제공할 수 있는 데이터 또는 새로운 데이터 수집을 언제부터 시작했는지 여부를 확인하십시오. 지금부터 6개월 후에 데이터 과학 팀에 제공할 수 있는 것은 무엇입니까? 초기 데이터셋이 있다면 머신 러닝 문제가 많이 발생하는 것으로 분류됩니다. 훈련 세트라고 하는 것도 데이터셋을 의미합니다. 예를 들어, 부정한 트랜잭션을 탐지할 수 있는 경우 부정한 트랜잭션으로 레이블이 지정된 알려진 트랜잭션 데이터셋부터 시작해야 합니다. 고객이 플랫폼에서 이탈할지 여부를 예측할 수 있는 모델을 구축하려면 이탈 또는 유지로 분류된 고객 항목 데이터셋부터 시작해야 합니다. 또한 아마존 S3에서 호스팅 되는 데이터 레이크를 통해 이러한 모든 데이터에 쉽게 액세스하고 사용할 수 있습니다. 그러므로 이러한 데이터 전략의 원칙은 머신 러닝에 공통적입니다. 머신 러닝 모델이 프로덕션에서 효과적이려면, 프로덕션 데이터에 대해 훈련을 받아야 합니다. 그러한 훈련은 데이터 결과와 정확성을 개선하는 데 도움이 될 것입니다. 


이제 데이터 관리, 즉 데이터 보안과 관련하여 고려해야 할 몇 가지 핵심 개념에 대해 살펴보겠습니다. 이는 특히 대기업이 스타트업이나 인재 획득 프로세스를 흡수하거나 조직이 한꺼번에 채용하여 변경되는 시나리오에서 자주 발생합니다. 단지 데이터 과학자들은 프로덕션 데이터를 노트북과 데스크톱에 다운로드하고 프로젝트를 수행하지만, 때로는 프로덕션 차원에서 볼 때 데이터 거버넌스 시스템에 위험을 끼칠 수 있습니다. 그러므로 이러한 위험으로부터 안전한 해결책은 다음과 같습니다. 


첫 번째는 데이터 과학이 유형화할 수 있도록 별도의 샌드박스 환경을 설정할 수 있다는 것입니다. 이는 완전히 별개의 AWS 계정을 설정하는 것처럼 ID와 액세스 관리 사용자 및 역할이 여러 개일 수도 있습니다. 이 방법을 사용하면 프로덕션의 데이터를 데이터 과학 샌드박스 환경으로 복사하여 별도의 샌드박스 환경을 갖추는 것입니다. 또한 실수로 데이터를 파괴하거나 프로덕션 시스템을 오버 로드할 위험을 제한할 수 있습니다. 물론 잠재적인 단점도 존재하는 데 동일한 데이터를 사용하여 여러 환경을 구축한다는 것입니다. 추가적인 관리 오버헤드가 있을 수 있지만 특정 데이터 관리 태스크에 대해 작업을 수행해야 하는 경우입니다. 예를 들어, 고객의 개인 정보를 삭제하기 위해 GDPR 요청을 준수해야 할 수 있습니다. 또는 어떠한 변경이 있은 후 데이터 레코드를 업데이트해야 할 수도 있습니다. 이럴 때 여러 계정에서 데이터 일관성을 어떻게 보장합니까?  아니면 여러 계정에 걸쳐 데이터를 어떻게 제어합니까? 이러한 질문에 대하여 모든 것이 가능한 데, 단지 몇 가지 추가 조치를 취하면 가능합니다. 


두 번째 일반적인 접근 방식은 데이터 플랫폼 계정 및 서비스를 설정하는 것입니다. 여기에는 데이터 과학자에게 데이터 플랫폼에 대한 읽기 권한을 부여해야 합니다. 이 접근 방식의 이점은 데이터 거버넌스 및 데이터 일관성 문제를 단순화한다는 것입니다. 그러나 모든 역할과 권한을 올바르게 설정하지 않으면 사용자가 실수로 프로덕션에서 데이터를 삭제할 수 있습니다. 또는 예상치 못한 사용으로 인해 프로덕션 시스템에 과도한 부담을 주거나 더 많은 사용료가 부가될 수 있습니다. 


따라서 팀의 프로젝트가 성공하기 위해 필요한 모든 데이터를 하나의 데이터베이스 또는 하나의 s3 버킷에 완벽하게 저장된다면 좋을 것입니다. 특히 엔터프라이즈 기업의 경우, 데이터 과학자가 데이터에 액세스 할 수 있도록 하는 데 시간이 걸립니다. 여기에는 다양한 비즈니스 및 IT 이해 관계자가 포함됩니다. 그 데이터에 접근하기 위해서 조직의 데이터 소유권 및 거버넌스 처리 방식에 따라 세분화, 조직 및 의존성이 필요할 수도 있습니다. 그렇기 때문에 가능한 한 빨리 올바른 데이터 전략을 세우기를 시작할 것을 권장합니다.


우드사이드 사례 연구

 

데이터 전략을 잘 수립하고 머신 러닝으로 성공을 거둔 고객 사례로 우드사이드(Woodside) 회사를 예를 들었습니다. 우드사이드는 호주의 LNG 산업의 선구자이며, 호주의 가장 큰 천연가스 생산 업체입니다. 우드사이드는 글로벌 포트폴리오를 보유하고 있으며 통합 업스트림 공급업체로서 세계적인 수준의 역량을 인정받고 있습니다. 

그러나 문제는 현장 운영 자산이 혹독한 환경을 재활용한다는 것이었습니다. 해상에서의 상태 모니터링에는 고도의 기술을 갖춘 직원들이 하루에 많은 시간을 보내며 고위험 환경에서 매일 유지 관리 점검을 수행해야 한다는 것이었습니다. 우드사이드의 비전은 현장에서의 시간을 줄여 안전을 높이고 운영자가 더 많은 부가가치 비용과 시간을 달성할 수 있도록 하기 위해 사람의 인식보다 더 나은 환경을 구축하는 것입니다. 

AWS 프로페셔널 서비스 팀이 우드사이드에서 3D 디지털 트윈을 구축하여 운영자가 애플리케이션 동기화 및 람다와 같은 AWS 서비스를 원격으로 수행하여 사용 가능한 모든 데이터를 가져올 수 있게 했습니다. 이것은 AWS IoT 코어에 대한 새로운 IoT 센서의 데이터 이미지, 오디오, 진동, 온도와 함께 증강됩니다. 아마존 세이지 메이커는 머신 러닝 모델을 신속하게 훈련하고 개발하는 데 사용됩니다. 원격으로 일상 작업을 수행할 수 있는 이점이며, 고위험 환경에서 현장에 있을 때보다 안전성을 높일 뿐만 아니라 부가가치 활동에 집중할 수 있도록 합니다. 자산의 상태 모니터링을 줄이고 늘림으로써 생산 중단이 발생하는 데, 이것을 서버리스 설루션을 구축하여 자산이 있는 한 동적으로 확장 있게 도와줍니다. 


넷째, 인공지능 개념을 증명하라!(Proof of Concept)


말 그대로 기존 시장에 없었던 인공지능 및 머신러닝을 도입 및 검증하기 위해 POC를 도입할 때 평가 고려 사항은 다음과 같습니다.  


[그림 8 - 인공지능 POC 시 고려해야 할 질문사항]


첫째, 관련 없는 일반적인 데이터 과학 프로젝트부터 시작하는 대신 구체적으로 질문부터 시작하는 것이 좋습니다. 예를 들어, 이 머신러닝 워크로드가 해결하려는 비즈니스 과제는 무엇입니까? 이 솔루션이 창출하는 비즈니스 가치는 무엇입니까? 비즈니스에 어떤 영향을 미치려고 합니까?


둘째, 누가 이 솔루션을 어떻게 사용합니까? 효율성 향상을 위해 비즈니스 메커니즘을 자동화할 수 있습니다. 또는 현재 존재하지 않는 애플리케이션인 사용자를 위한 새로운 기능을 만들 수 있습니다. 어느 쪽이든 그 문제를 정의하는 것부터 시작하는 것이 좋습니다. 


셋째, 현재 이 문제를 얼마나 잘 해결하고 있습니까? 오늘날 문제를 얼마나 잘 해결할 수 있는지에 대한 기준을 만들고, 머신 러닝을 통해 얻고자 하는 이점을 목표로 정합니다. 이러한 규칙에 대해 생각해 볼 수 있는 또 다른 방법은, 이 단계에서 계획해야 할 다른 중요한 성공 기준에 필요한 최소한의 비즈니스 가치나 개선사항이 무엇이냐는 것입니다.


넷째, 어떤 모델을 수행해야 합니까? 그리고 일단 여러분의 모델이 좋으면, 여러분은 얼마나 빨리 예측을 할 필요가 있습니까? 여러분의 입력 데이터를 넣을 때마다 이러한 질문에 대한 답변은 프로젝트의 성공 여부에 큰 영향을 미칠 수 있습니다.  


다섯째 던질 질문들은, 솔루션의 성공 여부를 측정하기 위해 어떤 메트릭을 사용할 것입니까? 또는 예측 정확도와 성능 간에 어떤 절충안을 만들 의향이 있습니까?입니다. 그리고 여섯째, 핵심 팀과 프로세스를 구축했습니까? 여러분의 회사에 일반적인 팀 구성이 어떻게 구성하는지에 대해 물어봐야 합니다. 


그리고 일곱 번째 성공적인 조직에서는 올바른 데이터가 있는지, 이미 레이블이 지정되어 있는지 아니면 레이블을 지정할 수 있는지에 대해 잘 갖추고 있습니다. POC을 위해 일반적으로 첫 번째 프로젝트에 대해 한 번만 수동으로 끌어 모아집니다. 또한 프로덕션 시스템에 모델을 내장하는 데 많은 시간을 들이는 대신 수동으로 생성한 모델을 활용할 것이 효율적입니다. 


여기서 마지막으로 강조하고 싶은 것은 이 프로젝트는 미리 정해진 일정과 예산 내에서 완료할 수 있습니까? 기업이 처음부터 끝까지 POC를 완료하는 데 보통 2개월에서 6개월 정도 걸립니다. POC가 얼마나 오래 지속하는가에 대해 엄격한 규칙은 없지만, 데이터를 준비하고 레이블을 붙일 경우, 팀이 실제로 구성되었는지 여부 및 보안 및 거버넌스 정책이 적용되는지에 따라 회사마다 또는 프로젝트별로 다를 수 있습니다. 그리고 POC가 무한정 시간이 있지는 않습니다. 만약 그들이 6개월 이상 걸리거나 예산이 빠져나가는 것을 발견한다면, 목표가 너무 공격적인지 물어볼 필요가 있습니다. 그리고 적절한 인력, 데이터, 기술 및 프로세스가 있는지도 점검할 필요가 있습니다. 


다섯째, 응용 AI POC 박스 프로그램을 이용하라!

 

박스 프로그램에는 3가지 응용 인공지능 서비스들이 있습니다. Amazon Personalize, Amazon Forecast, Amazon Fraud Detector를 사용하여 이틀 이내에 인공지능 작업을 수행할 수 있도록 도와주는 POC가 있습니다. 이러한 박스 프로그램을 응용하여 실행하기 위해서는 크게 고객은 4단계 프로세스를 거칩니다.


첫째, 인공지능 서비스의 성공을 위해 정의된 메트릭의 문제를 파악합니다. 예를 들어, Amazon Personalize에서는 고객 클릭률과 변환 속도가 있고, Fraud Detector의 호출 메트릭이 있습니다.

둘째, 내부의 주요한 고객들을 참여시킵니다. 경영진 스폰서를 식별하고 프로젝트 범위 및 데이터 확인을 위한 이해 관계자를 조정하는 Immersion Day를 개최합니다. 

셋째, POC는 반나절 교육과 기본 체격으로 시작하고 반나절은 맞춤형 구축 및 평가 결과로 시작합니다. 마지막으로 POC가 성공적이면 마무리하고 프로덕션으로 전환합니다. 

넷째, 응용 AI POC 박스에서 AWS와 함께 일하는 방법은 다양합니다. 당사의 머신 러닝 전문가를 사용하여 AWS의 기술 팀, 파트너 또는 프로페셔널 서비스 팀과 협력할 수 있습니다.


[그림 9 - 응용 AI POC 프로그램 단계]


자, 그렇다면 포멜로 연구 사례를 들어 보겠습니다. 포멜로(PoMoLo)는 동남아시아의 디지털 토종 수직 브랜드로, 인터넷에서 태어나 디자인과 기술 등 사내에서 모든 것을 섞었다는 뜻입니다. 이 회사의 설계자와 구매자는 트렌드 예측 도구, 연구 중심 도구 및 과거 구매 데이터를 통해 수백만 명의 고객이 무엇인지 깊이 연구했습니다. 

맞춤형 박스 캠페인을 통해 매주 100회 이상 신규로 고객이 들어오고 있는데, 파멜로는 좀 더 크고 더 자동화된 규모로 훨씬 더 빠른 속도로 작동할 수 있습니다. Amazon Personalize와 같이 개인화된 기능은 사용자의 선호도, 예산, 쇼핑 빈도 및 스타일에 대해 수집된 데이터에 따라 각 사용자에게 완전히 다른 웹 사이트 정렬을 보여줍니다.

2020년 11월 현재 프로덕트 뷰의 60%는 Amazon Personalize 때문입니다. 포멜로는 카테고리 페이지에서 제품 페이지까지의 클릭률을 최대 15%까지, 카테고리 페이지에서 제품 페이지 간 클릭률을 최대 18%까지, 카테고리 페이지에서 카트 추가 클릭 수를 최대 16%까지 늘렸습니다. 이러한 확장을 통해 회사는 증가된 총매출에서 8%의 이익을 실현할 수 있습니다. 


국내 기업으로 잘 알려진 롯데마트 사례에 대해 하나 더 알아보도록 하겠습니다. 롯데마트는 다양한 식료품, 의류, 장난감, 전자제품을 판매하는 한국의 슈퍼마켓임을 누구보다도 한국 분들이라면 잘 아실 겁니다. 기타 상품들은 한국, 인도네시아, 베트남의 189개 고속도로 상점에 걸쳐 60만 명 이상의 일일 쇼핑객들에게 제공되었고, 2019년에는 51억 달러의 매출을 올렸습니다. 

롯데마트와 같은 경우에는 모바일 전용 쿠폰 시스템 M쿠폰을 활용해 고객이 적금을 홍보해 쇼핑을 유도하고 있습니다. 롯데마트가 인수한 하이마트 고객은 방문당 평균 50~200달러를 지출하기 때문에 고객의 방문 빈도는 롯데마트의 영업 실적에 직접적인 영향을 미칩니다. 이들은 Amazon Personalize를 사용하여 빈번한 고객들에게 맞춤화된 권장 사항을 제공하고, 참여를 높이고, 신제품 구매율을 높이며, 궁극적으로는 고객 충성도를 더욱 높일 수 있습니다. 

개인화된 제품을 사용하여 신제품 구매 빈도가 이전의 통계 접근 방식에 비해 1.7배 더 크게 향상되었습니다. 이 증가율은 롯데마트가 그의 고객들에게 숨겨진 구매 욕구를 성공적으로 발견하고 있음을 나타냅니다.

그 결과, 개인화된 쿠폰을 사용한 KPI의 개선은 한 달 동안의 매출 잠식에 상당한 영향을 미쳤습니다.


여섯째, 반복되는 데이터 처리 단계들을 자동화를 구축하라! 


이제 POC를 완료하고 기능적으로 유용한 모델을 확보했으므로 자동화 도입에 대해 생각해 볼 때가 되었습니다. 자동화 기술은 팀 간의 수동적으로 처리할 반복적인 단계를 제거할 수 있습니다. 다시 말해, 정기적으로 추론과 예측을 수행해야 하는 사용 사례에서는 데이터 엔지니어링 단계를 자동화할 수 있습니다. 

성공적인 반복 가능한 파이프라인을 구축하기 위한 핵심은 먼저 머신러닝 인프라를 코드로 처리하는 것입니다. AWS Step Function과 AWS CloudFormation 템플릿을 활용하여 파이프라인을 코드로 정의합니다.  이렇게 하면 중요한 이벤트를 기반으로 전체 엔드 투 엔드 파이프라인을 실행할 수 있습니다. 미리 결정된 스케줄이든 아니던가 데이터 레이크로 들어오는 새로운 데이터셋이 실행됩니다. 또는 모니터가 모델이 더 이상 정확성 SLA를 충족하지 못하고 있음을 확인할 수 있습니다. 일반적인 파이프라인에는 [그림 10]의 다이어그램에서 보듯이 11개 단계가 표시될 수 있습니다. 


[그림 10 - 반복되는 데이터 처리 단계 자동화]

그런 다음 마지막 단계로 MLOps 및 CI/CD(지속적인 통합 및 지속적인 배포)를 통해 모델 훈련하는 작업 및 배포에 대한 완전한 추적 및 계통 추적을 수행할 수 있습니다. 또한 AWS step function, Data Science SDK 및 CloudFormation과 같은 도구를 통해 이러한 단계를 정의, 실행 및 추적할 수 있습니다. 이러한 오케스트레이션 시스템을 세이지 메이커와 여러 가지 방법으로 통합합니다. 예를 들어, 아마존 세이지 메이커 및 아마존 세이지 메이커 모델 모니터를 사용하여 운영 및 모델 성능 문제를 해결할 수 있습니다.


일곱 번째, 프로젝트 팀을 규모에 맞게 확장하라! 


먼저, 머신러닝 프로젝트 팀에서 일반적으로 볼 수 있는 역할과 특별히 주어지는 각 역할이 담당하는 책임을 요약해 보겠습니다. 프로덕트 또는 프로그램 관리자가 추가로 포함될 수도 있습니다. 국내 일종의 당직 같은 업무로 주로 온-콜(on-call)이라고 고객의 어떤 문제나 전문적인 요청을 했을 때 대응하는 팀을 말하는 데, 이러한 콜 팀에는 종종 적 데이터 엔지니어 데이터 과학자 소프트웨어 엔지니어 DevOps 엔지니어 및 보안 엔지니어가 포함됩니다. 이들 모두 공통적인 특징으로 도메인 전문가들입니다. 

이제 첫 번째 프로젝트 이상으로 확장할 준비가 되었을 때 또는 여러 팀이 여러 프로젝트를 수행할 준비가 되었을 때 조직화된 결정이 무엇을 하는지에 대해 이야기해 보겠습니다. 규모를 확장함에 따라 모든 머신 러닝 팀에 대한 기본 지원을 제공하는 머신 러닝 센터(Machine Learning Center of Excellence)를 구축할 것을 권장합니다. 


[그림 11 - 규모에 맞게 프로젝트 팀 확장을 위한 COE]


또한 COE는 다양한 방법으로 많은 도움을 제공할 수 있습니다. 수많은 COE 멤버들이 표준 도구 및 프로세스를 구현하도록 지원합니다. 이들은 다양한 제품 및 비즈니스 그룹과 협력하여 프로젝트가 목표와 기대치를 충족하도록 보장할 수 있습니다. 바라건대, 공통 데이터 액세스 플랫폼을 구축하여 팀원이 어떤 데이터 저장소에 액세스 할 수 있는지 감독할 수 있기를 바랍니다. 여러분의 COE는 여러분의 배포 팀의 일원이기도 한 여러 명의 업무 그룹이 될 것을 권장합니다. 

여러분의 COE가 여러분 팀에서 작업 중인 프로젝트 유형의 현실에서 너무 멀리 떨어져 있는 것을 원치 않을 것입니다. 기업들이 이를 해결하기 위해 취하는 전략 중 하나는 COE 구성원을 프로젝트 팀과 CEO 간에 1, 2분기마다 순환시키는 것입니다. 또 다른 하나는 개별 프로젝트와 다른 두 개의 COE 경로에 대해 담당자와 시간을 할애하는 것입니다. 어느 쪽이든, 여러분은 단계에 접근합니다. 여기서 가장 중요한 권장사항은 머신 러닝 연구 리서치 구성원들이 프로젝트에 계속 참여하도록 하는 것입니다. 그렇지 않으면 그 팀들의 현실과 동떨어질 수도 있으니 유념해 주시기 바랍니다. 


[그림 12 - 규모에 맞게 프로젝트 팀 확장을 위한 COE]


자! 그렇다면 프레쉬웍스(Freshworks)사의 연구 사례를 들여다봅시다. 머신 러닝 기술을 규모에 맞게 제공하는 인도 고객의 또 다른 사례를 사용해 보겠습니다. 프레쉬웍스는 소프트웨어 지원 요구를 충족시키기 위해 전 세계 중소기업을 대상으로 하는 첸나이 기반 B2B 스타트업 유니콘입니다. 주력 제품인 프레디(Freddy)의 경우 세이지 메이커를 기반으로 고객 지원 티켓 해상도 및 라우팅 모델을 구축하여 모든 고객의 티켓 해상도 시간을 단축할 수 있었습니다. 이 AI에 기반을 둔 프레디(Freddy)는 그들이 더 많은 미드 마켓 고객을 유치하고, 아타리(Artai) 솔루션의 상태로 그들을 즐겁게 하는 데 도움을 주었습니다. 프레쉬웍스사는 세이지 메이커에서 일만 천명의 고객을 위해 3만 개의 모델을 구축했으며 이러한 모델의 후년 시간은 33분으로 단축되었습니다. 참고로 이전에는 기존 오픈 소스 기반의 백엔드 시스템으로 24시간 이상 소요되었다고 합니다. 


이제 거의 다 와가는 프로젝트 여정 


여정의 끝을 말하기 전에 한 가지 원칙을 더 풀고자 합니다. 그리고 그 원리는 현실에서 이 단계가 선형처럼 하나의 단계로 이루어지는 단계보다 훨씬 더 반복적으로 보인다는 것입니다. 그래서 [그림 13]에서 보듯이 서클 다이아그램으로 표현했습니다. 조직은 실험과 반복 기반 개발을 수용함으로써 시간이 지남에 따라 점차 진화합니다. 이것이 바로 프로젝트 팀의 튼튼한 근육을 생기고 하나의 기업 문화로 정착할 수 있는 계기가 될 수 있습니다. 


[그림 13 - 반복적인 대규모 인공지능 프로젝트 여정]


또한 자연적으로 실험적인 것을 돕지만, 실험적인 것이 무작위적으로 것을 의미하는 것은 아닙니다. 따라서 AWS가 제안한 기술들은 3가지 정도 들 수 있을 것 같습니다. 첫째, 몇몇 최고의 조직들은 의도적으로 접근하여 실험을 할 것입니다. 데이터 과학자가 필요에 따라 프로덕션에 안전하게 배포할 수 있습니다. 둘째, 모델을 실제 AB 테스트를 활용하는 방식으로 프로덕션에 배치할 수 있는 능력을 가지고 새 모델이 프로덕션 시에만 영향을 미치는 방식으로 어떻게 작동하는지 테스트할 수 있습니다. 셋째, 새도우 배포(shadow deployments)를 활용하는 것입니다. 프로덕션 단계에서 응용 프로그램이 두 모델에 대한 요청을 할 때 거기서 사용자에게 표시할 수 있습니다. 나중에 데이터를 분석할 수 있도록 새도우 모델의 결과를 데이터 저장소 내부에 동시에 저장하는 동안 아직 검증되지 않은 모델의 결과입니다. 그러므로 Amazon Sage Maker와 Amazon API Gateway는 팀이 이러한 패턴 중 하나를 쉽게 시작할 수 있도록 도와줍니다. 


다른 도구를 사용하더라도 기술은 여전히 매우 가변적입니다. 진화는 의도적인 것이어야 합니다. 진화는 고통스러울 수 있습니다. 마치 프로젝트를 완성하고, 다음 프로젝트에서 팀이 더 잘할 수 있는 것이 무엇인지를 생각하기 위해 회고와 포스트모텀을 수행하는 것처럼 보입니다. 새로운 데이터 기능과 알고리즘을 사용하여 새로운 모델을 만들어 비즈니스를 최적화하는 방법을 지속적으로 모색하는 실험을 하는 것처럼 보입니다. 팀원들이 최신 관리 서비스 및 도구에 대한 탐색 시간을 지속적으로 할당하여 생산성과 효율성을 높일 수 있도록 지원합니다. 


규모별 머신 러닝 달성을 위한 모범 사례는 무엇인가?


최종적으로 규모에 맞게 머신 러닝 달성을 위한 모범 사례는 무엇인가? 이 아이디어에 대해 팀 지도자들을 권장합니다. AWS가 세계에서 가장 성공적인 머신러닝 조직이 가장 적절한 모범 사례를 공유하고자 합니다. 많은 정보를 신속하게 처리했지만, 이 모든 것을 구현하는 데는 훨씬 더 오랜 시간이 걸립니다. 이것이 바로 우리가 이것을 여정으로 재분류한 이유입니다. 평균 POC는 2~6개월이 걸릴 것입니다. 기본 기술이 구축되면 단일 엔지니어링 팀을 구성하는 아키텍처의 복잡성에 따라 파이프라인 생성과 수동이었던 모든 운영 작업에 약간의 시간이 걸릴 수 있기 때문입니다. 

완료까지 여러 팀, 여러 프로젝트와 함께 규모에 맞는 운영을 시작하고 우수성을 한 단계 끌어올릴 수 있습니다. 그러면 여러분은 세계 최고의 머신 러닝 조직으로 다년간의 새로운 여정을 새롭게 다시 떠날 수 있습니다. 다시 말해, 인공지능을 대규모에 맞게 성공적으로 확장할 수 있습니다. 


[그림 14 - 대규모 인공지능 프로젝트를 가속화하기 위한 베스트 프랙티스 리스트]


AWS AI/ML Innovate 2021 웹사이트: https://aws.amazon.com/ko/events/aws-innovate/machine-learning/?nc1=h_ls


매거진의 이전글 차세대 인공지능 - 제2편

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari