제조, 농업, 헬스케어를 위한 AI 도입, 어려움, 그리고 MLOps
AI Doesn't Have to Be Too Complicated or Expensive for Your Business
최근 Andrew Ng이 HBR(Harvard Business Review)에 기고한 글. 소비자 중심의 IT업계와 달리 제조, 농업, 그리고 헬스케어 ('Legacy industry'라는 표현을 사용) 등 산업에서 는 여전히 AI가 잠재력을 발휘하지 못하고 있다고 지적.
그 이유를 3가지로 설명했는데, 실제 산업이 겪고 있는 어려움을 정확하게 짚었다는 생각.
제조업 등 산업에서의 AI 시장은 빠르게 성장하곤 있지만, 80%에 달하는 AI 프로젝트들이 여전히 PoC(Proof-of-Concept)에 머물러 있고, 예상 시장 규모가 수천 조에 ($15 Trillion) 달하는 것을 감안하면 여전히 갈 길이 멀다.
“The vast majority of valuable AI projects have yet to be imagined. And even for projects that teams are already working on, the gap that leads to deployment in production remains to be bridged — indeed, Accenture estimates that 80% to 85% of companies’ AI projects are in the proof-of-concept stage.”
결론적으로, 산업계에서 AI가 '빛을 발하지 못하고' 있는 이유는 Use cases가 다양해서 단일 AI로 문제 해결이 어렵고 각각의 문제에 적합한 솔루션이 불가피하다는 것. 이의 해결을 위해서는 AI 모델 중심 (Model-centric) 개발보다는 데이터 중심 개발 (Data-centric)이 필요하고, 데이터 중심의 방법론의 적용을 위해서는 MLOps Platform이 필요하다.
Andrew Ng이 제시한 문제점과 해결방안을 조금 더 자세히 들여다보면,
AI 도입이 힘든 3가지 이유
Small data: 기본적으로 수백억 개의 데이터를 가정하는 AI 방법론은 작동하지 않는다. 자동차 부품 불량 데이터 50개를 가지고 불량을 탐지하는 AI를 만들 수 있을까?
Customization cost: IT에서는 monolithic AI 시스템으로도 어마어마한 수준의 효용을 얻을 수 있지만 (온라인 광고만 해도 조 단위 매출 가능), 산업계 AI 적용은 수십억 짜리가 수백 개인 구조이다 보니, 개별 프로젝트를 위해 AI 팀을 꾸리고 투자하는 Economics가 나오지 않는다.
“The aggregate value of these hundreds of thousands of these projects is massive; but the economics of an individual project might not support hiring a large, dedicated AI team to build and maintain it.”
PoC to Production Gap: 무엇보다 PoC 이후 Production으로 가져가기 위해 어마어마한 Engineering이 필요함. PoC를 성공해도 배포와 유지보수가 (Deploy & Maintain) 가능한 AI 시스템 구축까지는 추가로 1~2년은 족히 걸릴 수 있다.
AI 도입을 위한 어려움, 어떻게 극복할 수 있을까?
데이터 중심 개발은 무엇인가? 기존의 모델 중심의 개발에서는 주어진 데이터를 활용하여 모델의 성능을 높이는데 초점을 맞춰왔고, 수백만 명의 유저로부터 발생하는 데이터를 활용해 이러한 방식이 성공을 거두어 왔음. 하지만, 산업계 AI Challenge는 우선적으로 'Right data'를 확보하는 것이 우선임. 데이터 중심 개발은 데이터의
“Data is food for AI, and modern AI systems need not only calories, but also high quality nutrition.”
데이터 중심 개발은 무엇보다 도메인 전문가들이 활용할 수 있는 툴을 제공하여 AI 시스템 개발에 기여할 수 있도록 할 수 있다.
MLOps: Key to Data-centric approach
MLOps는 기본적으로 데이터 수집단부터 AI system을 만들고, 배포하고, 유지하기 위한 툴을 제공한다. Andrew Ng은 MLOps를 통해 앞서 언급한 3가지 어려움을 극복 가능하다고 설명하는데, 이는 기본적으로 MLOps가 데이터 처리, 개발, 배포의 모든 Cycle을 별도의 소프트웨어 개발 없이 빠르게 시도 & 개선할 수 있는 Workflow를 제공하기 때문이다.
MLOps Platform이 갖춰진 환경이라면, PoC to Production에 소요되는 시간을 수년에서 수 주, 개월로 단축시킬 수 있다.
결론은, AI가 제조업과 같은 기존의 산업 (Legacy industry)에 가져올 가능성은 무궁무진하다. 하지만 기존 산업에서 AI 도입은 여전히 정체되어 있다.
“But because of this, the greatest untapped opportunity for AI may lie in taking it to these other industries. Just as electricity has transformed every industry, AI is on a path to do so too.”
Andrew Ng의 제언은, 기존 IT 업계에서 취했던 AI 모델 개발 위주의 보다는 데이터 중심의 개발을 시작해야 하고, 이를 위해 당장 MLOps를 도입하고, PoC 단계에서부터 데이터 관리, 배포, 그리고 AI 시스템 모니터링과 유지보수를 위한 준비를 시작하라는 것.
“For any AI project that you intend to take to production, be sure to plan the deployment process and provide MLOps tools to support it.”