Clemens Mewald 2 월 1 일
필자는 대개 소비자 지향 제품에 ML / AI를 통합하고 출시하는 방법에 대해 쓰고 있습니다. 그러나, 필자의 일은 ML / AI 개발자 도구를 만드는 것이고, 그 중 일부는 "공개 소스(https://www.tensorflow.org/tfx/) " 입니다. 이 분야에는 심층 학습, 플랫폼, 기업, 배포, 교육, 규모, 민주화라는 모든 순열에서 태그 라인이 무작위로 추출되는 신생 기업이 급증하고 있습니다. 이들 제품은 데이터 수집 (사람에 의한 데이터 주석)에서부터 데이터 과학 워크 벤치 환경 및 호스팅 모델 배포에 이르기까지 다양합니다. 많은 신생 기업 및 투자자들과 함께 깊은 학습 개발자 도구에 관해 이야기 한 후, 나는 내 생각을 좀더 넓게 공유하는 것이 유용 할 것이라고 느꼈다.
고급 연구 : 빨간색 영역은 대부분의 연구 과학자의 편안한 영역입니다. 빠른 속도로 변경되기 때문에이 공간에서 더 높은 수준의 개발자 도구 또는 생산 준비가 된 인프라를 만드는 것은 어렵습니다. 연구원은 자신의 일을 수행하기 위해 매우 다양한 유연한 도구가 필요합니다.
필자는 일반적으로 기업을위한 심층 학습 도구의 초점 인 영역을 강조했습니다. 이 영역은 주로 상대적으로 기본적이고 잘 이해 된 방법으로 이루어져 있지만 (예 : 좋은 오래된 완전 연결된 피드 포워드 신경망) 주요 기술 회사에서 작동하는 것으로 입증 된 몇 가지 새로운 응용 프로그램으로 확장됩니다.
연구원을위한 도구를 개발하려는 신생 기업 (빨간색 영역)이 있을지도 모릅니다. 그러나 그것은 더 낳은 제품 / 비즈니스입니다.
또 다른 중요한 차이점은 ML / AI 소프트웨어 스택의 위치와 대상 사용자의 위치입니다. 그림 2는 하드웨어 (최저)에서 비즈니스 솔루션 (최상위)까지의 ML / AI 스택과 해당 사용자 / 역할의 간소화 된보기를 제공합니다.
그림 2 : 기술 스택에있는 개발자 도구의 위치.
ML / AI 개발자 도구에 관해 생각할 때 일반적으로 ML 엔지니어 나 데이터 과학자가 데이터 분석, 모델 교육, 유효성 검사, 프로덕션 (파란색으로 강조 표시)에 배포하는 데 사용되는 도구를 참조합니다.
그래프의 또 다른 세부 사항은 스택의 상위 계층에 더 많은 비즈니스 가치가 생성된다는 것입니다. 클라우드 오퍼링에서, SaaS (Software-as-a-Service)는 일반적으로 IaaS (Infrastructure-as-a-Service)보다 높은 마진을 요구할 수 있습니다. 왜냐하면 후자는 범용화 된 제품에 가까워지고 전자는 일반적인 비즈니스 요구에 특정한 솔루션을 제공하기 때문입니다 . 더 나아가 전문 서비스 또는 컨설턴트는 특정 비즈니스 요구에 맞춤형 솔루션을 제공합니다. 그러나 대부분의 기술 벤처 기업은 전문 서비스를 제공하는 사업에 뛰어 들지 못하고 있습니다.
또한 특정 컴퓨팅 플랫폼이나 하드웨어 구성을 필요로하는 도구와 같이 수직적으로 통합 된 개발자 도구를 제공하려는 시도가 있었다는 것을 언급하는 것도 가치가 있습니다. 일반적으로 이처럼 이식성이 부족하고 업스트림 및 다운 스트림 구성 요소와의 상호 운용성으로 인해 마이크로 시장, 즉 주소 지정 가능 시장은 매우 작아집니다. 아래의이 주제에 대한 자세한 내용은 "도구가 필요하지만 충분하지는 않음"섹션을 참조하십시오.
구매주기가 길다.
나는 당신이 이러한 도전에 대해 인식하고 있다고 생각하며, 최근의 깊은 학습 도구 창업과 관련이있는 측면에만 초점을 맞출 것입니다.
우리가 들어가기 전에, 내가 실패한 것이 무엇을 의미하는지 명확히 해보자 . 나는이 신생 기업들이 실용적이고 자립 가능한 기업으로 성장하지 않을 것임을 의미합니다. 그들은 여전히 자신의 재능이나 더 포괄적 인 제안을하는 대기업에 인수 될 수 있지만 독립형 기업으로는 살아남지 못할 것입니다.
또한 대부분의 벤처 기업이 실패하므로 실패를 좋은 기준 예측으로 만듭니다. 그러나 이것이 내가이 토론에 추가해야만한다면이 기사를 쓰지 않았을 것입니다. 나의 신념에 대한 이유는 다음과 같은 3 가지 주요 논점으로 요약 될 수 있습니다. 1) 모든 것이 심오한 학습이란 것은 아닙니다. 2) 기업의 필요가 더 넓고 전문적이고 좁은 도구를 다룰 수 없으며, 3) 개발자 도구를 수익 창출하기가 어렵습니다.
추론 대기 시간 : 일부 응용 프로그램에서는 추론을위한 대기 시간 요구 사항이 한 자리 수 밀리 초 미만이므로 밀리 초 단위로 많은 행렬 곱셈 만 수행 할 수 있습니다. 이러한 경우 단순한 선형 모델이 필요할 수 있습니다.
알고리즘 (및 교육 프레임 워크)의 선택은 ML / AI 개발자 워크 플로우의 한 단계에 불과합니다. 위에서 언급했듯이 제품이 심층 학습용 케이스 만 제공하는 경우 대부분의 엔터프라이즈 사용자는 이미 부족한 상태입니다. 또한 워크 플로의 한 단계 또는 몇 단계에만 초점을 맞추는 경우에도 동일한 단점이 적용됩니다. 그림 3은이 개발자 워크 플로우 전반에 걸쳐 필요한 구성 요소와 다양한 레이어에 대한 매우 단순하고 높은 수준의 개요를 보여줍니다.
그림 3 : 엔터프라이즈 애플리케이션에 ML / AI를 배포하는 데 필요한 구성 요소는 교육 프레임 워크를 훨씬 뛰어 넘습니다.
기업은 심층 학습의 응용 분야를 넘어선 더 광범위한 요구 사항을 감안할 때 또 다른 도구 집합을 채택해야하므로 기업 사용자에게 부과되는 기술적 복잡성 및 조직 복잡성을 고려해야합니다. 다음은 ML / AI 소프트웨어 스택에서 공통적으로 발생하는 몇 가지 문제입니다.
각 단계에서 부분적 솔루션 : 기업이 위의 단계 중 하나에서 부분 솔루션 만 찾으면 다양한 제품을 채택해야합니다. 가장 분명한 것은 ML 프레임 워크입니다. 일반적인 회사에서는 심층 학습, 트리 기반 모델 및 선형 모델을 학습하려는 경우 세 가지 프레임 워크를 채택해야 할 수도 있습니다. 아래의 인용문은이 공간에서 분열을 완벽하게 포착합니다.
오늘날의 데이터 엔지니어 및 데이터 과학자들은 수많은 ML 프레임 워크 ³를 포함하여 수많은 연결되지 않은 도구 [...]를 사용합니다
이식성 부족 : 관련 이슈는 이식성 의 부족입니다. 배포 환경은 기업 전체에서 매우 이기종이며, 개발자 도구가 스택에서 더 낮은 솔루션과 밀접하게 결합되면 많은 환경으로 이식 할 수 없습니다. 예를 들어, Spark에서만 실행되는 데이터 변환 제품은 Flink를 사용하는 회사에서 채택 할 수 없습니다. 마찬가지로 특정 하드웨어 가속기에 밀접하게 연결된 ML 프레임 워크 (또는 그 반대)는 널리 적용되지 않습니다.
워크 플로우의 비 호환성 : 도구의 다양성을 감안할 때 대부분은 서로 호환되지 않습니다. 커뮤니티는 ML / AI 스택 전체에 표준 형식 및 인터페이스를 수렴하지 않으므로 전체 워크 플로우에서 도구를 통합하는 것은 엄청나게 비쌉니다. 이 문제는 직렬화 형식을 모델화하기위한 데이터 형식 (일부 교육 프레임 워크는 제한적으로 지원됩니다)에 이릅니다. 위에서 언급했듯이,이 스택 내에서 부분적으로 호환되지 않는 솔루션을 구축한다는 것은 매우 소수의 기업에만 유용하며 "마이크로 시장"에서 본질적으로 운영된다는 것을 의미합니다.
워크 플로우에 따른 불연속성 : 개발자 툴은 종종 엔드 투 엔드 워크 플로우의 작은 부분에만 집중합니다. 특히 ML / AI 공간에서 관련된 다양한 역할의 수는 유기적으로이 단편화로 이어졌습니다. 데이터 엔지니어는 교육 데이터를 제공하는 데이터 파이프 라인을 작성하고 데이터 과학자는 데이터를 다운 샘플링하고 노트북 환경의 ML 프레임 워크를 사용하여 새 모델을 작성 및 테스트 한 다음 제품 / 인프라 엔지니어가이를 실제 시스템으로 변환하려고 시도합니다. 이 단계들 사이의 단절은 비효율 성과 많은 경우 생산 문제로 이어집니다.
물론 복잡한 기술 스택에서 목표로 삼은 솔루션을 제공하는 것은 그다지 나쁘지 않습니다. 그러나 개발자 워크 플로의 일부에 초점을 두는 것은 생태계가 잘 구축되어 있고 일반적인 인터페이스와 업계 표준을 준수하는 경우에만 작동합니다. ML / AI 공간에서 이러한 인터페이스와 표준이 없다는 점을 감안할 때 나머지 스택과 호환되지 않는 부분 솔루션은 소수의 사용자 만 성공할 수 있습니다.
Pay-per-use : 스택의 일부 영역에서 사용 당 비용 (pay-per-use) 가격을 낮추면 해당 오퍼링이 범용화되고 있다는 사실을 알 수 있습니다 (예 : 추론 API 또는 라벨링 서비스). ML / AI 개발자 도구가 사용중인 컴퓨팅 (IaaS)에 비해 많은 가치를 추가하지 않는 경우 가격이 0 일 수 있습니다.
ML / AI 개발자 도구의 수익 창출 전략이 아직 불분명 한 이유는 충분합니다. 위에 설명 된 문제로 인해 도구 범주에 대한 동의조차 없습니다. 많은 신생 기업은 자신의 개발자 도구로 수익을 창출 할 수없는 상황에 처해 있으며, 소프트웨어 또는 데이터 자산을 피벗하고 적용하여 특정 산업 분야의 솔루션을 제공합니다 (예 : 데이터 과학 워크 벤치 회사가 판매를 시작하기 위해 보험 업계의 리드 득점 도구).
개발자 도구를 제공하거나 솔루션을 제공하지 마십시오. "스택 및 사용자의 입장"에서 설명한 것처럼 비즈니스 가치의 대부분은 상위 수준 솔루션에서 만들어지며 위에서 설명한 일반적인 함정에 덜 노출됩니다. 즉, 귀사는 이러한 솔루션을 구축하는 데 사용할 개발자 도구에 대한 결정을 내릴 것입니다. 그러나 주요 클라우드 공급 업체 중 한 곳이이를 알아낼 수 있도록하십시오.
위에서 언급했듯이 자립형 회사를 설립하지 않는다고해서 출구가 없다는 의미는 아닙니다. 이 분야의 대부분의 벤처 기업은 여전히 자신의 재능에 따라 또는 포인트 솔루션을보다 포괄적 인 제품 제공 (주요 클라우드 공급 업체 중 가장 가능성있는 업체)으로 통합 할 수있는 회사에 의해 인수 될 것입니다. 인재 시장과 기업 M & A는 여전히이 분야의 벤처 기업에 매력적인 출구를 제공 할 정도로 강하다.
이 서면 자료가 유용하다는 사실을 알았고 귀하의 의사 결정을 안내하는 데 도움이 될 수 있기를 바랍니다. 귀하의 사업 또는 투자하려는 회사에 상관없이 결정을 내리는 데 도움이 될 수 있습니다.