brunch

You can make anything
by writing

C.S.Lewis

by 라인하트 Sep 20. 2020

머신 러닝으로 승리하는 법 (2/2)

   죠슈아 건즈 (Joshua Gans), 어제이 애그러월 (Ajay Agrawal), 아비 골드파브( Avi Goldfarb)는 2020년 9월 하버드 비즈니스 리뷰에 '머신러닝으로 이기는 법(How to Win with Machine Learning)'을 개제하였습니다. 그들은 토론토 로드먼경영대학원의 교수입니다. 


    거의 모든 산업에서 머신러닝을 사용합니다. 머신러닝으로 업계의 판도를 바꾸는 선두 기업들에 의해 만들어진 진입장벽은 무엇이고, 후발 진입 기업들이 취할 수 있는 전략은 무엇인지를 설명합니다. 


Building Competitive Advantage in Prediction

예측에 경쟁 우위 구축하기


   In many ways, building a sustainable business in machine learning is much like building a sustainable business in any industry. You have to come in with a sellable product, carve out a defensible early position, and make it harder for anyone to come in behind you. Whether you can do that depends on your answers to three questions:


  많은 경우에, 머신러닝에서 지속 가능한 비즈니스를 구축하는 것은 다른 모든 산업에서 지속 가능한 비즈니스를 구축하는 것과 많이 비슷합니다. 잘 팔리는 제품이 있어야 하고, 방어 가능한 선제적인 입지를 확보해야 하고, 후발 주자들이 쫒아오기 어렵게 만들어야 합니다. 그렇게 할 수 있는지 없는지는 3개의 질문에 대한 답변에 달려 있습니다. 


1. Do you have enough training data?  훈련용 데이터는 충분한가요?


   At the get-go, a prediction machine needs to generate predictions that are good enough to be commercially viable. The definition of “good enough” might be set by regulation (for example, an AI for making medical diagnoses must meet government standards), usability (a chatbot has to work smoothly enough for callers to respond to the machine rather than wait to speak to a human in the call center), or competition (a company seeking to enter the internet search market needs a certain level of predictive accuracy to compete with Google). One barrier to entry, therefore, is the amount of time and effort involved in creating or accessing sufficient training data to make good-enough predictions.


   시작 단계에서, 예측 기계는 상업적으로 성공할 수 있는 수준의 예측을 해야 합니다. '상업적으로 성공할 수 있는 수준'의 정의는 비즈니스 상황에 따라 다릅니다. 예를 들면, 규정 준수, 의료 진단을 하는 AI는 정부 기준을 충족해야 합니다. 활용성, 발신자가 콜 센터의 상담원에 이야기하기 위해 기다리는 것보다 기계에게 응답하는 것이 충분히 원활하게 작동해야 합니다. 경쟁력, 인터넷 검색 시장에 진입하려는 기업은 구글과 경쟁하기 위해 예측 정확성의 수준이 높아야 합니다. 그러므로 충분히 성공할 수 있는 예측을 위한 진입 장벽은 충분한 훈련용 데이터를 생성하거나 접근하는 데 필요한 시간과 노력입니다.     


   This barrier can be high. Take the case of radiology, where a prediction machine needs to be measurably better than highly skilled humans in order to be trusted with people’s lives. That suggests that the first company to build a generally applicable AI for radiology (one that can read any scanned image) will have little competition at first because so much data is needed for success. But the initial advantage may be short-lived if the market is growing rapidly, because in a fast-growing market the payoff from having access to the training data will probably be large enough to attract multiple big companies with deep pockets.


   이 장벽은 높을 수 있습니다. 방사선 검사의 경우를 고려해보면, 예측 기계가 사람의 생명을 맡길 수 있는 수준의 신뢰를 얻기 위해서는 숙련된 의사보다 더 높은 정확도가 필요합니다. 스캔된 이미지를 읽을 수 있는 방사선 검사를 위해 스캔된 이미지를 읽을 수 있는 AI를 최초로 개발한 기업은 처음에 경쟁이 거의 없을 것입니다. 왜냐하면 성공을 위해 너무 많은 데이터가 필요하기 때문입니다. 그러나, 시장이 빠르게 성장한다면 초기 우위는 오래가지 못할 것입니다. 왜냐하면, 빠르게 성장하는 시장에서는 훈련용 데이터를 구축하는 것에 대한 보상이 크기 때문에 풍부한 자본을 다수의 가진 거대 기업들이 진입할 것이기 때문입니다. 


   This, of course, means that training-data entry requirements are subject to the economics of scale, like so much else. High-growth markets attract investments, and over time this raises the threshold for the next new entrant (and forces everyone already in the sector to spend more on developing or marketing their products). Thus the more data you can train your machines on, the bigger the hurdle for anyone coming after you, which brings us to the second question.


   물론, 이것은 훈련용 데이터를 확보하는 것은 규모의 경제가 성립된다는 것을 의미합니다. 고성장 시장에 투자가 몰리고, 시간이 지나면 이것이  다음 진입 기업에 대한 진입 장벽을 높입니다. 또한, 이미 시장에 진출한 기업들은 제품 개발 및 마케팅에 더 많은 돈을 투자해야만 합니다. AI 기계를 훈련시킬 데이터가 많을수록 후발 주자들에 대한 진입 장벽은 더 높아집니다. 이 것이 두 번째 질문으로 이끕니다. 


  

2. How fast are your feedback loops? 피드백 루프는 얼마나 빠른가요?


   Prediction machines exploit what has traditionally been the human advantage—they learn. If they can incorporate feedback data, then they can learn from outcomes and improve the quality of the next prediction.


   예측 기계는 인간이 배우는 것처럼 학습할 수 있습니다. 예측 기계는 피드백 데이터를 배울 수 있다면, 결과를 학습하고 다음 예측의 정확성을 개선할 수 있습니다. 


   The extent of this advantage, however, depends on the time it takes to get feedback. With a radiology scan, if an autopsy is required to assess whether a machine-learning algorithm correctly predicted cancer, then feedback will be slow, and although a company may have an early lead in collecting and reading scans, it will be limited in its ability to learn and thus sustain its lead. By contrast, if feedback data can be generated quickly after obtaining the prediction, then an early lead will translate into a sustained competitive advantage, because the minimum efficient scale will soon be out of the reach of even the biggest companies.


   그러나, 이런 이점은 피드백을 얻는 데 걸리는 시간에 달려 있습니다. 방사선 스캔의 경우에 시신 부검이 머신 러닝 알고리즘이 올바르게 암을 예측했는지 아닌지를 평가한다면, 피드백은 매우 느릴 것입니다. 비록 어떤 기업이 스캔 정보를 수집하고 해석하는 데 초기 우위를 가졌다러도 지속적인 우위를  유지하는 것은 제한됩니다. 이와 반대로 예측 후 피드백 데이터가 신속하게 생성된다면, 초기 우위가 지속적인 경쟁우위로 유지될 수 있습니다.  아무리 대기업이라도 선발주자의 최소한의 효율을 따라잡기 어렵기 때문입니다.   


   When Microsoft launched the Bing search engine in 2009, it had the company’s full backing. Microsoft invested billions of dollars in it. Yet more than a decade later, Bing’s market share remains far below Google’s, in both search volume and search advertising revenue. One reason Bing found it hard to catch up was the feedback loop. In search, the time between the prediction (offering up a page with several suggested links in response to a query) and the feedback (the user’s clicking on one of the links) is short—usually seconds. In other words, the feedback loop is fast and powerful.


   마이크로소프트가 2009년 빙 검색엔진을 출시했을 때, 회사의 전폭적인 지원을 받았습니다. 마이크로소프트는 수백억 달러를 투자했습니다. 그러나 10년이 지난 지금 빙의 시장 점유율은 검색량과 광고수익 모두에서 구글에 훨씬 못 미칩니다. 빙이 구글을 따라잡지 못한 이유는 피드백 루프 때문입니다. 검색에서 예측은 질문의 응답으로 여러 링크를 가진 페이지를 제공하는 것이고, 피드백은 사용자가 제안받은 링크 중에 하나를 클릭하는 것입니다. 예측과 피드백이 걸리는 시간이 매우 짧은 몇 초입니다. 다시 말해서, 피드백 루프는 빠르고 강력합니다. 


   By the time Bing entered the market, Google had already been operating an AI-based search engine for a decade or more, helping millions of users and performing billions of searches daily. Every time a user made a query, Google provided its prediction of the most relevant links, and then the user selected the best of those links, enabling Google to update its prediction model. That allowed for constant learning in light of a constantly expanding search space. With so much training data based on so many users, Google could identify new events and new trends more quickly than Bing could. In the end, the fast feedback loop, combined with other factors—Google’s continued investment in massive data-processing facilities, and the real or perceived costs to customers of switching to another engine—meant that Bing always lagged. Other search engines that tried to compete with Google and Bing never even got started.


   빙이 시장에 진입했을 때, 구글은 10년 이상 이미 AI 기반 검색 엔진을 운영 중이었고, 매일 수백만명의 사용자에게 수십억 건의 검색을 제공하고 있었습니다. 사용자가 질문을 생성할 때마다 구글은 가장 관련도가 높은 링크들을 예측하였고, 사용자는 가장 좋은 링크를 선택하고, 구글은 예측 모델에 업데이트합니다. 지속적인 검색이 이루어지면서 지속적인 학습이 가능합니다. 방대한 사용자에 기반한 방대한 훈련용 데이터로, 구글은 새로운 이벤트와 새로운 트렌드를 빙이 할 수 있는 것보다 더 빨리 발견했습니다. 결국, 빠른 피드백 루프와 다른 몇 가지 요인이 결합하여 빙은 구글을 따라잡지 못했습니다. 다른 요인은 구글이 방대한 데이터 처리 시설에 지속적으로 투자하는 것과 고객이 다른 검색엔진으로 전환하는 실제 비용과 인지하는 비용 등입니다. 다른 검색 엔진들은 구글과 빙과 경쟁을 시작조차 하지 못했습니다.



3. How good are your predictions? 예측은 얼마나 정확한가?


   The success of any product ultimately depends on what you get for what you pay. If consumers are offered two similar products at the same price, they will generally choose the one they perceive to be of higher quality. 


   제품의 성공은 궁극적으로 사용자가 지불한 금액에 대해 얼마나 만족했는 지로 결정됩니다. 만일 소비자가 두 개의 비슷한 제품에 같은 가격이 제시받았다면, 소비자들은 일반적으로 더 높은 품질을 제공한다고 인식하는 제품을 선택합니다. 


   Prediction quality, as we’ve already noted, is often easy to assess. In radiology, search, advertising, and many other contexts, companies can design AIs with a clear, single metric for quality: accuracy. As in other industries, the highest-quality products benefit from higher demand. AI-based products are different from others, however, because for most other products, better quality costs more, and sellers of inferior goods survive by using cheaper materials or less-expensive manufacturing processes and then charging lower prices. This strategy isn’t as feasible in the context of AI. Because AI is software-based, a low-quality prediction is as expensive to produce as a high-quality one, making discount pricing unrealistic. And if the better prediction is priced the same as the worse one, there is no reason to purchase the lower-quality one.


   예측 품질은 평가하지 쉽습니다. 방사선, 검색, 광고 등 여러 가지 콘텍스트에서, 기업들은 품질을 위한 단 하나의 명확한 지표로 AI를 설계할 수 있습니다. 그것은 정확도입니다. 다른 산업에서와 마찬가지로, 가장 높은 수준의 품질을 가진 제품은 높은 수요에서 나옵니다. 그러나, AI 기반 제품들은 다른 제품들과 다릅니다. 왜냐하면, 다른 제품들은 품질을 높이려면 더 많은 비용이 들고, 품질이 낮은 제품은 낮은 가격으로 판매하여 시장에 살아남습니다. 이 전략은 AI에서 통하지 않습니다. AI는 소프트웨어 기반이기 때문에, 낮은 품질의 예측이나 높은 품질의 예측이나 동일한 비용이 들고, 서비스를 경쟁사보다 낮은 가격에 제공하는 것이 현실적으로 불가능합니다. 좋은 예측 서비스와 나쁜 예측 서비스의 가격이 서로 동일하다면 소비자는 나쁜 예측 서비스를 구매할 필요가 없습니다. 


   For Google, this is another factor explaining why its lead in search may be unassailable. Competitors’ predictions often look pretty similar to Google’s. Enter the word “weather” into Google or Bing, and the results will be much the same—forecasts will pop up first. But if you enter a less common term, differences may emerge. If you type in, say, “disruption,” Bing’s first page will usually show dictionary definitions, while Google provides both definitions and links to research papers on the topic of disruptive innovation. Although Bing can perform as well as Google for some text queries, for others it’s less accurate in predicting what consumers are looking for. And there are few if any other search categories where Bing is widely seen as superior.


   구글의 경우, 이것이 다른 경쟁사들이 인터넷 검색 시장에 진입하지 못하는 또 다른 요인입니다. 경쟁사들의 예측은 구글의 것과 비슷하게 보입니다. '날씨' 단어를 구글이나 빙에 입력하면, 날씨 예보가 제일 처음 팝업 되는 것과 같이 결과는 상당히 비슷합니다. 그러나, 평범하지 않은 단어를 입력하면 결과는 사뭇 다릅니다. 만일 '파괴'라는 단어를 입력하면, 빙의 첫 번째 페이지는 보통 사전적인 정의를 보여주는 반면에, 구글은 정의와 함께 '파괴적 혁신'이라는 주제에 대한 논문 링크를 제공합니다. 빙의 검색 결과가 구글과 비슷할지라도, 다른 경우에는 고객이 기대하는 것보다 정확성이 떨어집니다. 빙이 구글보다 더 정확하다고 일반적으로 인지되는 검색 카테고리는 거의 없습니다.



Catching Up (요약)


The bottom line is that in AI, an early mover can build a scale-based competitive advantage if feedback loops are fast and performance quality is clear. So what does this mean for late movers? Buried in the three questions are clues to two ways in which a late entrant can carve out its own space in the market. Would-be contenders needn’t choose between these approaches; they can try both.


   AI에 관한 이야기를 정리하자면, 초기 진입 기업은 피드백 루프다 빠르고 성능 품질이 뛰어나면, 규모에 기반한 경쟁 우위를 구축할 수 있습니다.  후발 진입 기업에게는 어떤 의미일까요? 앞의 세 가지 질문에서 후발 진입 기업들이 시장에서 자신만의 입지를 구축할 수 있는 두 가지 전략에 대한 힌트를 볼 수 있습니다. 후발 진입 기업들은 두 가지 전략 중 하나를 선택할 필요가 없습니다. 둘 다 시도할 수 있습니다. 


전략 1. Identify and secure alternative data sources.

전략 1. 대체 가능한 데이터 소스를 식별하고 확보하라


   In some markets for prediction tools, there may be reservoirs of potential training data that incumbents have not already captured. Going back to the example of radiology, tens of thousands of doctors are each reading thousands of scans a year, meaning that hundreds of millions (or even billions) of new data points are available.


   예측 기계 시장 관점에서, 기업들이 아직 수집하지 않은 잠재적인 훈련용 데이터가 아직 풍부합니다. 방사선의 예로 돌아가서, 수 만 명의 의사들이 년간 수천 건의 스캔을 읽고 있습니다. 이 것은 수백만 또는 수억 건의 새로운 데이터를 이용할 수 있다는 것을 의미합니다. 



   Early entrants will have training data from a few hundred radiologists. Of course, once their software is running in the field, the number of scans and the amount of feedback in their database will increase substantially, but the billions of scans previously analyzed and verified represent an opportunity for laggards to catch up, assuming they are able to pool the scans and analyze them in the aggregate. If that’s the case, they might be able to develop an AI that makes good-enough predictions to go to market, after which they too can benefit from feedback.


   초기 진입 기업들은 수백 명의 방사선 전문의로부터 훈련용 데이터를 받을 것입니다. 물론, 그들의 소프트웨어가 현장에 사용될 때, 데이터베이스에 있는 스캔의 수와 피드백의 양은 지속적으로 증가할 것입니다. 그러나, 그 전의  분석하고 확인했던  수십억 건의 스캔을  종합하고 분석할 수 있다면, 이는 선두 기업들을 따라잡을 수 있는 기회입니다. 시장에 출시할  수 있는 좋은 예측을 만들 수 있는 AI를 개발할 수 있다면, 출시 후에 피드백의 이점도 얻을 수 있습니다. 


   Latecomers could also consider training an AI using pathology or autopsy data rather than human diagnoses. That strategy would enable them to reach the quality threshold sooner (because biopsies and autopsies are more definitive than body scans), though the subsequent feedback loop would be slower.


   후발 진입 기업들은 의사가 진단한 것과 달리 병리 데이터나 사후 부검 데이터를 사용해서 AI를 훈련시킬 수 있을 것입니다. 이 전략은 순차적인 피드백 루프는 더 느릴지라도, 병리 검사 및 사후 부검이 신체 스캔보다 더 정확하기 때문에 높은 품질이 임계값에 더 빨리 도달할 수 도 있습니다.


   Alternatively, instead of trying to find untapped sources of training data, latecomers could look for new sources of feedback data that enable faster learning than what incumbents are using. (BenchSci is an example of a company that has succeeded in doing this.) By being first with a novel supply of faster feedback data, the newcomer can then learn from the actions and choices of its users to make its product better. But in markets where feedback loops are already fairly rapid and where incumbents are operating at scale, the opportunities for pulling off this approach will be relatively limited. And significantly faster feedback would likely trigger a disruption of current practices, meaning that the new entrants would not really be competing with established companies but instead displacing them.


   사용하지 않은 훈련용 데이터를 찾는 것 대신에, 후발 진입 기업들은 선발 진입 기업들이 사용하는 것보다 더 빠르게 배울 수 있는 피드백 데이터의 새로운 소스를 찾을 수도 있습니다. 벤치사이는 이 것을 성공적으로 해낸 모범 사례입니다. 더 빠른 피드백 데이터를 활용하면, 신규 진입 기업들은 더 나은 제품을 만들기 위해 사용자들의 행동과 선택으로부터 배울 수 있습니다. 그러나, 피드백 루프가 이미 빠르고 선두 기업들이 규모의 경제를 이룩한 시장에서, 이런 접근의 기회는 매우 제한됩니다. 완전히 빠른 피드백은 현재의 관행을 파괴하는 트리거가 될 수 있습니다. 후발 진입 기업이 선두 기업과 경쟁하는 것이 아니라 대체할 수 있습니다. 


전략 2. Differentiate the prediction

전략 2. 예측을 차별화하라


   Another tactic that can help late entrants become competitive is to redefine what makes a prediction “better,” even if only for some customers. In radiology, for example, such a strategy could be possible if there is market demand for different types of predictions. Early entrants most likely trained their algorithms with data from one hospital system, one type of hardware, or one country. By using training data (and then feedback data) from another system or another country, the newcomer could customize its AI for that user segment if it is sufficiently distinct. If, say, urban Americans and people in rural China tend to experience different health conditions, then a prediction machine built to diagnose one of those groups might not be as accurate for diagnosing patients in the other group.



   후발 진입 기업이 경쟁력을 갖출 수 있는 또 다른 전략은 특정 고객에게 더 나은 예측을 제공하는 것이 무엇인지를 재정의하는 것입니다. 예를 들면, 방사선과 같이 서로 다른 종류의 예측에 대한 시장 요구가 있다면 이런 전략은 가능합니다. 초기 진입 기업은 단일 병원 시스템, 단일 하드웨어, 단일 국가의 데이터로 알고리즘을 훈련시켰을 것입니다. 후발 진입 기업은 다른 시스템이나 다른 국가의 훈련 데이터와 피드백 데이터를 사용하여 충분히 차별화될 수 있다면, 특정 사용자 세그먼트를 위한 맞춤형 AI를 개발할 수 있습니다. 예를 들면, 미국 도시 지역 사람과 중국 농촌 지역 사람은 건강 상태가 서로 다르므로 한쪽 그룹을 중심으로 훈련된 예측 기계는 다른 그룹을 정확히 진단하지 못할 수도 있습니다. 


   Creating predictions that rely on data coming from a particular type of hardware could also provide a market opportunity, if that business model results in lower costs or increases accessibility for customers. Many of today’s AIs for radiology draw upon data from the most widely used X-ray machines, scanners, and ultrasound devices made by GE, Siemens, and other established manufacturers. However, if the algorithms are applied to data from other machines, the resulting predictions may be less accurate. Thus a late entrant could find a niche by offering a product tailored to that other equipment—which might be attractive for medical facilities to use if it is cheaper to purchase or operate or is specialized to meet the needs of particular customers. 


   특정 유형의 하드웨어로부터 생성된 데이터에 기반한 예측 시스템을 개발하는 것이 저비용이나 고객 접근성을 늘릴 수 있다면 시장 기회가 있습니다. 방사선을 위한 오늘날의 수많은 인공지능은 보편적으로 사용되는 GE, 지멘스 또는 기타 다른 제조사의 X선, 스캐너, 초음파 장비의 데이터를 사용합니다. 그러나, 만일 알고리즘이 다른 기계로부터 생성된 데이터에 적용하면, 결과 예측의 정확성은 떨어질지도 모릅니다. 후발 진입 기업은 다른 장비에 맞춤화된 제품을 제공하여 틈새시장을 찾을 수 있습니다. 구매 비용이나 운영 비용이 저렴하거나 특정 고객의 요구를 충족하도록 전문화된 제품은 의료 기관들이 선호할 것입니다. 



Conclusion (결론)


   The potential of prediction machines is immense, and there is no doubt that the tech giants have a head start. But it’s worth remembering that predictions are like precisely engineered products, highly adapted for specific purposes and contexts. If you can differentiate the purposes and contexts even a little, you can create a defensible space for your own product. Although the devil is in the details of how you collect and use data, your salvation rests there as well.


   예측 기계의 잠재력은 엄청납니다. 거대 기술 기업들은 이미 시장에서 선두를 유지하고 있습니다. 그러나, 예측은 특정 목적과 상황에 맞게 정밀하게 구축된 제품과 같습니다. 목적과 상황을 조금이라도 차별화할 수 있다면, 당신은 자사 제품을 위한 방어할 수 있는 입지를 구축할 수 있습니다. 비록 악마는 당신이 데이터를 수집하고 사용하는 방식의 디테일에 있을 지라도, 당신의 구원도 그곳에 있습니다. 


   Nonetheless, the real key to competing successfully with Big Tech in industries powered by intelligent machines lies in a question that only a human can answer: What is it that you want to predict? Of course, figuring out the answer is not easy. Doing so necessitates a deep understanding of market dynamics and thoughtful analysis of the potential worth of specific predictions and the products and services in which they are embedded. It is therefore perhaps not surprising that the lead investor in BenchSci’s Series A2 financing was not one of the many local Canadian tech investors but rather an AI-focused venture capital firm called Gradient Ventures—owned by Google.


   그럼에도 불구하고, 지능형 기계 중심의 산업에서 빅 테크 기업들과 경쟁하는 진짜 열쇠는 인간만이 답을 할 수 있는 질문에 있습니다. 당신이 예측하길 원하는 것은 무엇인가? 물론, 답을 찾는 것은 쉽지 않습니다. 답을 찾는 것은 시장의 변화에 대한 깊은 이해와 특정 예측의 잠재적 가치의 의미 있는 분석과 그것에 기반한 제품과 서비스가 필요합니다. 그래서, 벤치사이의 시리즈 A2 파이낸싱의 주요 투자자는 캐나다 현지 기술 투자자들이 아니라 구글이 소유한 그래디언 벤처라는 AI 중심의 벤처 캐피털 기업이라는 사실은 놀랍지도 않습니다. 



정리하며

   지난 10년간 인공지능과 머신러닝 분야는 눈부신 발전을 하였습니다. 아마존, 애플, 페이스북, 구글 등과 같은 거대  IT 기업들은 데이터를 수집하고 분석하여 예측하기 위해 AI와 ML을 활용합니다. 그들은 자사의 제품이나 서비스를 획기적으로 개선합니다.  스타트업 기업도 예외는 아닙니다. 벤치사이는 신약 개발 프로세스를 획기적으로 개선하였습니다. 


   벤치사이는 제약회사 내부 데이터베이스와 방대한 논문을 읽고 분석하여 과학자들이 원하는 시약을 빠르게 찾아 줍니다. 즉, 벤치시아는 신약 개발 분야에서 구글입니다. 구글이 인터넷 검색 서비스 분야에서 머신러닝을 활용하는 것과 같이 벤치시아는 신약 개발을 위한 검색 서비스 분야에서 머신러닝을 활용합니다. 


   생각해보면, 벤치시아의 서비스는 경쟁기업이 쉽게 모방할 수 있는 검색 서비스일 뿐입니다. 검색에 뛰어난 능력을 가진 구글이 신약 개발 분야에 들어올지도 모릅니다. 앞으로도 벤치시아가 신약 개발 검색 서비스 분야에서 선두를 차지할 수 있는 방법이 있을까요?


   기업이 머신러닝을 활용하는 것은 예측을 하기 위해서입니다. 예측은 어떤 현상의 패턴을 인식하는 것입니다. 기술적으로 예측이란 특정 알고리즘에 데이터를 입력하여  알고리즘을 실행한 출력 정보입니다. 


   예측의 핵심 과제는 알고리즘을 훈련시킬 수 있는 훈련용 데이터를 생성하는 것입니다. 훈련용 데이터를 수집하는 것은 여러 가지 방법이 있습니다. 전문가를 고용하여 직접 분류하거나 이미 잘 분류되어 있는 의료 정보와 같은 데이터를 활용하는 것입니다. 그리고, 두 번째는 예측과 실제 결과의 차이를 보정하는 피드백 루프를 만드는 것입니다. 


예측에서 경쟁 우위를 구축하기 위해서는 세 가지 질문에 답을 할 수 있어야 합니다. 초기 진입 기업들은 세 가지로 인해 후발 진입 기업들에게 거대한 진입 장벽을 제공합니다.

훈련용 데이터는 충분한가요?
   시장에서 성공할 수 있는 수준의 예측을 위해서는 충분한 훈련용 데이터가 필요합니다. 훈련용 데이터를 생성하기 위한 노력과 시간은 후발 진입 기업들에게 진입장벽입니다. 

피드백 루프는 얼마나 빠른가?
   피드백 루프는 예측의 결과와 실제 결과를 비교한 후 알고리즘에 업데이트하는 일련의 과정입니다. 초기 진입 기업은 피드백 루프 기간이 짧을수록 빠르게 알고리즘을 빠르게 개선할 수 있습니다. 짧은 피드백 주기는 후발 진입 기업들에게 진입 장벽입니다. 

예측은 얼마나 정확한가?
   소비자들은 좋은 예측 서비스와 나쁜 예측 서비스의 가격이 서로 동일하다면 나쁜 예측 서비스를 구매할 필요가 없습니다.  AI는 다른 제품들과 달리 서비스 품질에 따른 비용의 차이가 없습니다. 후발 진입 기업들은 비슷한 비용에 더 나은 예측 서비스를 제공해야 하는 진입장벽입니다. 


AI 분야에 후발 진입 기업들에 완전히 기회가 없는 것은 아닙니다. 두 가지 전략을 구사할 수 있습니다.

전략 1) 대체 가능한 데이터 소스를 식별하고 확보하라
   초기 진입 기업이 등한시하는 훈련용 데이터 소스를 찾는 것입니다 새로운 훈련용 데이터는 더 정확하고 뛰어난 예측이 가능할 수 도 있습니다.  

전략 2) 예측을 차별화하라
   특정 고객이나 특정 산업에 집중할수록 차별화된 AI를 만들 수 있습니다. 


결론적으로 우리는 예측 기계를 활용하기 위해 답을 해야 합니다. 


 당신이 예측하길 원하는 것은 무엇인가? 
매거진의 이전글 머신 러닝으로 승리하는 법 (1/2)
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari