AI 스타트업의 한계

May 30. 2019

1. 인공지능 연구

알파고로 유명한 구글 딥마인드의 데미스 허사비스는 2009년 자신의 박사학위 논문 'The Neural Processes Underpinning Episodic Memory’에서 특정 사건에 대한 기억(episodic memory)과 상상력(imagination)의 관계에 대해서 다루었다. 간단히 설명해보자면 인간은 효과적인 기억을 위해서 자신의 기억의 일부만을 저장하고, 이를 다시 회상(recall)할 때는 부족한 정보의 간극을 메우기 위해서 상상력을 이용한다는 것이다. 우리가 어떤 사건을 정확하게 기억한다고 생각했는데, 실제로는 사실과 다른 부분이 있었던 경험이 다들 있을 것이다. 그 이유가 바로 우리가 회상할 때의 두뇌 메커니즘의 기저가 사실은 상상력이기 때문이다.

그렇다. 데미스는 뇌를 포함 모든 신경계에 대해서 연구하는 신경과학자로 우리의 뇌가 외부 환경을 어떻게 인지하는지 그리고 어떻게 상호관계를 맺는지에 대해 치열하게 연구한 사람이다. 컴퓨터 프로그래밍은 원래 재능이 있었던 것으로 보인다. 17살에 게임 프로그래밍에 참여하였는데, 그 게임이 무려 라이언헤드 스튜디오가 개발한 ‘Black & White’였다. 이 '블랙 앤 화이트'라는 게임은 자신이 신이 되어서 선과 악을 실천할 수 있고 이에 따라 주민들이 그가 만든 인공지능을 통해서 살아가는 게임이다. 당시 이 게임은 다른 게임의 인공지능에 비해 한세대 이상 앞서있다고 평가받았는데, 데미스는 여기서 Lead 인공지능 프로그래머의 역할을 수행했다.

어렸을 때부터 해보고 싶었지만 컴퓨터 사양이 못 따라갔다. 예나 지금이나 인공지능은 컴퓨팅 파워 잡아먹는 귀신.

물론 '뇌신경학자가 아닌 이상 인공지능을 연구하는 건 의미가 없다’라는 말을 하고자 하는 것이 아니다. 딥러닝이 우수하지만 왜 우수한지를 밝힐 수 없는 현재의 상황에서 수학적으로 알고리즘에 비해서는 뇌신경학이 딥러닝을 발전시키는 가장 효과적인 툴이 아닌가 싶다. 더욱이 우리와 같은 스타트업이 처음부터 구글과 경쟁하는 것은 일단 피하고 볼일이다.

2. 인공지능 활용

2015년 한국에 방한한 前알파벳 의장 에릭 슈미트는 자신이 만약 노트북과 5,000달러가 있다면 지금 바로 머신러닝 관련 기업을 창업하겠다고 말한 바가 있다. 이미 텐서플로우를 비롯하여 수많은 머신러닝 관련 툴을 직접 가지고 있는 구글인데 왜 머신러닝 창업을 권장할까? 머신러닝과 인공지능 분야는 검색엔진과 다르게 독점하는 것이 불가능한 분야이기 때문이다.

내가 노트북과 5,000불이 있으면 AI 스타트업을 창업하겠다.

먼저 인공지능을 개발하기 위해서는 Domain Knowledge가 필요하다. 모든 산업은 해당 산업의 Know-how가 있을 수 있으며, 이것은 그 업종에서의 오랜 경험에서 얻을 수 있다. 더욱이 사람 대신 생각하고 결정하는 인공지능을 개발하고 훈련하기 위해서는 해당 산업의 깊은 이해가 그 무엇보다 중요하다. 그런데 일반적으로 AI 스타트업은 그 Domain Knowledge가 없다. 단지 AI를 잘하기 때문에 자신의 AI가 잘 적용되는 산업을 찾아내겠다는 것이 지금의 분위기이며, 많은 벤처캐피털리스트가 그것을 믿고 투자해준다. 그렇기에 놀라운 Domain Knowledge와 뛰어난 AI 활용 기술(이론 아님)을 보유한 스타트업이 있으면 빚을 내서라도 투자해야 한다. 생각보다 해외에서도 그러한 스타트업이 많지 않다.

그다음으로는 학습에 필요한 충분한 데이터가 필요하다. 우리 인간은 몇 가지 데이터와 배경지식만을 이용해서도 놀라운 해답을 도출해낼 수 있으며, 그것을 흔히 마켓 인사이트라고 부른다. 하지만 인공지능은 그렇지 않다. 왜냐면 우리와 다르게 아무런 배경지식 없이 해당 데이터만을 가지고 훌륭한 결과를 도출해야 하기 때문이다. 딥러닝을 이용하고자 한다면 그보다 더 많은 데이터가 필요하다.

우리 AI 스타트업의 현실은 어떤가? 데이터도 없다. 그래서 많은 AI 스타트업이 기존 기업과의 제휴를 통해서 이 문제를 해결하고자 하며, 기존 기업들은 자신의 데이터의 가치를 알기에 외부에 자신의 미래 자산을 유출하지 않고자 노력한다. 그런 이유로 실제 마켓에서 생산되는 양질의 데이터를 확보할 수 있는 영업력이 AI 스타트업에게는 큰 자산이다. 이런 회사가 있다면 또 투자해야 한다. 검증된 시장의 양질의 데이터를 양껏 (독점적으로) 확보할 수 있는 스타트업은 해외에서도 그리 많지 않다.

만약 Domain Knowledge와 데이터 확보를 위한 영업력이 없다면, 작은 서비스를 만들어 데이터 확보에 총력을 기울여야 한다. 이러한 서비스의 대표적인 형태가 챗봇(Chatbot)이다. 기초적인 채팅 서비스를 통한 간단한 자동 답변을 시작으로 서비스 내 채팅 데이터를 충분히 모으는 것에 성공하다면, 그 챗봇 AI를 지속적으로 발전시킬 수 있는 데이터 자양분을 확보하게 되는 것이다. 그래서 AI 스타트업이 챗봇 서비스를 많이 하는 건지도 모르겠다. 그런데 최근 한인 Y Combinator 2016W 출신으로 1,200억 펀딩을 성공적으로 마무리 한 기업형 채팅 서비스 플랫폼 Sendbird가 나타났다. 앞으로 막대한 자본력을 바탕으로 채팅 데이터 수집을 지속할 테니 이쪽도 이제 만만치 않게 되었다.

Y Combinator 2016W Cohort 인 Sendbird. Y Combinator의 기대주로 한 껏 주가를 높이고 있다.

혹은 소셜 데이터나 검색 데이터를 이용하는 AI스타트업도 있다. OpenAPI나 데이터 스크래핑을 통해 얻은 자료를 바탕으로 광고 효율화나 퍼포먼스 마케팅에 이용하는 것이 그 예이다. 하지만 이 쪽이야 말로 페이스북, 구글이 가장 강한 분야이다. 이 분야는 데이터가 디지털化되어 있기에 얻기 쉽기도 하지만, 그렇기에 경쟁이 가장 치열할 수밖에 없다. 결국 AI 스타트업에게 있어 데이터 수급력은 경쟁력 그 자체라고 말할 수 있다.

3. 자율주행 인공지능에서의 데이터

자율 주행 기술에도 데이터가 매우 중요하다. GM, Toyota, 구글, Tesla, Uber 할 것 없이 자율주행 연구를 지속하고 있지만, 결국에는 구글 Waymo 가 승리할 것이라고 보는 가장 큰 이유는 이미 10년 치 자율주행 관련 데이터를 쌓아놓고 있으며, 이를 다른 기업이 쉽게 뛰어넘기는 힘들다고 보기 때문이다.

하지만 현실은 그리 녹녹지 않다. 실제로 BMW 본사 자율주행 팀에서도 하루 종일 주행한 자율주행 관련 데이터를 그날 저녁 전부 버리는 일이 심심치 않게 벌어진다. 이유는 외부 환경 변화에 민감한 센서가 사소한 문제를 일으키거나 특정 장치의 세팅값이 변한 경우 기존 측정값과의 데이터 불일치 문제가 발생하기 때문이다. 자율주행 연구원들의 우수갯소리 하나를 소개한다.

'누군가는 우리 회사 어딘가에서 첨단 연구를 하고 있을 거야.'

다들 데이터에 파묻혀서 삽질(IT 분야에서 흔히 쓰는 표준어)만 하고 있다 보니 푸념조로 하는 말이다. 자율주행 시험 중에 확보한 데이터는 각각이 개별적으로 완전하게 존재하는 것이 아니라 하나의 세트 형태로 존재한다. 과거의 쌓아놓은 1년 치의 데이터보다는 최근 Lidar Sensor와 함께 쌓아놓은 1달의 데이터가 더 가치 있을 수 있어 앞으로의 경쟁이 더 기대되는 이유이다.

운전자의 전방 주의의무가 없는 벤츠의 자율주행 Level 4 컨셉카. 4명의 마주 보는 좌석이 Level 4의 시그니쳐가 된 듯하다.

다음 편에서는 AI 스타트업이 경쟁에서 승리하는 방법에 대해서 보다 자세히 이야기를 해보도록 하겠다.

keyword

작가의 이전글캐나다 인재의 요람 Waterloo페이스북, 아마존, 구글 쪼개지나?작가의 다음글