에어비앤비와 인공지능

호텔 산업의 유통 전쟁과 시행착오

Oct 30. 2018

온라인 예약 플랫폼 에어비앤비는 5백만 개 이상의 임대 공간 목록과 수만 개의 관광, 하이킹 등의 여행 경험 관련 정보를 제공합니다. 누구나 쉽게 걸러내기에는 너무 많은 정보입니다만 샌프란시스코의 이 스타트업은 인공지능이 여기에 도움을 줄 것이라고 믿습니다.

이 회사의 연구원들은 출간 전 게시 서버인 arXiv.org에 게재한 논문에서 검색 결과의 연관성을 향상하기 위해 지난 2년 동안 인간의 신경망 체계를 느슨하게 모방하는 다양한 층위의 수학적 함수들을 어떻게 구현해 왔는지에 대해 설명했습니다. 이 보고서는 아이디어 스케치를 제품의 소스코드로 바꾸는 에어비앤비의 자체적인 인공지능 시스템, 그리고 머신러닝을 통해 리뷰 목록을 사용자의 모국어로 번역하는 언어 시스템 등의 연장선에 있습니다.

그들은 "검색 순위에 인공지능을 적용하는 것은 에어비앤비의 가장 성공적인 머신러닝 활용 사례입니다. 초기 확장의 대부분은 GBDT(Gradient Boosted Decision Tree Model)에 의한 것들이었습니다."라고 밝혔습니다. 그리고 "그러나 그러한 확장은 시간이 지나면서 정체되기 시작했습니다. 이 논문은 이러한 정체에서 벗어나기 위한 시도로 신경망을 적용하면서 수행된 작업에 대한 것입니다."라고 덧붙였습니다.

연구원들이 설명했듯이, 대부분의 사용자들은 특정 지역에서 이용할 수 있는 주택을 찾는 것으로 에어비앤비의 검색을 시작합니다. 이러한 검색은 에어비앤비의 수백만에 이르는 목록에서 샘플링된 목록을 정렬하여 반환합니다. 원래는 수동으로 검색 순위를 매겨 어떤 집과 방이 가장 상단에 노출될 것인지가 결정됐었습니다. 그러나 궁극적으로 예측 요인을 식별하고 순위를 매기는 모델인 GBDT가 의사결정 트리를 대체하게 되었습니다. 이에 대해 연구원들은 "에어비앤비의 역사상 가장 큰 진보의 하나"로 평가했습니다.

하지만 온라인 예약의 확장이 안정세를 찾게 되자 연구팀은 인공지능으로 관심을 돌렸습니다.

사실 에어비앤비는 하나의 인공지능 시스템에만 의존하지 않습니다. 에어비앤비의 인공지능 시스템은 호스트가 사용자의 예약 요청을 수락할 가능성을 예측하고 사용자가 여행이나 경험을 높게 평가할 수 있는 알고리즘의 생태계 전반을 취급합니다. 즉 그들의 시스템은 사용자와의 상호 작용을 통해 검색을 수행하며 모든 모델이 여기에 접근할 수 있습니다. 그리고 일단 훈련된 새로운 모델들은 그들이 통계적으로 유의미한 예약 증가율을 달성하는지에 대한 테스트를 받습니다.

에어비앤비의 첫 번째 인공지능 검색 시스템은 앞으로 출시될 더 복잡한 검색의 토대를 마련했습니다. 두 번째로 채택된 LambdaRank는 순위 문제를 해결하하기 위해 적용된 지도형(supervised) 머신러닝을 적용한 알고리즘이었으며, 최종 모델인 DNN(Deep Neural Network)은 가격, 편의시설 및 과거 예약 내역 등 약 195가지 특징을 반영한 알고리즘이었습니다. 그리고 에어비앤비의 Smart Pricing 기능을 통해 구현된 목록의 가격, 사용자가 최근에 열람한 목록과의 유사성 또한 제공합니다.

물론 이 모든 것들이 순탄하기만 했던 것은 아닙니다.

모델을 학습시키는 일은 시행착오의 연속이었습니다. CSV 형식의 데이터를 TensorFlow 모델에 처음 공급하는 처리 과정에 있어 첫 번째 연산은 그래픽 카드 처리 능력의 약 25%만을 사용했습니다. 물론 이후 최적화를 통해 17배 빨라졌고 활용률이 약 90%까지 도달했습니다.

에어비앤비 팀이 테스트한 신경망 중 하나는 목록과 일치하는 고유 ID를 사용했습니다. 기본적인 아이디어는 Netflix와 Amazon의 추천 시스템과 마찬가지로 각 목록의 고유한 속성을 인코딩하는 임베딩 기능(구체적으로 실수 벡터에 매핑되는 기능)에 고유 ID를 부여하는 것이었습니다. 하지만 연구원들이 설명하듯이, 그것은 현실성이 없는 것으로 밝혀졌습니다. 임베딩은 각 항목별로 상당한 양의 데이터를 필요로 하며 목록은 현실 세계에서의 제한이 적용되기 때문입니다. 예를 들어, 그들은 "가장 인기 있는 목록도 1년에 최대 365회까지 예약할 수 있을 뿐입니다"라고 밝혔습니다.

문제를 더 어렵게 만든 것은 모든 추세가 분명하지는 않았다는 것입니다. 적어도 처음에는 분명히 그런 측면이 있었습니다. 목록의 장황한 뷰는 테스트 예약과 관련이 있는 것처럼 보였지만 예약 가능성과 장황한 뷰의 열람 시간을 동시에 예측한 모델이 배포되었을 때에도 예약률이 상승하지 않았습니다. 연구팀은 이러한 결과가 장황한 뷰가 높은 가격대의 목록, 파싱하기 어려울 정도로 긴 설명이 있는 목록, 때로는 아주 독특하고 장난스럽기도 한 목록과 같은 다양한 요인에 의한 것일 수 있다고 추측했습니다.

연구팀은 Feature에 대한 공학적 측면에서 이전에 간과했던 점유율에 영향을 미치는 요인들을 조사했습니다. 목록들은 때로 1개월을 넘기도 하는 다양한 최소 체류 요건을 가지고 있었습니다. 그 과정에서 그들은 지리적 선호도가 존재한다는 것을 발견하게 되었습니다. 예를 들면, 샌프란시스코 만 서부의 남단에 위치한 지역이 교통 체증이 심한 다리 건너편 지역보다 인기가 많았습니다.

그런데 과연 이 지역들이 도시의 블록들과 장애물들에도 불구하고 이처럼 선호될 만한 가치가 있었던 것일까요? 아래의 언급을 보면 최소한 이들의 연구팀은 그렇게 생각하는 것 같습니다.

"우리는 유비쿼터스 머신러닝의 성공 사례들을 토대로 낙관주의의 절정에서 시작했으며, 머신러닝이 GBDT 모델의 대체율을 감소시키고 우리에게 엄청난 이익을 가져다줄 것이라고 생각했습니다"라고 연구원들이 말했습니다. 그리고 "많은 초기 논의는 다른 모든 것들이 변동하지 않도록 유지하면서 현재의 모델을 신경망으로 대체하여 확장시키는 데 초점이 있었습니다. 그러나 시간이 지나면서 우리는 머신러닝으로의 전환이 모델의 대체율 감소에 대한 것이 아니라 시스템의 확장성에 대한 것이라는 사실을 깨달았습니다. 결과적으로 모델을 둘러싼 전체 시스템을 재고해야 했습니다."라고 덧붙였습니다.

* 이 글은 Venture Beat에 10월 24일 자로 실린 기사 Airbnb Details its Journey to AI-powered Search를 번역한 글입니다. 호텔을 포함한 부동산의 유통에 있어 인공지능의 역할에 대한 기대와 시행착오들이 비교적 진솔하게 나타나는 것 같습니다.

keyword

매거진의 이전글익스피디아의 반격마이너의 NH 인수전매거진의 다음글