10분만에 "AI 추천 엔진" 이해하기

4번째 주제입니다.

Nov 19. 2024

오늘의 10분만에 이해하기 시리즈의 4번째 주제는 <AI 추천 엔진>입니다.

2022년 말부터 시작된 AI 기술 혁명이긴 해도 아직 대부분의 소프트웨어 프로덕트/서비스 사용자에게 AI는 챗GPT와 자율 주행 자동차가 가장 대표적인 서비스로 이해될 수 있죠. 하지만, 현실은 이미 우리 생활 곳곳에 깊숙이 들어와 있습니다. 여러분의 휴대폰을 얼굴이나 지문으로 열고, 사진의 배경화면을 수정하는데도 사용하지만, 가장 넓고 많이 AI 기술을 경험하는 활용 사례는 온라인 광고입니다. 기업이 신문이나 잡지에 광고를 게재하는 데 비싼 비용을 지불하던 시대는 끝났죠. 그 비용과 시장이 AI를 기반으로 한 개인 맞춤형 기능성 광고로 대체되고 있습니다. 이커머스도 마찬가지입니다. 검색부터 결제에 이르기까지 모든 쇼핑 경험은 AI를 기반으로 합니다. 페이스북이나 인스타그램, 유튜브, 틱톡 같은 소셜미디어 앱을 열면 모든 콘텐츠가 AI를 통해 제공됩니다. AI는 어떤 뉴스의 업데이트를 어떻게 표시할지 결정합니다. 또한 내가 연결하고 싶은 사람들을 결정합니다. 공유할 때는 AI가 적합한 태그를 찾아내어 대상에게 도달할 수 있도록 도와줍니다. 메시지 답장에는 맞춤화된 추천 답장을 표시합니다.

AI 추천 엔진은 머신 러닝 알고리듬을 사용하여 사용자 행동 데이터에서 패턴을 찾아 나만을 위한 맞춤형 추천을 생성함으로써 다음에 볼 동영상, 좋아할 만한 노래, 관심 있을 만한 제품을 제안합니다.

하지만 어떻게 작동하는지 이해하고 계신가요? 그럼 시작해 볼까요!

추천 엔진은 사용자에게 아이템을 제안하는 AI 시스템입니다. 이는 본질적으로 콘텐츠를 고도로 개인화하는 것을 목표로 합니다. 개인화는 인터넷 서비스에서 매우 중요한 과제입니다. 맥킨지의 연구에 따르면 개인화된 사용자 경험만으로도 고객 확보 비용을 최대 50%까지 절감하고, 매출을 5~15% 끌어올리며, 마케팅 ROI를 10~30% 높인다고 합니다. 현재 추천 엔진 시장의 가치는 향후 5년 내에 3배로 성장할 것으로 예상됩니다. 이러한 가능성이 모든 인터넷 서비스에서 AI를 이용한 추천 엔진이 성패요소로 다루어지는 이유입니다.

AI 추천엔진 구성을 위한 5단계

사용자에게 적합한 추천을 제공하기 위해 추천 엔진은 일반적으로 5가지 단계로 구성됩니다.

AI 추천 엔진 구성을 위한 5단계

1. 데이터 수집 (Collect and Ingest)

모든 AI 추천 엔진의 초석은 사용자 데이터를 수집하고 해석하는 능력이며, 특정 사용자에 대해 더 많이 알수록 이후의 네 단계에서 추천이 더욱 정교해지고 맞춤화되는 품질 높은 결과를 만들어 냅니다. 추천 엔진이 사용하는 데이터에는 두 가지 유형이 있습니다.

명시적(explicit) 데이터: 사용자가 작성한 온라인 리뷰와 사용자가 어떤 방식으로든 평가한 콘텐츠와 같은 사용자 행동과 활동을 포함합니다. 즉 사용자의 관점에서 직접적이고 주관적인 데이터입니다. 평점이나 좋아요 버튼을 클릭할 때 얻어지는 데이터입니다.

암시적(Implicit) 데이터: 클릭, 과거 구매 및 검색 기록과 같은 사용자 행동애서 얻어지는 데이터입니다. 암시적 데이터 수집은 좀 더 미묘하게 동작합니다. 온라인 상점에서 무엇을 검색하고 무엇을 보는지 사용자의 행동을 추적하고 분석하거나 컴퓨터의 콘텐츠를 모니터링하는 것이 포함됩니다. 소셜 네트워크 전반에서 사용자의 디지털 발자국을 파악하고 행동 패턴을 파악하는 것까지 확장됩니다.

사용자에 따라 온라인 리뷰를 절대 올리지 않는 경우도 있습니다. 또는 웹 검색을 할때 발자국을 남기지 않는 인코그니토(Incognito)모드을 이용하기에 추천 엔진은 사용자 데이터를 가지고 있지 않다고 생각할 수 있습니다. 그럴 수도 있지만, 이런 경우 브라우저는 비슷한 특성을 가진 다른 사람들을 찾아나섭니다.

나이와 같은 인구 통계, 관심사 및 라이프스타일과 같은 심리 통계룰 사용하면 추천 엔진은 이 데이터를 사용하여 콘텐츠를 개인화할 수 있습니다.

2. 데이터 저장 (Store)

두 번째 단계는 데이터를 저장하는 일입니다. 수집되는 데이터의 특성은 스토리지 솔루션의 선택을 좌우하는 중요한 요소입니다. 정형, 비정형 등 데이터의 특성과 액세스 용이성, 저장 용량, 데이터 전송성 등을 고려할 때, 다양한 소스의 데이터를 집계할 수 있는 데이터 웨어하우스에 저장할 수도 있고, 정형, 비정형 데이터를 모두 저장할 수 있는 데이터 레이크일 수도 있고, 두 가지 장점을 결합한 데이터 레이크 하우스일 수도 있습니다.

3. 데이터 분석 (Analysis)

이제 저장한 데이터를 분석할 단계입니다. 분석은 머신 러닝 알고리을 사용해 데이터 세트를 처리하고 조사하는 것입니다. 이러한 알고리듬은 패턴을 감지하고, 상관관계를 파악하고, 이러한 패턴과 상관관계의 강도를 평가합니다.

AI 추천 시스템을 위한 데이터 분석 프로세스에서는 분석의 시급성과 방법론이 매우 중요합니다. 이러한 세분화는 시스템 설계에 영향을 미칠 뿐만 아니라 사용자 경험에도 영향을 미칩니다.

- 실시간 분석: 즉각성이 가장 중요한 분야입니다. 데이터 생성만큼이나 즉각적인 추천이 필요한 시나리오에서 유용합니다. 실시간 분석 시스템은 사용자가 시스템과 상호 작용하는 순간 추천을 받을 수 있도록 합니다.

- 실시간에 가까운 분석: 실시간 시스템의 즉각성에서 한 걸음 더 나아가, 신속성이 중요하지만 약간의 지연이 허용되는 상황을 위해 설계되었습니다. 대표적인 예로 넷플릭스 추천 엔진을 들 수 있습니다. 방대하고 지속적으로 확장되는 카탈로그를 통해 사용자에게 거의 실시간으로 맞춤형 콘텐츠를 제안하는 것은 개인화되고 매력적인 사용자 경험을 제공하는 데 중요합니다.

- 배치 분석: 이 접근 방식은 데이터를 처리하는 데 몇 시간 또는 며칠이 걸리는 등 보다 신중한 속도를 필요로 합니다. 추천을 하기 전에 상당한 양의 데이터를 축적해야 하는 상황에 적합합니다. 예를 들어, 일괄 분석을 사용하여 개인화된 이메일 뉴스레터를 큐레이션 하고 추천을 보내기 위해선 충분한 사용자 상호작용 데이터를 수집할 때까지 기다릴 수 있습니다.

4. 데이터 필터링 (Filter)

네 번째는 필터링이라는 추천엔진에서 가장 중요한 단계입니다. 필터링 단계에서는 이전 분석 단계에서 가장 관련성이 높은 항목을 보여주는 데이터를 필터링합니다.

추천 엔진은 사용하는 필터링 방법에 따라 다르며 일반적으로 세 가지 유형이 있습니다.

첫 번째는 협업 필터링(Collaborative filtering)이라고 합니다.

이것은 특정 사용자와 다른 사용자와의 유사성을 기반으로 필터링합니다. 비슷한 선호도를 가진 사용자들은 같은 항목에 관심을 가질 가능성이 높고 향후 비슷한 방식으로 상호 작용할 가능성이 있다고 가정합니다. 실제로 협업 필터링 시스템에는 두 가지 주요 유형이 있습니다.

메모리 기반(memory-based): 메모리 기반은 사용자와 항목을 매트릭스로 나타냅니다. 가장 가까운 이웃 알고리듬이라고 하는 KNN( K-Nearest Neighbors) 알고리듬을 확장하여, 행렬에서 가장 가까운 이웃(유사한 사용자 또는 유사한 항목일 수 있는)을 찾는 것을 목표로 합니다.

모델 기반(model-based): 사용자 행동의 패턴을 파악하여 사용자 선호도를 예측합니다. 일반적인 방법 중 하나는 행렬 분해(Matrix Factorization)로, 큰 사용자 항목 행렬을 더 작은 팩터의 집합으로 단순화하는 것입니다.

두 번째 유형은 콘텐츠 기반 필터링(Content-based filtering)입니다. 콘텐츠 기반 필터링은 항목의 특성에 따라 추천을 필터링하는 것입니다. 다시 말하지만, 특성(features)에 초점을 맞추는 것입니다. 사용자 행동에 의존하는 협업 필터링과 달리 콘텐츠 기반 필터링은 항목 자체의 특정 속성을 봅니다. 키워드나 제품 설명과 같이 사용자가 이전에 상호 작용한 적이 있는 항목과 유사한 특성을 가진 항목을 추천합니다.

이 방식은 아이템에 대한 자세한 정보가 있을 때 매우 효과적이며, 아직 사용자들의 평가나 리뷰가 많지 않은 신규 아이템이나 틈새 아이템에 특히 유용합니다.

세 번째 유형은 하이브리드 필터링(Hybrid filtering)으로, 짐작하셨겠지만 협업 필터링과 콘텐츠 기반 필터링을 모두 결합하여 각 방법의 한계를 극복할 수 있는 방법입니다.

하이브리드 필터링의 대표적인 예로는 음악 스트리밍 서비스 스포티파이의 추천 엔진이 있는데, 사용자 평점을 기반으로 하는 협업 필터링과 장르나 가수/연주자 등의 정보를 사용하는 콘텐츠 기반 필터링을 결합하여 음악 선곡이나 플레이리스트를 추천합니다.

3가지 데이터 필터링 유형

5. 피드백 루프 (Feedback)

마지막 단계는 피드백 루프입니다. 피드백 루프는 추천 시스템의 결과를 정기적으로 평가하고, 사용자가 이러한 추천을 실행하는지 여부와 방법을 관찰한 다음, 해당 데이터를 사용하여 모델을 최적화함으로써 시간이 지남에 따라 정확도와 품질을 향상시키는 과정입니다.

아래의 좀 더 직관적인 그림으로 이 전체 플로우를 이해하시면 좋겠습니다.

추천엔진 구성을 위한 데이터 플로우

AI 추천 엔진의 이점과 개선

AI 추천 엔진이 비즈니스와 사용자 모두에게 가져다줄 수 있는 이점과 개선점은 무엇일까요?

대표적인 혜택이야 물론 사용자 경험 개선과 비즈니스 수익성 증가겠지만 좀 더 구체적으로 살펴보겠습니다.

개선점(ft. 문제점)

1. 비용과 복잡성 증가: 방대한 양의 새로운 데이터를 분석하고 지속적으로 분석과 필터링해야 하기 때문입니다.

2. 확장 가능하며 성능이 떨어지지 않는 복잡한 시스템 아키텍처가 필요: 이것은 동시에 컴퓨팅 리소스에 대한 상당한 투자가 필요합니다.

3. 오류 추천: 알고리듬이 잘못된 지표를 중심으로 최적화되어 높은 평가를 받은 항목이 새롭거나 모호한 항목보다 더 자주 추천될 수 있지만 고객이 실제로 관심 있는 항목이 아닐 수도 있습니다. 머신 러닝 알고리은 데이터에 존재하는 사회적 편견을 학습하거나 모델을 조정하는 인간 평가자로부터 이를 학습하므로 부정확한 추천을 할 수 있습니다. 반드시 튼튼한 피드백 루프를 구성해야 합니다.

여기까지가 <AI 추천 엔진 이해하기>입니다. 추천 엔진은 어디에서나 있죠. 이커머스, 소셜 미디어, 엔터테인먼트. 여행 및 숙박업. 그리고 추천 엔진은 그 기반이 되는 데이터와 적용되는 필터링 방법에 따라 성능이 달라집니다. 하지만 올바르게 구현하면 사용자 경험을 완전히 바꿀 수 있는 무궁무진한 가능성이 있습니다.