brunch

You can make anything
by writing

C.S.Lewis

by 카카오스타일 Sep 24. 2021

수많은 리뷰 속에서 ‘빠른 배송’이 눈에 띈 거야 ♪

카카오스타일 자연어 처리와 활용 방법

안녕하세요 카카오스타일입니다! 


카카오스타일이 운영하는 스타일 커머스 플랫폼 ‘지그재그’의 ‘직진배송'에 대해 다들 아시나요? 지그재그는 소비자들이 원하는 제품을 빠르게 받아볼 수 있도록, 그리고 판매자가 창고 구축 부담을 덜고 상품 셀렉과 제작에 집중할 수 있도록 밤 12시 이전에 주문하면 바로 다음날 상품을 받을 수 있는 익일 배송 서비스 ‘직진배송’을 운영하고 있습니다.



지그재그는 3개월간 ‘Z-Only(제트온리)’로 베타 테스트를 하며 ‘빠른 배송'에 대한 소비자 만족도를 확인하고, 서비스를 확대하여 지난 6월 ‘직진배송'으로 배송 서비스를 공식 런칭했는데요. 


익일 배송 서비스가 점차 증가하며 패션 상품을 하루 만에 배송받는 것이 이제는 어색한 일이 아니게 되었지만, 지그재그가 배송 서비스를 도입할 시점만 해도 패션 플랫폼 업계에서 주문 바로 다음날 상품을 받는 것은 흔치 않은 일이었습니다.


직진배송 런칭 후에도 소비자들로부터 “진짜 내일 받을 수 있나요?”라는 문의가 많이 들어온 것을 보면 알 수 있죠. 이에 ‘직진배송'의 인지도와 서비스에 대한 신뢰도를 높이고자, 이용자들의 ‘리얼 후기'를 서비스 메인에서 보여드리기로 했습니다. 



프로젝트 요구사항   


    긍정 리뷰 추출   

    특정 키워드(빠른 배송)와 관련 리뷰 추출  

    빠른 배송 관련 부분만 하이라이트   


실 구매자들의 ‘리얼 후기’를 도입하는 이번 프로젝트의 목적은 빠른 배송을 증명하여 ‘직진배송' 서비스에 대한 신뢰도를 높이는 것입니다. 따라서 ‘빠른 배송'과 관련된 리뷰를 따로 추출하여 익일 배송이 가능함을 소비자들에게 보여주는 것이 목표였는데요. 


수많은 리뷰 데이터를 키워드만으로 추출할 경우, 관련이 낮은 리뷰들도 함께 섞여 들어올 수 있어 ‘빠른 배송’에 대한 명확한 메시지 전달이 어려울 수 있다는 고민이 있었습니다. 이에 더해 ‘리얼 후기'는 지그재그 앱 내 직진배송 카테고리에서 보여지는 것이므로, 긴 리뷰를 모두 보여줄 수 없겠죠. 소비자들이 해당 내용에 집중할 수 있도록 ‘빠른 배송'과 관련된 부분만 노출하는 것 역시 중요했습니다. 



해결 방안   


1) Text Classification & Sentimental Analysis를 활용하여 긍정 리뷰 추출    

Text Classification은 정해진 레이블 내에서 텍스트를 분류해주는 작업입니다. 배송 관련 긍정적인 경험을 소비자들에게 전달하고자 하는 목표에 따라 리뷰 별점을 레이블로 놓고, 1차 분류를 진행했습니다. 이후 1차적으로 분류된 리뷰 내에서 긍정 감정을 나타내는 리뷰를 추출하는 Sentimental Analysis를 수행했습니다.


2) Tokenizer & fast Text를 활용하여 유사 키워드 정의 및 데이터셋 구축

Tokenization은 문장을 가장 적절한 형태로 분리하는 전처리 작업입니다. 기존 형태소 분석기를 이용하여 리뷰 데이터를 분리할 경우 리뷰에서 자주 쓰이는 용어를 제대로 분리하지 못하는 현상이 종종 발생하는데요. (ex. ‘인스’, ‘타' / ‘미', ‘듐' 등) 따라서 리뷰 데이터에 맞춰 tokenizer를 새롭게 학습시켜 해당 용어들을 정확하게 분리하는 작업을 진행했습니다. 

이후 텍스트를 숫자로 표현하여 컴퓨터가 해당 텍스트를 예상할 수 있게 하는 Word embedding 기술을 통해 ‘빠르다’가 있는 리뷰와 없는 리뷰를 구분했는데요. 이때 OOV(Out of Vocabulary, 학습할 때 보지 못했던 단어) 토큰에 대해서도 단어의 유사도를 계산하여 유연하게 대처할 수 있는 fast Text 모델을 활용하여 효율성을 향상시켰습니다. fast Text 모델은 지그재그 리뷰처럼 대규모 데이터에서도 빠른 속도를 낼 수 있다는 장점도 가지고 있습니다.   


3) 데이터셋 Augmentation & Word embedding을 활용하여 빠른 배송과 관련된 리뷰 추출    

지그재그 리뷰 데이터만을 가지고 학습한 모델은 예외 상황에 대한 정확도가 떨어질 수 있습니다. ‘빠르다'라는 단어에만 치중될 경우, 배송과 관련되지 않은 ‘빠르다'가 포함된 리뷰가 등장했을 때 오류가 발생할 수 있는데요. 이러한 문제 해결을 위해 데이터셋 Augmentation 방법을 활용했습니다. 예외 상황(빠르다는 내용이 들어있지만 배송과는 관련이 없는 리뷰 등장)을 미리 학습한다면 대처 능력도 향상될 것이기에, 네이버 뉴스 댓글처럼 배송/커머스와 관련이 없는 데이터를 추가하여 모델의 학습 면적을 넓혔습니다. 즉 ‘빠르다'와 관련이 있으면서, 커머스와는 관련이 없는 데이터셋을 추가하여 정확도를 높인 것이죠.  

여기에서도 다시 한번 Word embedding 기술을 활용했습니다. ‘빠르다'가 있으면 1로, 없으면 0으로 라벨링을 한 이후에 추가한 데이터셋(네이버 댓글 데이터)에서 배송과 관련이 없는 ‘빠르다'를 다시 라벨 0으로 변경을 해주었습니다. 이를 통해 ‘빠르다’와 ‘배송’ 모두 관련이 있는 데이터만 추출해낼 수 있도록 했습니다.  


4) LIME Explainer를 활용하여 문단 내 빠른 배송 부분 하이라이트   

머신러닝 모델의 예측 정확도가 올라가는 만큼 그 과정은 더욱 복잡해져, 결과를 해석하는 것은 점점 더 어려워지고 있는데요. 카카오스타일은 머신러닝 모델의 예측 결과를 해석하기 위해, 예측 결과가 나온 이유를 설명하는 툴인 LIME Explainer를 사용했습니다. 이는 입력 값에서 feature를 랜덤하게 지우고, 어떠한 feature를 지웠을 때 결과값이 변하는지 확인한 후 그 부분에 가중치를 크게 두어 하이라이트 하는 방식인데요. 아래 예시로 설명드리겠습니다. 

위 이미지에서 두 번째 문장은 ‘급하게'와 ‘직진배송으로' 부분을 랜덤으로 삭제했습니다. 이 경우 70%로 ‘빠르다'라는 결과가 나오죠. 문장 전체를 넣었을 때 92% ‘빠르다'라고 예측하는 것과 크게 차이가 없습니다. 허나 세 번째 문장에서 ‘정말 빠르게' 부분을 삭제했을 땐 12%로 예측 결과가 확연하게 낮아지는 것을 확인할 수 있습니다. 즉 ‘정말 빠르게' 부분이 중요한 feature임을 확인하여 해당 부분을 하이라이트 하는 것입니다. 



결과 


이렇게 지그재그 직진배송 ‘리얼 후기'가 탄생했습니다. 


위에서 설명드린 것과 같이 classification, tokenization, LIME Explainer 등 다양한 기술을 활용하여 ‘빠른 배송'과 관련된 리뷰 데이터만을 추출하고, 그중에서도 해당 키워드가 들어간 부분만을 하이라이트하여 노출할 수 있게 되었습니다. 



‘리얼 후기'를 앱 내에 공식적으로 도입하기 이전에 ‘리얼 후기'가 있는 버전과 없는 버전으로 A/B 테스트를 진행해보았는데요. ‘리얼 후기'가 있는 버전의 직진배송 메인관 내 유저 Activity 수준이 훨씬 높게 나타나는 것도 확인할 수 있었습니다. 


이번 프로젝트의 목적은 실 구매자들의 후기를 통한 ‘직진배송' 신뢰도 향상이었습니다. 적합한 기술을 통해 정확도를 높이고, A/B 테스트를 거쳐 소비자 니즈를 확실하게 파악하며 목표를 달성했습니다. 



Next Step


지금까지 카카오스타일에서 자연어를 처리하고 활용하는 한 가지 예시에 대해 설명드렸습니다. 현재는 ‘빠른 배송'이라는 키워드가 주어진 상태에서 데이터셋 구축 및 모델 학습이 이루어지고 있는데요. 이후 키워드 없이 리뷰 내에 있는 다양한 주제(예를 들어 재질, 핏, 색상 등)를 모델이 직접 학습하고, 해당 리뷰에서 중요한 키워드가 무엇인지 찾아내는 방향으로 발전해 나갈 예정입니다. 지금보다 훨씬 범용적인 머신러닝 모델을 만드는 것이지요. 


이 외에도 카카오스타일은 소비자 편의성을 높이기 위해 검색 텍스트 자동완성 기능, 챗봇 등 다양한 기술을 활용하고 있는데요. 기술을 통해 소비자 만족도와 신뢰도를 향상시키는 방법을, 판매자에게 편리하고 유익한 플랫폼이 되는 방법을 항상 고민하고 있습니다. 앞으로도 새로운 기술을 통해 업계를 혁신해나갈 카카오스타일을 지켜봐 주세요! 




유의미한 결과를 도출하여 실제 제품과 소비자에게 즉각적인 영향을 미치는 카카오스타일 Data Lab에서 데이터 엔지니어, 사이언티스트, 분석가를 채용하고 있습니다! 

자세한 내용은 아래 링크를 참고해주세요! 

>> https://career.kakaostyle.com/ 



브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari