brunch

You can make anything
by writing

C.S.Lewis

by Master Seo Jun 27. 2022

6탄-무신사의 데이터 레이크와   AI 서비스까지 확장

본 내용은 개인적으로 듣고 정리한 내용이라 실제 내용과 다를 수 있습니다.


<1> 대부분의 회사들이 데이터를 통해 비즈니스 인사이트를 얻고자 한다.

<2> 무신사  데이터 원팀

<3> 데이터 아키텍처 

<4> 데이터 플랫폼 구축 서비스 3개와 성과



<1> 대부분의 회사들이 데이터를 통해 비즈니스 인사이트를 얻고자 한다.


1

데이터로 비즈니스 인사이트를 얻고자 한다.

데이터를 모으는 데이터 레이크 ,  S3를 이용한다.

수집하는 부분은 Amazon Kinesis를 이용한다.

다양한 관점에서 데이터를 분석할 때는 아마존 아테나를 사용한다.

시각화 대시보드는 아마존 퀵 사이트를 사용한다.

개인화 추천 서비스는 아마존 Personalize로 구축 가능하다.

기계화를 자동화하려 한다면 아마존 SageMaker를 이용해 머신러닝 모델을 개발, 운영 자동화


결과?

IT 효율성 증대

생산성 향상

물류 및 매장 운영 자동화등 혁신 활동을 시작



<2> 무신사  데이터 원팀


1

무신사 = 미디어 커머스

커뮤니티, 콘텐츠 , 패션 이커머스 마케팅 

2021년  최근  2배 성장


2

문제점?

데이터 증가 - 매출 조회 카레 늦어짐

운영 복잡성 - 적립 등 작업 증가

고객 요구사항 다양화  


3

해결?

개인화 추천과 앱 푸시/메시지 타깃팅으로 다양해진 고객 요구 사항 처리

상품후기 AI 자동 검수함

데이터를 보고자 하는 경우 셀프서비스 BI 되도록 했다.



4

아키텍처 개선?

데이터베이스 하나로 집중되어 있는 것 - 데이터 아키텍처 개선 필요

데이터에 대해 엔드 투 엔드 빠른 처리 - 기존 레거시보다 빠른 것 필요


5

해결?

데이터 원 팀으로 조직 구성함


조직구조?

데이터 사이언티스트 -  분석과 모델링 고도화

데이터 엔지니어 -데이터 수집 , 가공 , ETL , DW 개발과 운영

AI모델을 반영하기 위해  서버 엔지니어가 모델 서빙을 위한 API를 개발한다.


6

데이터 사이클과 담당자?

데이터(로그, DB)가 데이터 웨어하우스에 보관 - 데이터 엔지니어가 처리

모델을 개발하고 지표를 통해 모델을 개선 - 데이터 사이언티스트가 처리

만들어진 모델을 서비스에 제공 - 서버 엔지니어가 처리





<3> 데이터 아키텍처 


1

아마존 오로라로 시작


2

오로라 데이터 --- EMR(Apache 스팍) 데이터 분산 처리 ------ S3 (데이터베이스 자료)-----S3(중간)---S3(바로 사용 가능 데이터)

데이터 베이스에 부하 룰 주지 않고 데이터 처리하게 되었다.


3

가공한 데이터를 바로 조회하도록 OpenSearch 서비스 도입


4

인하우스 추천하기 위해  다큐멘트 디비 도입


5

세이즈 메이커 사용

퍼스널 라이즈 사용


6

API게이트웨어---키네시스-----EMR로 분석


7

기기------ 아마존 키네시스--------  S3 이용, 데이터 레이크 구축---- 아테나로 쿼리 ---- 퀵 사이트로 대시보드


아마존 아테나는 표준 SQL을 사용하여  S3에 저장된 데이터를 간편하게 분석한다.


8

Amazon Managed Workflow of Apache Airflow (MWAA)를 도입하여 버전 관리와 운영에서 자유로운

워크플로 관리 툴을 사용함




<4> 데이터 플랫폼 구축 서비스 3개와 성과


1

개인화 추천 서비스

하이브리드 모델

기능 데이터 사용자 행동 데이터를  키네시스를 통해 S3에 저장

모델링 과정을 거쳐 다큐멘트 디비를 통해 서비스

노출, 클릭, 구매와 같은 사용자 피드백을 키네시스로 수집, A/B 테스트 진행

사용자가 무신사 앱에 인입하여 탈퇴할떄까자 사용자 화면에 추천 서비스를 제공함.

8%~48%의  클릭을 달성함.


S3----------Personalize -----Document DB------무신사 앱

-------------- 키네시스-----------------------------------


2

후기 자동 검수?

사용자 2만 개의 후기 검수

상품과 후기

사진과 후기가 적립금 기준에 맞는지 확인

후기 자동 검수 

학습 데이터 라벨링 

후기의 50%를 97% 정확도.


3

BI와 리포트 자동화?

해당 조직에 맞는 리포트 필요


EMR------S3------오로라, 아테나 -------- 리 데쉬, 테블로.


MWAA------Slack 




<10> 개인적으로 배운 점


데이터 처리를 위한 데이터 원팀 조직 좋다.

데이터 사이클에 따라  담당자 가 존재하려 처리하는 게 인상적이다.

데이터 플랫폼 구축 서비스 3개와 성과 확인 요망.



https://brunch.co.kr/@topasvga/2439



감사합니다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari