brunch

You can make anything
by writing

C.S.Lewis

by 소홍 Jul 28. 2022

분석의 완성은 '도메인 지식'에 있다.

내년 F/W 인기 패션 아이템을 예측하여 순위대로 나열하시오.

때는 바야흐로 거의 모든 패션 브랜드에서 롱패딩을 대량으로 찍어대던 2018년도 겨울, 굉장히 재미있는 분석 요청이 들어왔습니다. 

"현재 롱패딩이 대유행인데, 이 유행이 얼마나 지속될까요? 내년엔 뭘 팔아야 하죠?"

(내년 F/W 인기 패션 아이템을 예측하여 순위대로 나열하시오.) 네 ?? 잘 못 들었습니다 ?

분석 요청을 듣고 가장 먼저 들었던 생각은, ‘사파리가 뭐죠..? 겨울 내내 롱패딩만 입었는데요..?'

'악마는 프라다를 입는다에서 보면 프레타포르테 같은데서 입는게 유행한다던데요 !!?!'

‘아니 업계 종사자들도 한치 앞을 알 수 없는 분야라면 , 저희가 어떻게 알 수 있을까요..?'

이런 저런 고민이 찾아왔지만, 당시 활용할 수 있었던 데이터 소스인 소셜 버즈량 데이터를 가지고 시계열 예측 분석(ARIMA)을 진행했습니다. 크게 두 가지 지표로 SCORE를 도출했는데요, 현 시점에 얼마나 많이 언급되고 있는가?='현재의 대세감'을 나타내는 [전체 소셜 버즈량]과, 얼마나 빠른 속도로 증가하고 있는가?='성장 가능성'을 나타내는 [버즈량 증감률]을 가지고 각 아이템들의 HIT SCORE를 산출 했습니다.

그런데 문제는, 이 두 가지 지표의 ‘가중치'를 어떻게 두느냐에 따라 1, 2위의 순서가 완전히 뒤바뀐다는 것이었습니다. '현 시점에 얼마나 많이 언급되고 있는가?'를 나타내는 [전체 소셜 버즈량]에 가중치를 두면, '롱패딩'이 1위가 되고, '얼마나 빠른 속도로 증가하고 있는가?'를 나타내는 [버즈량 증감률]에 가중치를 두면 후리스(뽀글이재킷)이 1위가 되었습니다. 해당 분석의 포인트이자 목적은 인기 패션 아이템을 '순서대로 정확히 나열'하는데 있었기 때문에 어떤 측면에 가중치를 둘 것인가를 판단하여 결정하는 것은 매우 중요했습니다. 


 바로 이 가중치를 결정하는 시점에 '도메인 지식'의 중요성이 대두되었습니다. 도메인 지식 (Domain Knowledge)이란 특정분야의 전문화된 지식을 말하며, 도메인 지식이 있는 사람들을 해당 분야의 전문가로 간주하기도 하는데요.(출처 : 위키백과, 우리 모두의 백과사전

[전체 소셜 버즈량]과 [버즈량 증감률] 중 어떤 지표가 더 중요한지를 판단하여 가중치 비중을 산정하기 위해 기존 패션 산업의 트렌드가 어떠한 형태로 변화하고 있는지를 살펴볼 필요가 있었습니다. 이를 위해 한 때 유행했던 패션 아이템(와이드 팬츠, 오프숄더 등...)이 어떤 유행 주기를 가졌는지를 알아 보았는데요. 분석 결과 패션 산업(도메인)은 성장기와 하락기가 최대 2년 이내에 이루어지는 짧은 유행 주기를 보이고 있었습니다. 

 이러한 결과를 바탕으로 '증감률에 더 가중치를 더 두자!'라고 최종 결정했고, 1위)뽀글이 재킷, 2위)롱패딩, 3위)숏패딩, 4위)사파리 순으로 FINAL HIT SCORE를 산출했습니다. 결과는 두근거리는 마음으로 1년 뒤에 확인할 수 있었는데요, (모두 잊었겠지만 저는 기억하고 있었습니다..!

다행히 그해 겨울 후리스가 선풍적인 인기를 끌었고, 이는 다수의 기사를 통해서도 확인할 수 있었습니다 :) 

https:://www etoday co kr/news/view/ 1822459

http://economychosun.com/client/news/view.php?boardName=C05&t_num=13607942


 이처럼 패션, 뷰티 산업 등의 도메인은 트렌드와 히트아이템이 빠르게 변화하기 때문에 [버즈량 증감률]에 가중치를 더 두었지만, 만약 완전 다른 분야의 인기순위를 예측해달라는 요청을 받았다면, 예를 들어 '수능 1타 강사들의 내년도 몸값을 예측해주세요.'라는 질문을 받았다면? 정말 특별한 이슈가 아니라면(해당 강사가 범법 행위를 한다거나, 또는 돌발 은퇴선언을 한다거나(.!)), 교육 산업은 오랜 기간 동안 소비자와 신뢰를 구축해야 하고, 대세감이 매우 중요한 분야(1타 강사라는 타이틀)이기 때문에 전체 버즈량과 증감률 사이의 가중치는 달라졌을 것으로 보입니다. 이것이 데이터 분석이 '도메인 지식'에 기반해야 하는 이유가 아닐까요?

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari