유클리드 거리는 N차원 공간의 두 점 사이의 거리를 측정하는 공식입니다.
이 공식은 피타고라스의 정리와 매우 유사합니다.
다음과 같이 2차원 거리 공식을 N차원으로 확대하면 됩니다.
여기서 P와 Q는 N차원에 존재하는 점의 좌표를 의미합니다.
별 것 아닌 것처럼 보이지만, 이러한 공식을 발견하고 증명하는 것은 쉽지 않습니다.
앞서 정의한 유클리드 거리 공식은 피타고라스의 정리로 충분히 설명할 수 있습니다.
그러나 유클리드 거리 공식은 그 값을 유사도에 그대로 사용하기에는 한 가지 문제가 있습니다.
이 공식은 최대값이 정해져 있지 않아 유사도, 즉 ‘가깝다’, ‘가깝지 않다’의 기준을 정하기 어렵습니다.
실제 거리를 측정할 때는 유리하지만, 근접성을 확인하는 유사도에는 이용하기 어렵습니다.
그래서 유클리드 거리로 계산된 값이 0에서 1 사이의 값이 되게 정규화를 해야 합니다.
계산한 유클리드 거리 값에 1을 더하고 이 값의 역수를 취합니다.
그러면 이 값은 0에서 1 사이의 값이 나오죠.
유사도 값이 1에 가까울수록 유사도가 높다고 판단할 수 있습니다.
다음 사례를 통해 데이터 분석에서 유클리드 거리 유사도를 어떻게 활용할 수 있는지 간단히 알아보겠습니다.
전박봉 과장은 출시 예정인 신제품의 마케팅 전략을 수립하기 위해 고객의 특성을 정리하고 공략 대상 고객을 선별하라는 지시를 받았습니다.
이에 전 과장은 자사 핵심제품 C1, C2, C3를 구매한 고객 중에서 제품별로 무작위 고객 100명을 선별하고 설문조사를 해 그들이 구매할 때 고려한 핵심적인 4가지 특성을 정리했습니다.
고객은 3가지 제품을 구매할 때 기능, 디자인, 가격, 내구성을 중점적으로 고려했습니다.
C1 제품을 구매한 고객 중 기능에 응답한 고객은 32명, 디자인 22명, 가격 38명, 내구성 8명이었습니다.
C2 제품은 기능 41명, 디자인 17명, 가격 29, 내구성 13명이며, C3 제품은 기능 25명, 디자인 16명, 가격
21명, 내구성 37명이었죠.
C1 = ( 32, 22, 38, 8)
C2 = ( 41, 17, 29, 13)
C3 = ( 25, 16, 21, 37)
새로 출시할 신제품 C4에 대해서도 기존에 자사 제품을 구매한 고객 중 무작위로 뽑은 100명의 고객에게 똑같은 특성을 기준으로 설문조사를 했습니다.
그 결과는 다음과 같습니다.
C4 = (23, 26, 20, 31)
이렇게 정리된 4가지 특성에 따른 설문 내용을 바탕으로 신제품 C4가 기존 어떤 제품과 유사한지를 확인하고 해당 고객들을 공략 대상으로 선정해 마케팅에 활용하기로 했습니다.
전 과장은 제품별 4가지 특성 값들을 좌표로 생각하고 C4와 기존 제품과의 유클리드 거리 유사도를 측정했습니다.
그 결과, 유사도가 높진 않았지만, 신제품 C4는 세 제품 중 C3와 가장 유사했습니다.
전 과장은 이 결과를 바탕으로 마케팅팀에 C3 구매 고객을 대상으로 마케팅을 진행하자고 제안합니다.
활용법을 간단히 소개하려 했는데, 유난히 공식이 많았습니다.
하지만 그렇게 어려운 공식은 없습니다.