brunch

You can make anything
by writing

C.S.Lewis

by 별더하기 Apr 13. 2022

유사도 계산 1

현재까지 발표된 연구들을 보면 분석 대상이 된 데이터 간의 유사도를 측정하는 공식은 의외로 많습니다.

연구자마다 또는 분석 진행자마다 각자의 개성과 상황에 따라 다른 유사도 공식을 고안하고 사용하고 있습니다.

물론 이런 연구는 논리적인 배경이 충분히 보장된 상태에서 진행돼야 합니다.

이번에는 유사도 측정 공식 중에서 거리를 이용한 가장 대표적인, 우리가 학창시절 수학시간에 들어 봤음직한, 유클리드 거리Euclidean distance를 살펴봅니다.

유클리드(Euclid, B.C.330~B.C.275)는 고대 그리스의 수학자입니다.

기원 전 사람이다 보니 그의 삶과 관련된 자료가 거의 없습니다.

몇 개 남아있지 않은 자료 중 가장 유명한 것은 기하학 분야 고대 문헌중에서 최고 베스 트셀러로 손꼽히는 유클리드 원론Euclid's Elements입니다.

20세기 초까지만해도 이 책은 기하학 교과서로 많은 국가에서 사용했습니다.

다른 말로 ‘유클리드 기하학’이라고 불리는 이 책에는 익히 알고 있는 두 정수의 최대공약수를 구하는 대표 공식인 유클리드 호제법Euclidean algorithm과 여기서 다루는 유클리드 거리Euclidean distance에 대한 내용이 담겨 있습니다.

유클리드 거리 계산을 쉽게 표현하면 공간상에 찍힌 두 점 사이의 거리를 계산하는 공식입니다.

이쯤에서 수학 좀 해 봤다 하는 사람은 ‘두점 사이의 거리 계산은 굳이 유클리드 거리보다 더 쉬운 방법이 있는데’라고 할지 모릅니다.

그렇습니다.

피타고라스의 정리가 떠오릅니다.

X와 Y를 축으로 하는 2차원 좌표상 점 P1과 점 P2가 있습니다.

두 점의 거리는 어떻게 될까요?

피타고라스 정리를 활용하면 정답을 얻을수 있습니다.

빨간색 물음표로 표시된 2차원 좌표 상의 두 점 P1, P2의 거리를 계산하는 피타고라스의 정리는 다음과 같습니다.

피타고라스의 정리에 따라 a2은 (X2-X1)2이 되고 b2은 (Y2-Y1)2이 됩니다.

따라서 P1, P2의 거리는 다음과 같습니다.

피타고라스의 정리만으로도 충분히 두 점 사이의 거리를 구할 수 있습니다.

그런데 왜 유클리드 거리를 사용할까요?

해답은 공간 개념에 있습니다.

피타고라스의 정리는 2차원상의 거리를 구하는 데 아무 문제가 없습니다.

그러나 현실 세계와 같은 3차원상에서 두 점의 거리를 구한다면?

또는 우리가 다루는 데이터가 2차원으로만 설명이 가능할까요?

매거진의 이전글 분류와 군집 그리고 거리
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari