brunch

You can make anything
by writing

C.S.Lewis

by 루나 Apr 27. 2020

가까운 것끼리 묶어주기, k-means는 누가 만든 것

[야만인] 인공지능 탄생의 뒷이야기

레이블 label(꼬리표, 식별자)이 있는 데이터로부터 모델을 만들어

레이블이 없는 데이터의 레이블을 예측하는 것을

머신러닝 machine learning에서는 지도학습 supervised learning의 '분류 classification'라고 합니다.

온라인 쇼핑몰이나 대선 캠프처럼

고객이나 상품, 유권자에 대한 레이블이 없고,

심지어 몇 개의 그룹으로 나누어야 하는 지도 알 수 없는 경우라면

어떻게 분류할 수 있을까요?

이렇게 레이블이 없는 데이터 내부의 패턴과 구조를 발견하는 것을

비지도학습 unsupervised learning이라고 하는데

그 중에서도 비슷한 속성끼리 묶어주는 알고리즘을

군집화 clustering라고 합니다.


k-means는 군집화 문제를 해결하는

가장 간단한 비지도학습 알고리즘 중 하나입니다.

k-means 알고리즘을 간단하게 설명해보겠습니다.


1) 주어진 데이터에서 찾아내고자 하는 k개의 군집을 결정합니다.

2) k개의 다른 포인트를 임의로 결정합니다. 이를 초기 군집이라고 합니다.

3) 각 데이터별로 k개의 초기 군집까지의 거리를 계산합니다. 그리고 가장 가까운 거리에 있는 군집에 해당 데이터를 할당합니다.

4) 할당이 끝나면 각 군집의 대표지점을 구합니다. 대표지점은 평균일 수도 있고, 중간값일 수도 있습니다. 이렇게 구한 대표지점과 남은 각 데이터 사이의 거리를 기반으로 다시 데이터를 군집에 할당합니다.


5) 4)의 과정을 더 이상 할당된 군집의 대표지점이 변하지 않을 때까지 반복합니다.

1950년대부터 1970년대까지 통신기술과 컴퓨터가 빠른 속도로 발달면서

각 분야에서 데이터를 군집화하기 위한 알고리즘이 따로따로 발전하게 됩니다.


당시에는 지금처럼 인터넷을 통한 논문검색이 없어서

다른 분야에서 연구된 아이디어를 모르고 각기 발전하는 경우가 많았습니다.

백프로퍼게이션 backpropagation 알고리즘도

1986년 럼멜하트 David Everett Rumelhart가 논문으로 발표했지만

나중에 알고보니 이미 1969년 제어계측학 분야에서 위치 호 Yu-Chi Ho가 사용했었고,

1974년 폴 워보스 Paul Werbos가 박사학위 논문으로 발표한 아이디어에도 있었습니다.

k-means라는 용어는 1967년 제임스 맥퀸 James B. MacQueen에 의해 처음 쓰여졌습니다.


이 아이디어는 1956년 휴고 스타인하우스 Hugo Steinhaus로부터 시작된 것입니다.

그런데 알고보니 1957년 벨 연구소의 스튜어트 로이드 Stuart P. Lloyd가 펄스 부호 변조(Pulse-Code Modulation; PCM) 분야에서 이미 개발하여 사용 중인 알고리즘이었고,

1965년 생물학 분야에서 에드워드 포지 Edward W. Forgy가 비슷한 알고리즘을 발표하기도 했습니다.


그래서 컴퓨터과학 분야에서는 k-means를

로이드 Lloyd 알고리즘 또는 로이드-포지 Lloyd-Forgy 알고리즘으로 부르기도 합니다.

이렇듯 서로 다른 분야에서 발전한 알고리즘이나

현재 머신러닝에서는 굉장히 많이 쓰는 알고리즘입니다.

(출처)

https://youtu.be/sUAjFKK0fnk

https://en.wikipedia.org/wiki/K-means_clustering#History

https://en.wikipedia.org/wiki/Hugo_Steinhaus

https://en.wikipedia.org/wiki/Pulse-code_modulation

https://youtu.be/4b5d3muPQmA

http://www.aistudy.co.kr/pattern/k-means_clstering.htm



적송 권건우 redpine71@wedatalab.com
http://blog.naver.com/redpine71

공무원을 꿈꾸며 대학에 들어갔으나 동서양문화에 심취하여 수많은 사부님들을 찾아다녔고 기나긴 갈구끝에 서울 인사동과 중국 하남성 황토벌판 그리고 실리콘밸리에서 스승을 만났다. 지금은 산에서 내려와 많은 친구들과 동서문명을 융합시키는 새로운 도전의 여정에 있다.

前 삼성SDS technical architect
現 위데이터랩 대표이사
現 디랩아카데미 원장
現 성균관대, 한양대 겸임교수
現 세계진소왕태극권총회 서울분회장
#야만인 #동서양문화연구 #위데이터랩 #서예 #진소왕태극권

루나 허령
https://brunch.co.kr/@hvnpoet

컴퓨터과학과 소프트웨어공학을 전공하고, 지금은 금융회사의 상품과 서비스를 분석, 설계, 구현하는 일을 하고 있다. 대학 초년생 시절 마인드맵을 접한 이후 즐겁게 생각하는 방법을 깨달았고, 소프트웨어공학의 모델링 사상을 이해하고부터는 마인드맵과 모델링을 아우르는 마인드맵모델링을 연구 중이다. 세상에 대한 공학적인 접근 이외에도 마음공부와 서예, 태극권 등으로 자신과 세상의 경계를 넘어 진리를 탐구하고 있다.

#야만인 #마음공부 #마인드맵 #모델링 #서예 #진소왕태극권 #천상병

매거진의 이전글 학습 못지않게 타고난 바도 중요하다 - 딥러닝 초기화

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari