비지도 학습

데이터 탐정

by 이연곤

데이터 속에 숨겨진 보물을 찾아내는 탐정, 상상해 보셨어요?


우리가 매일같이 만들어내고 또 스쳐 지나가는 그 수많은 데이터 안에

어쩌면 우리가 전혀 상상도 못했던 패턴이나 어떤 비밀스러운 연결고리가 숨어 있을 수 있다는 거죠.

이 숨겨진 이야기들을 파헤치기 위해 필요한 특별한 탐정,

'비지도학습'에 대해 아주 재밌게 파헤쳐 볼 겁니다.





비지도학습의 핵심 원리는 정말 간단해요. 기계가 어떤 정답지도 없이,

그러니까 아무도 가르쳐 주지 않는데도 전적으로 혼자 힘으로 배우는 거예요.


이것이 앞서 살펴본 '지도학습'과 근본적으로 다른 점이죠!



지도학습은 "이건 개야, 저건 고양이야." 이렇게 미리 정답이 다 적힌 문제집으로 공부하는 모범생 같다면,

비지도학습은 아무런 정보 없이 미지의 세계를 탐험하는 탐험가 같은 거예요. 완전 다르죠?




이름은 모르지만 비슷한 것끼리 묶자


비지도학습이 실제로 어떻게 돌아가는지 살펴봅시다.

이름표가 없는 수천 장의 동물 사진이 있다고 상상해 보세요.

알고리즘이 탐정처럼 움직이기 시작합니다.


사진들을 쫙 펼쳐 놓고 "어, 이건 털이 복슬복슬하네.", "저건 귀가 뾰족하네" 하면서

모양, 색깔, 질감 같은 시각적인 단서들을 날카롭게 찾아내

비슷한 것들끼리 착착 묶는 거죠.


그리고 바로 이 지점이 정말 중요한데요. 기계가 결국 개처럼 보이는 애들 무더기랑, 고양이처럼 보이는 애들 무더기를 만들어 내긴 하는데,

정작 그것이 "개"인지 "고양이"인지는 전혀 모른다는 거예요!

그냥 "이 그룹이랑, 저 그룹은 뭔가 달라" 이 정도만 아는 거죠. 진짜 신기하지 않나요?




비지도학습의 활약상


이 똑똑한 탐정이 이론 속에서만 존재하는 게 아니라 현실 세계에서는 대체 어떤 놀라운 일들을 하고 있는지

실제 사건 파일들을 같이 열어 보시죠.


자, 데이터 탐정의 주특기는 크게 세 가지라고 볼 수 있어요.

먼저, 비슷한 것끼리 묶어 주는 '군집화'

그리고, 뭔가 이상한 낌새, 튀는 녀석을 딱 잡아내는 '이상치 탐지'

마지막으로, 복잡한 사건의 핵심만 간추려서 보고하는 '차원 축소'

아주 유능하죠?



이게 그냥 먼 나라 얘기가 아니에요.

우리가 매일 아침 보는 뉴스,

주제별로 쫙 정리되는 거 있죠? 그것도 비지도학습의 작품이고요.


또, 내 신용카드가 이상하게 결제되면 바로 알려주는 금융사기 탐지 시스템.


그리고 기업들이 나한테 딱 맞는 상품을 잘 추천하는 것.



전부 이 데이터 탐정이 뒤에서 활약하고 있는 겁니다. 우리 삶에 아주 깊숙이 들어와 있죠.




레이블(정답) 없는 데이터의 힘


아니, 근데 왜 굳이 이렇게 정답도 없이 힘들게 배우는 방식을 쓰는 걸까요? 그냥 정답 알려주고 학습시키면

편할 텐데 말이죠.


사실 바로 여기에 어마어마한 잠재력이 숨어 있습니다.


가장 큰 이유는

세상에 존재하는 데이터의 무려 80에서 90%가 이름표 없는 정제되지 않은 데이터라는 겁니다.

우리가 찍는 사진, 쓰는 글, 보는 영상 전부 다요.


이 거대한 미지를 탐험할 수 있는 거의 유일한 지도가 바로 이 '비지도학습'인 셈입니다.


게다가 AI 프로젝트를 할 때 가장 돈과 시간이 많이 드는 것이 뭔지 아세요?

바로 사람이 일일이 데이터에 "이건 개야", "저건 사과야" 하고 이름표를 붙이는 작업이에요.

이게 전체 예산의 절반을 넘게 차지하기도 하거든요.

비지도학습은 이 과정을 싹 건너뛰니까 그야말로 시간과 비용을 엄청나게 아낄 수 있는 거죠.



그리고 어쩌면 이게 가장 매력적인 부분일 수도 있겠는데요, 비지도학습은 정해진 답을 찾는 게 아니여서

우리가 전혀 예상치 못했던, 생각지도 못했던 귀한 통찰력을 우연히 발견하게 해 줘요.

이걸 Serendipity(세렌디피티)라고 하죠.

마치 보물 지도를 따라갔는데 지도에 없던 더 큰 보물 상자를 발견한 느낌이랄까요?



해석이라는 과제


하지만 아무리 뛰어난 탐정이라도 만능은 아니겠죠.

이 기계 탐정에게도 분명한 한계가 있습니다. 혼자서 사건을 완벽하게 해결하지는 못해요.


여기서 아주 결정적인 문제가 생길 수 있어요. 정답이 없으니까 기계가 가끔 엉뚱한 단서에 꽂히는 거예요.


예를 들어 동물 사진을 분류하라고 시켰더니, 동물 얼굴을 보는 게 아니라

사진의 배경색이 파란 것들끼리 묶어 버릴 수도 있다는 거죠.


그럼 이건 완전히 의미 없는 결과가 되잖아요.


바로 이 지점에서 오늘 자료가 지적하는 아주 중요한 개념이 등장합니다. 바로 의미론적 간극(Semantic Gap)이라는 건데요. 쉽게 말해

기계가 찾아낸 통계적인 패턴과 인간이 이해하는 실제 세상의 의미
사이의 격차, 괴리


즉, 차이가 존재한다는 뜻입니다.



그래서 이 간극을 메우기 위해선 누가 필요할까요?


네, 바로 우리 인간 전문가가 필요합니다.


기계 탐정이 용의자들을 쫙 데려오면

그중에서 진짜 범인이 누군지, 이 단서가 어떤 의미를 갖는지 최종적으로 판단하고 사건의 결론을 내리는 건

결국 사람의 몫인 거죠.

기계와 인간의 협업이 정말 중요합니다.



비지도학습의 전망


이런 한계점에도 불구하고, 데이터 탐정의 미래는 정말 정말 밝습니다.

비지도학습의 활약은 이제부터가 진짜 시작이라고 할 수 있죠. 과연 어떤 모습일까요?


그 중요성이 커지는 이유는 명확해요.


우선 우리가 매일같이 만들어내는 데이터의 양이 말 그대로 폭발하고 있고,

또 그것을 분석하는 알고리즘 기술도 하루가 다르게 발전하고 있죠.


이 두 가지가 만나서 새로운 응용 분야가 계속해서 생겨나고 있는 겁니다.



정말 머지않은 미래에는 질병을 훨씬 더 빠르고 정확하게 진단하고, 공장에서 불량품을 순식간에 찾아내고,

심지어 신약을 개발하거나 저 멀리 우주의 비밀을 푸는 데까지

우리가 상상하는 거의 모든 분야에서

이 데이터 탐정이 없어서는 안 될 핵심적인 역할을 하게 될 겁니다.




이 모든 놀라운 가능성을 생각해 보면 마지막으로 우리에게 던지는 이 질문이 더욱 의미심장하게 다가올 겁니다.


만약에

기계가 생각하는 비슷함과 인간이 직관적으로 느끼는 비슷함이 다르다면
어떨까요?

그리고 만약

우리가 세상에서 무엇이 유사한 것인지를 기계가 정의하도록 그냥 맡겨 버린다면
과연 어떤 일들이 벌어질까요?


이 질문에 대한

깊은 고민이야말로 이 엄청난 기술을 우리가 어떻게 사용해야 할지 그 방향을 결정해 줄 겁니다.

이전 05화지도학습