결과에 설명을 품은 해설가
우리가 AI에게 요구하는 것은 스펨메일이 무엇인지 혹은, 금융사기 패턴이 무엇인지를 완벽하게 구분하고
판단하는 능력입니다.
거창하게 들리죠?
마치 인간 전문가처럼 스스로 기준을 세우고, 상황을 이해해 올바른 결론을 내려주길 기대합니다.
그런데 놀랍게도,
현재 의료 진단이나 금융거래 감지처럼 가장 똑똑하고 신뢰성이 높다고 평가받는 AI들은
사실 정답지를 미리 보고 공부한 존재들입니다.
잠시 우리 인간은 어떻게 배우는지 한 번 생각해 볼까요? 아주 간단한 질문부터 시작해 볼게요.
여러분,
시험 공부할 때 답지를 펼쳐놓고 문제를 풀어 본 적이 있으세요?
바로 그거예요!
정답을 미리 알고 공부하는 거예요.
이 아이디어가 사실 인공지능의 아주 중요한 한 분야를 꿰뚫는 핵심입니다.
놀랍게도 기계도 우리처럼 답지를 보고 배우거든요.
이걸 뭐라고 부르냐면, 바로 '지도학습'이라고 합니다.
자, 그럼 이 개념에 한번 푹 빠져 볼까요?
우리가 '정답'이라고 하는 걸 머신러닝 세계에서는 좀 더 전문적인 용어로 '레이블'이라고 불러요.
똑같은 개념이라고 보시면 됩니다.
지도학습에서 이 레이블이 없으면 사실상 아무것도 할 수가 없어요.
이게 바로 기준점, 정답 그 자체거든요.
기계한테 "이게 바로 정답이야"라고 알려주는 유일하고도 가장 중요한 단서인 거죠.
이게 좀 헷갈리시면, 옷에 붙어 있는 태그를 떠올려보세요.
그 태그가 없으면 이 옷이 M 사이즈인지, 면 100%인지 아닌지 알 길이 없잖아요.
레이블이 바로 그런 역할을 하는 거예요.
아무 의미 없던 데이터에 "이건 이런 뜻이야" 하고 의미를 딱 붙여 주는 거죠.
아주 간단한 예를 들어 볼게요. 기계한테 동물을 알아보게 가르치는 과정을 단계별로 쪼개서 살펴보겠습니다.
여기서 진짜 재밌는 포인트가 뭐냐면요. 기계가 우리처럼 "어, 저건 개구나" 하고 알아보는 게
아니라는 거예요!
기계가 하는 일은 개라는 레이블과 함께 자주 등장하는 데이터의 패턴,
그러니까 통계적인 특징들을 찾아내는 거죠.
예를 들면, "뾰족한 귀와 특정 픽셀 조합은 고양이 레이블이랑 자주 붙어 다니네." 혹은, "축쳐진 귀는 개 레이블이랑 관련이 깊구나." 이런 식으로
수많은 데이터 속에서 규칙을 발견하는 겁니다.
그런데 이렇게 데이터를 분류하는 것이 단순히 동물 사진 맞추기 게임에만 쓰이는 것은 당연히 아니겠죠.
사실 이것은 여러분이 바로 오늘, 아니 지금 이 순간에도 쓰고 있는 기술일지도 모릅니다.
이메일 스팸 필터,
사진 앱에서 자동으로 사람 얼굴 모아주는 기능,
병원에서 의료 영상 분석하는 것,
신용 카드 사기 탐지,
그리고 여러분이 뭘 좋아할지 추천해 주는 콘텐츠 추천 시스템까지
전부 이 지도 학습이 뒤에서 열심히 일하고 있는 덕분입니다.
가장 클래식하면서도 완벽한 예를 하나 들자면, 바로 스팸필터죠.
매일같이 우리 메일함을 지켜주는 든든한 파수꾼, 스팸필터는 어떻게 스팸을 알아볼까요?
간단합니다.
수백만 수천만 개의 이메일에 이건 스팸, 이건 정상이라는 레이블을 붙여서 학습시키는 거예요.
그럼, 시스템이 스스로 패턴을 찾기 시작합니다. "아하, 무료, 당첨, 광고 같은 단어는 스팸 메일에서 유독 자주 보이는구나" 하는 식으로 위험 신호를 감지하는 법을 터득하는 거죠.
자, 여기까지 들어보면 지도학습. 이거 완전 만능처럼 보이죠?
정말 믿을 수 없을만큼 강력한 방법인 건 맞아요.
하지만 여기에는 동전의 양면처럼 아주 거대한 약점이 하나 숨어 있습니다.
이 표를 보시면 그 딜레마가 한 눈에 들어옵니다.
한 쪽에는 높은 정확도라는 엄청난 슈퍼파워가 있죠.
정답 즉, 레이블이 명확하니까 모델이 아주 정교해질 수 있는 거예요. 그래서 의료나 금융처럼
실수가 용납되지 않는 분야에 딱이죠.
하지만 다른 한 쪽을 보세요. 바로 아킬레스건입니다.
데이터 병목 현상. 이 모든 걸 가능하게 하려면 정확한 레이블이 붙은 아주 깨끗한 고품질 데이터가
어마어마하게 필요한데 이걸 구하는게 정말 어렵다는 겁니다.
예를 들면, 이미지 분류 같은 복잡한 작업에서 90% 이상의 정확도를 보여 줍니다.
이게 그냥 높은 숫자가 아니에요. 이 신뢰성 덕분에
단 한 번의 실수가 치명적일 수 있는 의료영상 분석이나 금융사기 탐지 같은 아주 중요한 분야에서 지도학습이 핵심 기술로 쓰일 수 있는 이유입니다.
근데 그 레이블 하나를 만드는 데는 우리가 생각하는 것보다 훨씬 더 많은 것이 들어갑니다.
그냥 돈 문제만이 아니에요.
생각해 보세요.
데이터를 레이블링 하려면 누가 해야 할까요?
바로 의사나 관련 전문가들이어야 하죠. 그분들의 귀한 시간이 들어갑니다.
게다가
개인 정보 문제 때문에 법적인 규제도 엄청나게 까다로워요.
결국 이것은 돈, 시간, 전문 지식, 법률 문제까지 얽힌 아주 복잡하고 거대한 작업인 셈입니다.
이게 얼마나 어려운 일이냐면, 업계 전문가들 사이에서는 이런 말까지 나와요.
제대로 된 레이블링 데이터를 구하는 것은 하늘의 별따기다.
그만큼 거의 불가능에 가깝다는 뜻이겠죠.
자, 그럼 이 모든 이야기가 우리에게 말해 주는 건 뭘까요? 핵심을 정리해 보죠.
지도학습을 이해한다는 것은 우리가 매일 쓰는 기술을 완전히 다른 눈으로 보게 된다는 뜻입니다.
그냥 "와, 신기하다" 하고 쓰는 수준을 넘어서
이 기술이 왜 잘 작동하는지
그리고 더 중요하게는 왜 가끔 실패라는 어떤 한계를 가지고 있는지까지 꿰뚫어볼 수 있게 되는 거죠.
이제 여러분께 마지막으로 생각해 볼 거리를 하나 던져 드릴게요.
지금 쓰고 계신 앱들을 한 번 둘러 보세요.
어떤 앱이 이런 지도학습 방식으로 똑똑해졌을까요?
그리고 그 앱이 제대로 작동하기 위해서 과연 어떤 정답지 즉, 어떤 레이블이 필요했을지 상상해 보세요! :)