AI에 대한 뉴스를 보면 이런 표현이 정말 자주 등장합니다. ‘더 많은 데이터를 학습했기 때문에 AI의 성능이 좋아졌다’, ‘편향된 데이터를 학습한 AI의 위험성에 주의해야 한다’, ‘이제 AI가 학습할 데이터가 부족하다’, ‘AI 기술의 발전을 위해 데이터 센터를 지어야 한다’ 등등…. AI를 다루는 기사에는 반드시 언급된다고 해도 과언이 아닌 ‘데이터를 학습한다’는 말의 정확한 의미는 무엇일까요?
AI가 데이터를 학습한다는 말 자체는 어렵지 않습니다. 대개 사람들은 ‘지능을 개발하려면 학습이 필요하구나’, ‘학습을 하면 AI 모델의 성능이 좋아지는구나’ 하는 정도로, 학습을 하면 더 똑똑해진다는 논리적인 결과로 받아들이고 대강 넘어갑니다. 그런데 마음 한구석에 분명 찜찜한 구석이 있습니다. 사람이 학습을 한다는 말은 알겠는데, 기계가 학습을 한다는 것은 머리 속에서 선명하게 그려지지 않습니다. 짐작하겠지만 사람이 학습하는 행위와 기계가 학습한다는 행위가 일치하지 않습니다. 사람과 기계가 엄연히 다른 존재이기 때문에 당연한 말입니다.
어떤 반복적 행위 이후에 특정한 능력이 향상된다는 의미에서 기계의 학습도 사람의 학습과 결과적으로는 같은 목적을 달성하지만 구체적인 실행 절차나 방법은 다를 수 밖에 없습니다. ‘데이터를 학습한다’ 말은 현대 AI기술의 근본 뼈대이기 때문에 이 말의 의미를 정확하게 이해하는 것에서부터 AI에 대한 이해가 시작됩니다. AI 기술의 근본이라고해서 뭔가 심오할 것 같지만 사실 의외로 간단합니다. 이 모든 것들은 다 사람들이 생각해낸 방법이고 이 책을 읽는 우리도 똑같은 사람이라 자연스레 이해가 될 수 밖에 없습니다.
기계가 ‘데이터로 학습한다’는 표현에서 ‘학습한다’는 동사 앞에 목적어가 생략되어 있습니다. 그 목적어는 ‘패턴’입니다. 완전한 문장은 ‘기계가 데이터를 이용해 패턴을 학습한다’는 것입니다. 이때 패턴은 데이터들이 관계를 맺는 모양, 방식입니다. 아주 간단한 사례로 패턴의 의미를 선명하게 이해할 수 있습니다.
사람들의 키와 몸무게 데이터가 있다고 하면 키 데이터와 몸무게 데이터가 맺는 관계가 패턴입니다. 일반적으로 키가 클수록 몸무게가 증가하는 정비례 관계를 보일 것입니다. 그런데 단순히 두 데이터가 비례하는 모양을 이해하는 정도가 아니라, 패턴을 숫자를 이용해 구체적으로 표현할 수 있다면(일상적인 용어로 ‘수식’ 또는 ‘공식’이 있습니다), 기계는 현실 세계에 존재하는 키와 몸무게의 관계를 학습해서 알게 되었다고 말할 수 있습니다. 이때 키와 몸무게가 관계를 맺는 공식을 사람이 알려준 것이 아니라 기계가 스스로 데이터를 보고 학습했다고 말합니다. 기계가 데이터를 보고 이런 관계를 알게 되었다면, 적어도 키와 몸무게 관계라는 실재하는 현상에 대해서는 사람들이 아는 만큼 기계도 알게 된 것입니다.
키와 몸무게의 관계를 이해하는 지능을 ‘키몸무게 지능’이라고 부른다면 ‘키몸무게 지능’의 구체적인 모습은 키와 몸무게가 맺는 관계를 표현한 공식을 알고 있는 상태라고 말할 수 있습니다. <그림 1>에서 표현된 데이터를 수식으로 표현하면 아래와 같습니다.
키 = 어떤 수1 X 몸무게 + 어떤 수2 <수식 1>
수식은 우리가 잘 아는 1차 함수 y=ax+b 형태와 동일합니다. 이 수식이 확정되려면 어떤 수1, 어떤 수2가 정해져야 합니다. 수학을 배운 우리 사람들은 논리적인 절차를 통해 이 숫자들을 알아 냅니다.
그런데 AI는 어떻게 알아낼까요? 정답을 듣고 실망하거나 놀라지 않았으면 좋겠습니다. AI는 어떤 수1, 어떤 수2를 찾을 때까지 다양한 숫자 조합을 반복적으로 넣어서 그 수가 적당한지 계산해 봅니다. 갖고 있는 데이터의 실제 패턴에 들어맞는 숫자들을 찾을 때까지 이 과정을 반복합니다. 사람의 지능이 작동하는 방식처럼 논리적인 절차대로 움직이지 않습니다. AI가 이렇게 어떤 수를 찾는 방법은 너무 막연해서 조금 더 효율적인 방법을 사용하기 위해 여러 가지 아이디어를 동원하긴 하지만 정답을 찾을 때까지 임의의 숫자를 반복적으로 넣어보는 방식이라는 본질은 같습니다.
이것이 AI가 데이터로 패턴을 학습하는 방법입니다. 앞으로 이야기를 더 확장해 나가겠지만 어떤 현상이나 사실 관계에 들어맞는 공식을 찾고, 그래서 겉으로 보기에 그 현상이나 사실을 이해하는 지능이 있는 것 같은 모습을 갖출 때까지 다양한 숫자를 반복적으로 넣어보고 검증하는 일이 바로 AI가 데이터로 학습한다는 말의 실체입니다.
이제 AI가 데이터로 학습한다는 말의 실체를 이해했으니 앞에서 언급된 뉴스 기사를 다시 읽어 봅시다.
‘더 많은 데이터를 학습했기 때문에 AI의 성능이 좋아졌다’.
AI의 성능이 좋아졌다는 말은 더 적합한 어떤 수1과 어떤 수2를 찾았다는 의미입니다. 이 말의 의미를 먼저 일상적인 사례로 이해해 봅시다. 우리가 어떤 사람을 처음 만났을 때, 얼마나 말을 많이 하면 좋을지를 잘 대처하는 지능이 있다고 해보죠. 너무 말이 많으면 첫인상이 가벼워 보일 수 있고, 너무 말이 없으면 분위기가 딱딱해 지겠죠. 나의 평소 모습의 몇 %쯤 말을 하면 첫 만남의 대화로서 적당할까요? 예를 들면 나의 평소 모습의 80%?(0.8), 아니면 조금 무리해서 120%?(1.2), 아마도 사람들을 많이 만나서 경험이 쌓일 수록 더 적절한 비율(%)를 찾을 수 있을 것입니다. 이때 경험이 데이터이고 평소 본인 모습의 몇 % 느낌으로 말을 할지가 바로 어떤 수에 해당됩니다. 경험이 많을 수록 더 좋은 비율을 찾을테고 그렇게 되면 첫만남에서의 대화를 잘 이끄는 지능이 좋아지는 것이라고 말할 수 있습니다.
키몸무게의 사례로 돌아가면 AI가 학습하는 키 몸무게 데이터가 더 많으면 이 세상에 존재하는 키몸무게 관계를 더 잘 반영하는 어떤 수1과 어떤 수2를 찾을 수 있습니다. 물론 데이터가 많으면 임의의 어떤 수1, 어떤 수2를 넣어 계산해야 하는 부담도 늘어납니다. 예를 들어 데이터가 10개 있으면 임의의 어떤 수 1과 어떤 수2를 10개의 데이터에 적용시켜(즉 곱해서) 그 숫자가 적당한 수인지 검증해야 하지만 데이터가 100개로 늘어나면 100개의 데이터에 모두 다 적용해서 검증해야 하기 때문입니다. 하지만 데이터가 많으면 더 좋은 어떤 수1, 2를 찾을 가능성은 높아집니다.
‘편향된 데이터를 학습한 AI의 위험성에 주의해야 한다’는 뉴스 기사는 어떨까요? 예를 들어 AI가 학습한 키몸무게 데이터가 빈곤한 지역에서 수집한 데이터라면 그 데이터에 잘 들어맞는 어떤 수1, 어떤 수2는 실제 세계의 키몸무게 관계를 잘 반영하지 못하겠죠? 부유층이 사는 곳에서 얻은 키몸무게 데이터도 마찬가지입니다. 즉 한쪽으로 치우친 데이터에 잘 들어맞는 어떤 수1, 어떤 수2는 그 자체로서 편향된 수식을 만들어 냅니다.
다시 말하지만, 어떤 수1과 어떤 수2를 어떤 논리적인 공식이나 절차로 찾는 것이 아니라 있는 데이터에 무작정 임의의 수를 넣어보고 가장 적당한 수를 찾는 것이기 때문에 AI의 학습은 절대적으로 학습하는 데이터에 의존적일 수밖에 없고, 그렇기 때문에 학습 데이터의 편향성이 항상 문제가 되는 것이죠. 음식을 먹어야 체력이 좋아진다면 편식을 하면 안되는 이치와 같고, 좋은 생각을 가지려면 편협한 정보들(예를 들어 알고리즘이 추천한 유튜브 영상 등)을 멀리해야 합니다. 음식과 정보들이 건강한 체력과 건전한 사고의 원천이기 때문이고, AI에게는 데이터가 바로 음식과 정보들입니다.
출처: https://diseny.tistory.com/entry/12-사람의-학습-AI의-학습
[의미를 이해하는 통계학과 데이터 분석:티스토리]