brunch

You can make anything
by writing

C.S.Lewis

by 최재운 Jun 23. 2023

인공지능 지도학습이 알려주는 성공적인 육아법

지도는 인공지능에게도 아이에게도 중요하다

인공지능이 학습하는 가장 기본적인 방식은 지도학습(supervised learning)이다. 지도학습이란 문자 그대로 인공지능을 지도하여 학습을 시켜 문제를 하게 하는 것이다. 아직 학습모델이 만들어지기 전 인공지능은 어린아이와 유사하여 아무것도 알지 못한다. 그래서 교사가 옆에 붙어 지도를 하는 것이다. 여기에서 지도학습의 또 다른 명칭인 교사학습이 나온 것이다. 아래 그림과 같이 인공지능은 사과를 학습할 때는 사과라는 정답(label)이 붙은 데이터를 학습하고, 배를 학습할 때는 배라는 정답이 붙은 데이터를 학습한다. 지도학습에서는 이렇듯 인공지능이 학습을 할 때 옆에서 하나하나 알려주는 전문가의 존재가 필수적이다. 마치 어린아이가 처음 학습을 시작할 때 부모의 존재가 필수적이듯이. 


교사의 존재가 반드시 필요한 지도학습 (출처 하단 명기)


인공지능 학습기법의 일종인 지도학습은 정답이 있는 데이터를 이용하여 학습을 한다. 학습이라는 것은 어쩔 수 없지만 잘하는 것과 못하는 것이 존재할 수밖에 없다. 성공적인 지도학습을 위해 필요한 요소들을 통해 아이를 학습시키는 과정에 필요한 부분이 무엇인지 하나하나 살펴보도록 하겠다. 




1. 가장 중요한 것은 양질의 데이터


지도학습의 성패를 좌우하는 가장 중요한 요소는 데이터의 퀄리티이다. 앞선 예에서 사과와 배를 구분하는 인공지능을 만들기 위해서는 사과와 배를 명확하게 나타내는 데이터를 구해야 한다. 강아지와 고양이를 구분하는 인공지능을 만들기 위해서는 마찬가지로 강아지, 고양이를 명확하게 알 수 있는 사진을 구해야 하는 것이고. 아직 여기까지는 데이터를 구하는 게 어렵지 않아 보인다.


자율주행 자동차에 들어가는 영상 인식 인공지능을 만들어보자. 시시각각 변화하는 도로의 상황을 제대로 인식하기 위해서는 수많은 상황을 다각적으로 볼 수 있는 다양한 데이터가 필수적이다. 도로의 수많은 표지판과 신호등은 물론, 보행자와 자동차, 가드레일과 나무 등 수많은 데이터를 수집을 해야 인공지능은 도로 상황을 인식해 자율주행을 할 수 있는 것이다. 이렇듯 영상을 인식하는 알고리즘도 중요하지만 인식 알고리즘의 주 재료가 되는 양질의 데이터를 확보하는 것이 가장 우선시되어야 한다. 테슬라의 자율주행이 앞서 나갈 수밖에 없는 이유도 여기에 있다. 테슬라는 이미 자신의 자율주행 플랫폼이 탑재된 차량이 전 세계에 퍼져있다. 여기서 수집되는 데이터를 꾸준히 학습에 사용하면서 자율주행 정확도를 높일 수 있는 것이다.


그럼 우리 아이들의 성공적인 지도학습을 위해 필요한 것은 무엇일까? 바로 투입되는 소스가 양질이어야 한다. 아이들이 지도를 통해 공부하는 자료들이 풍부하면 풍부할수록 다양하고 복잡한 일을 해내는 인공지능처럼 학습을 할 수 있는 것이다. 처음에는 풍부한 책들이 좋다. 다양한 분야의 책들. 그림책도 좋고 동화책도 좋고. 아이들의 상상력을 자극할 수 있는 다양한 책들을 통해 아이들은 본인들이 직접 체험해보지 못한 세상을 먼저 접하게 된다. 우리 아들의 경우 최소 하루에 1~2시간은 온전히 책을 보는데 시간을 보내고 있다. 강제로 시키지 않아도 이 책, 저 책을 보고 궁금한 건 읽어달라고 한다. 오늘 아침만 해도 우주선과 태양계, 우주가 있는 그림책을 읽어달라고 하며, 


"지구에는 내가 살아"

"달에는 누가 살아?"

"이거(토성의 고리)는 훌라후프 같아!"

"별똥별 잡아야 돼!"


와 같은 학습 과정을 진행하고 있다. 


여기서 중요한 건 "양질"의 데이터이다. 인공지능도 양질의 데이터가 아닌 저품질의 데이터로 학습할 경우 성능은 급속도로 떨어진다. 아이들의 학습과정도 마찬가지다. 우리 부부가 양육을 하며 절대로 금기하는 것 중의 하나가 미디어 노출이다. 우리는 아직 집에서 티브이를 틀지 않는다. 유튜브와 같은 스마트폰 매체 역시 이발을 하는 경우 외에는 절대로 보여주지 않는다. 아직 다양한 상상력을 통해 자라나야 할 아이의 뇌가 미디어에 노출되게 되면 급격히 미디어 친화적으로 진화하게 되고, 이는 부정적인 영향을 줄 수밖에 없다. 




2. 훌륭한 선생님의 존재가 필수


지도학습의 성패를 좌우하는 것은 양질의 데이터라고 앞서 이야기한 바 있다. 지도학습에서는 "전문가"가 학습에 사용되는 데이터에 정답을 붙이는 과정이 필수적이다. 양질의 데이터를 만들기 위해서는 전문가가 데이터에 정답을 붙이는 라벨링(labeling) 작업의 정확도가 요구된다. 앞서 든 예시와 같이 배/사과, 강아지/고양이에 대한 데이터에 정확한 레이블을 붙이는 것은 어렵지 않은 일이다. 하지만 CT나 MRI 같은 사진을 판독해야 하는 인공지능 시스템을 생각해 보자. CT 사진에 나타난 병변을 판독하기 위해서는 전문가인 의사가 미리 정답을 많이 만들어야 한다. 전문가가 아닌 사람이 CT 사진 데이터를 만들게 될 경우 CT 판독 인공지능의 정확도는 떨어지게 된다. 이는 치명적인 의료사고를 불러올 수 있다. 이렇듯 지도학습은 전문가가 정확한 데이터셋을 만드는 것이 가장 중요하다. 전문가가 잘 만들어놓은 데이터셋을 확보할 수 있다면, 시중에 나와있는 훌륭한 딥러닝 알고리즘을 통해 정확도가 높은 인공지능 모델을 만들 수 있다. 하지만 전문가가 부재하거나, 양질의 데이터를 구하기 힘들거나 하는 상황이라면 지도학습의 인공지능 모델은 정확도가 떨어질 수밖에 없다.


이미지를 학습하기 위해서는 데이터 라벨링이 필수 (출처 하단 명기)


따라서 지도학습을 활용하는 인공지능 모델을 개발할 때 첫 과정은 데이터 라벨링이다. 아무리 지능이 뛰어나더라도, 아무리 성능이 뛰어난 딥러닝 알고리즘이라도 전문가가 직접 사진이나 동영상에 이름을 붙이고, 구분해 준 다음에야 학습을 시작할 수 있다. 하지만 실제 현장에서는 데이터셋을 구하기도 어렵고 전문가가 라벨링 하는 과정도 힘들기에 불완전한 데이터셋을 활용할 수밖에 없는 경우가 많다. 이는 자연스레 성능 저하로 이어지게 된다. 지도학습의 성패는 어떤 최신의 딥러닝 알고리즘을 쓰느냐가 아니라, 어떤 데이터를 활용하고 어떤 전문가가 지도를 했는지에 달려있다.


이러한 인공지능 지도학습의 특성을 육아의 사례로 치환해 보면 어떻게 표현할 수 있을까?


"아무리 두뇌가 발달한 아이라도 지도해 주는 사람에 따라 학습의 효과는 천차만별일 수 있다."


지도학습의 성패를 데이터와 전문가가 좌우하듯이, 아이가 학습을 더 잘하기 위해서는 주변 환경을 만들어주는 부모와 선생님의 역할이 중요하다. 연구실에서는 인공지능을 학습시키며, 집에서는 이제 30개월 된 아들을 학습시키는 역할을 하고 있는 나로서는 이러한 사실에 더욱 책임감을 느끼게 된다. 회사에서는 일을 하며, 집에서는 육아를 하며 힘들지만 보람된 나날을 보내고 있는 모든 부모님들 파이팅!




사진출처


https://thebook.io/080244/0010/

https://www.aitimes.com/news/articleView.html?idxno=139633

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari