육아에서 저주를 피하는 방법은?
인공지능이 저주에 걸린다?
과유불급(過猶不及). 지나친 것은 적은 것보다 못하다는 뜻의 많이들 알고 있는 사자성어. 이 오래된 사자성어가 최첨단 인공지능에도 어울리는 경우가 있다. 바로 '차원의 저주'라고 불리는 인공지능의 오래된 난제를 표현할 때다.
차원의 저주(Curse of Dimensionality)는 인공지능 모델을 만들 때, 데이터를 표현하는 정보(feature)의 개수가 많아지면 복잡도가 오히려 높아지며 모델의 정확도가 떨어지는 것을 의미한다. 차원의 저주에서 말하는 '차원'은 인공지능 모델 구축 시 각 데이터 샘플 각각을 정의하는 정보 개수를 뜻한다. 일례로 최근 용역 과제로 하고 있는 산불 발생을 예측하는 모델을 개발한다고 가정해 보자. 이 예측모델을 만들기 위해 강원도 지역의 갖가지 데이터를 수집하였다. 기온, 습도, 강수량 등의 기후 관련 정보 외에도 인구, 교통량, 대형 행사 개최 횟수도 포함된다. 인공지능 모델이 기온, 습도, 강수량까지만 활용한다면 3차원 모델이 되는 것이고 여기에 추가로 인구, 교통량, 대형 행사 개최 횟수까지 포함하게 된다면 6차원 모델이 되는 것이다.
우리는 언뜻 생각하기에 인공지능에 다양한 정보를 투입하면 더 정확도가 높아진다고 생각을 한다. 하지만 이렇게 모은 모든 정보가 산불 발생과 관련이 있는 것은 아니다. 관련이 없는 정보까지 투입을 하게 되면 인공지능은 혼란을 겪게 되고, 모델은 더욱 복잡해지면서 적은 정보를 넣었을 때보다 정확도가 오히려 떨어지는 현상이 벌어지게 된다. 이렇듯 과다한 정보 투입으로 인공지능 모델의 성능이 떨어지는 것을 '차원의 저주'라고 부르고 있으며, 인공지능 학계에서 오래된 난제에 속한다.
오래된 난제인 차원의 저주를 해결하기 위한 방안으로는 무엇이 있을까?
우선, 차원을 다 커버할 수 있는 수많은 빅데이터를 준비하는 것이다.
데이터 차원이 높아져서 데이터의 수 보다 고려해야 할 차원이 커지면서 발생하는 것이 차원의 저주이다. 따라서 차원을 넘어서는 데이터의 수를 확보하면 이론상 저주를 피해 갈 수 있다. 하지만 어마어마한 양의 데이터를 구하는 것이 쉽지 않다. 데이터를 확보하는 것 역시 인공지능 연구의 최대 난관 중 하나이다. 그리고 어마어마한 양의 빅데이터를 확보했다고 하더라도 이를 감당할 인공지능 모델은 어마어마한 양의 리소스를 잡아먹는 모델이 될 수밖에 없다. 연산능력이 상당히 뛰어난 하드웨어와 최신 딥러닝 모델들이 결합해야만 빅데이터 기반의 모델을 만들 수 있다. 그래서 현실적 레벨에서 차원의 저주를 벗어나기 위한 기법들 역시 다수 나와있다.
가장 많이 쓰는 해결책은 필요한 정보만 남기는 것이다.
앞서 예로 든 산불 예측 모델을 생각해 보자. 수집한 데이터의 정보들을 모두 이용하게 되면 6차원의 복잡한 인공지능 모델이 만들어진다. 하지만 이 복잡한 모델은 연관성이 적은 정보들까지 모두 고려하느라 정확도가 떨어지게 된다. 따라서 비교적 연관성이 떨어지는 교통량, 대형 행사 관련 정보들은 과감하게 버리고 단순한 모델을 만들게 되면 오히려 정확도가 높아진다. 이러한 방법을 ‘주성분분석(Principal Component Analysis, PCA)'이라고 한다. PCA란 데이터의 특성을 가장 잘 표현하는 '주성분'만을 추출해서 정보의 양을 줄이는 방법으로 인공지능을 배우게 되면 초창기에 배우는 기법이다.
(6차원이 인공지능에서 복잡한 것은 아니지만 예를 들기 위해 이렇게 표현함)
차원의 저주는 인공지능에만 적용되는 것일까? 스마트폰의 보급과 다양한 블로그의 글들, 그리고 유튜브에서 쏟아지는 정보들까지. 현대 사람들은 정보의 홍수에서 살고 있다. 필요한 정보는 우리의 삶에 도움이 되지만 과도한 정보는 우리에게 혼란을 줄 뿐이다. 과도한 정보의 차원에서 혼란을 겪고 있는 우리 역시 차원의 저주에 빠져있다 할 수 있다.
육아 역시 마찬가지이다. 육아 정보는 조금만 검색해 봐도 너무 많다. 티비와 책을 통해 쏟아지는 정보 외에도 블로그, 유튜브의 정보들은 모두 자기가 옳다고 하면서 각자의 방향을 제시한다. 이제 곧 31개월이 될 우리 아들을 육아하는데 역시 참고해야 할 정보는 넘쳐나고 결정해야 할 것 역시 넘쳐난다.
내년에 어린이집을 보내야 할지, 유치원을 보내야 할지
유치원을 보낸다면 영어유치원을 보내야 할지, 일반유치원을 보내야 할지
학군지로 이사할 계획을 잡아야 할지, 이사한다면 언제 어디로 가야 할지
몬테소리 교육을 받는 조리원 친구는 벌써 수를 30까지 센다는데 우리도 시켜야 할지
어떤 동화책을, 어떤 그림책을 사줘야 할지
한글공부, 숫자공부를 위한 놀이 방법으로는 무엇을 해야 할지
매일매일 다양한 육아의 난제들을 해결하기 위해 정보를 찾고 이 정보에 혹 했다가 저 정보에 혹 했다가 하는 것이 요즘의 일상이다. 현재의 육아 역시 차원의 저주에 빠진 것일까? 그러면 육아에 있어 차원의 저주를 벗어나기 위해 인공지능이 했던 방법들을 한 번 참고해 보자.
인공지능처럼 부모가 학습할 데이터를 극한으로 늘려본다?
인공지능이 차원의 저주를 벗어나기 위한 방법으로 빅데이터를 활용하는 방법을 이야기한 바 있다. 우리도 이처럼 육아에 투입되는 정보를 극한으로 늘리면 해결책을 찾을 수 있지 않을까? 하지만 인공지능이 빅데이터를 통해 차원의 저주를 벗어나기 위한 조건을 다시 한번 살펴보면 이 방법은 해결책이 되기 쉽지 않다는 것을 알 수 있다. 빅데이터를 어렵게 수집하고, 또한 빅데이터를 감당할 하드웨어와 알고리즘이 뒷받침되어야지만이 차원의 저주를 넘을 수 있었던 인공지능의 접근 방법을 육아에 빗대어 보자. 육아 관련 엄청난 양의 자료를 확보하고, 부모가 이를 학습해서 온전히 소화해 낼 수 있는 능력은 기본이고 이 과정에 투자할 어마어마한 시간이 있어야만 한다. 이를 해낼 수 있는 부모는 많지는 않을 것 같다.
결국 필요한 건 선택과 집중
인공지능이 택한 두 번째 방법. 필요한 정보만 남기고 나머지는 제거하는 방법을 육아에서 역시 고려할 필요가 있다. 아래 그래프에서 x축은 데이터의 차원, 정보의 수이며 y축은 성능이다. 고려해야 할 정보가 늘어날수록 처음에는 성능이 좋아지지만, 일정 수준 이상을 넘어서게 되면 성능이 다시 줄어든다는 것을 알 수 있다. 육아 역시 마찬가지이다. 우리에게 쏟아지는 수많은 정보 중에서 부모의 방향에 맞는, 인공지능 용어로는 주성분에 해당하는, 데이터만을 취사선택하여 여기에 집중할 필요가 있다.
필요한 정보를 추려내기 위해 수행하는 주성분분석은 '주성분'이라고 하는 정보를 추리는 것이 중요하다. 아무 정보나 제거하는 것이 아니라 목적에 맞지 않다고 판단이 되는, 주성분이 아니라고 판단이 되는 데이터만을 제거하는 것이다. 육아에 있어서도 우리 아이를 양육하는데 주성분이 되는 데이터를 판단하는 것이 중요하다. 이를 위해서는 부모가 중심을 잡아야 한다. 큰 방향성에 있어 어떤 아이로 키울 것인지를 먼저 확립을 해야 무엇이 주성분이고 무엇이 주성분이 아닌지 판단할 수 있다. 바람에 흔들리는 갈대처럼 주관이 흔들리면 이 정보에 흔들리고 저 정보에 흔들려서 우리 아이만 혼란스러워할 뿐이다.
물론 방향을 확립한다는 것이 쉽지 않다는 것은 며칠 뒤 31개월이 되는 아들을 키우는 입장에서 너무 잘 알고 있다. 하지만 지금도 계속해서 큰 방향성이 무엇인지에 대해서 고민하고 와이프와도 계속해서 논의하며 방향을 잡으려 하고 있다. 이렇게 방향을 정하게 되면 무엇이 필요한지, 무엇이 필요 없는 정보인지 가려낼 수 있지 않을까? 지엽적인 정보도 좋지만 방향성을 먼저 잡도록 함께 노력해 보자.