brunch

You can make anything
by writing

C.S.Lewis

by 코딩하는 수학쌤 Jul 06. 2021

24. 전처리와 통계-2, 필수 대학 수학 기초 3과목

데이터의 숨겨진 가치를 찾아주는 놀라운 도구 : 통계-2


4)  자료 탐색 및 변환 - 변수 가공(Feature Engineering)  

 데이터에는 다양한 속성이 있고 이를 변수로 사용합니다. 타이타닉 생존 데이터에서 나이, 객실, 성별 등과 같은 속성이 있는데 상황에 따라 이러한 변수들을 적절히 가공하여 분석하기 좋은 수치들로 고치기도 합니다.  


 먼저 변수 가공의 경우 기존의 데이터의 단위를 바꾸어주거나 새로운 속성을 만들어내어 결과에 향상을 주는 속성으로 만드는 것을 의미합니다. 예를 들어 타이타닉 생존 데이터에서는 자녀의 수인 parch와 형제자매의 수를 의미하는 sibsp이라는 속성이 있습니다. 이를 합해서 family_size 라는 새로운 속성을 만들 수 있습니다.


 또한 크게 도움이 되지 않은 속성은 제거할 수도 있습니다. 이 과정에서 어떠한 속성이 가장 인공지능 모델 성능에 도움을 주는지 통계 수치를 통해서 확인합니다. 양의 상관관계가 가장 큰 속성일수록 더욱 성능에 큰 영향을 주게 됩니다. 이처럼 어떤 속성이 결과에 가장 큰 영향을 미치는지, 굳이 없어도 되는지 등을 판단할 때 통계적인 수치를 활용하게 됩니다.  


5)   기술통계와 통계적 추정  

 비록 학교 수업에서는 인공지능이 처리하는 많은 양의 데이터를 다루지 못하지만 중요한 통계의 기초적 지식을 갖출 수 있습니다. 평균, 최빈값, 중앙값과 같은 대푯값이나 평균을 통해 산출하는 분산, 표준편차 등을 구하고 의미를 수학 시간에 배웁니다. 데이터 시각화는 히스토그램, 산점도 등의 활동을 중학교에서 다루는데 이를 바탕으로 시각화의 중요성을 배울 수 있습니다.


 학교 수학에서 배우는 통계는 크게 2가지입니다. 먼저 데이터를 요약하여 의미 있는 정보로 바꾸는 기술통계입니다. 데이터의 평균을 구하고, 시각화로 나타내어 데이터의 특성, 분포 특징 등을 살펴봅니다. 또 하나는 통계적 추정입니다. 이 내용은 고등학교 과정에 주로 소개가 되는데 일부 추출한 표본의 특성으로 전체 집단(모집단)을 살펴봅니다. 대학 과정의 통계에서는 더욱 다양한 분포와 함께 가설을 세우고 이 가설이 유효한지 아닌지를 살펴보는 가설 검증의 내용도 배웁니다.




한걸음 더  : 인공지능과 대학 수학 맛보기


 이제는 인공지능에서 활용되는 수학을 전체적인 시각에서 한 번 살펴보려고 합니다. 이 내용들은 주로 대학에서 배우게 되는 교과들의 로드맵이라고 할 수 있습니다.

인공지능이 컴퓨터에서 구동이 되기 때문에 대부분의 인공지능 전공의 내용은 컴퓨터공학의 필수 과목에 인공지능과 관련한 교과목들이 추가되어 있습니다. 여기에 수학이 일부 필수 과목으로 지정되는데, 이 수학 과목들은 컴퓨터와 관련한 전공을 배울 때도 필수적으로 이수를 하도록 교육과정이 구성되어 있습니다. 아래 내용은 수학 과목 중에서 필수적으로 배우게 되는 대표적인 3과목을 소개하고, 각 과목이 인공지능 및 중고등학교에서 배우는 수학이 어떤 관계가 있는지 살펴보겠습니다.   


1) 미적분학 (Calculus)  

 이공계 학과로 대학에 입학을 하면 1학년 때 가장 먼저 미적분학을 주로 배웁니다. 미적분학의 내용 중에서 변수가 하나인 함수에 해당하는 부분들은 고등학교 미적분 교과에서 배우게 되고, 변수가 여러 개인 다변수 함수들의 미적분을 대학에서 주로 다룹니다. 변수가 여러 개다 보니 (x, y, z) 벡터의 형태로 함수를 다루게 되며, 이와 관련한 미분들을 다룹니다. 그리고 특정 변수에 대해서만 미분을 하는 편미분, 함수의 위치에서 접선의 방향을 찾는 Gradients 등의 내용을 배웁니다. 쉽게 정리하자면 고등학교 때 배웠던 내용들을 여러 변수들이 등장하는 함수에서는 어떻게 다룰 것인지, 변화의 방향을 어느 방향으로 국한시켜 살펴볼 것인지 등을 다룹니다.


여기서 배우게 되는 내용들은 인공지능 과정에서 가장 빨리 해를 찾는 최적화 내용과 연관되어 있습니다. 딥러닝을 공부할 때 등장하는 경사 하강법을 다룰 때 미적분학에서 배우는 편미분, gradient 등의 내용들이 등장합니다.  


2)  선형대수학  

선형대수학은 간단히 벡터들의 수학적인 구조를 살펴보는 분야입니다. 연립방정식의 해를 구하는 과정에서 행렬을 도입하고, 행렬의 수학적 구조를 좀 더 일반적인 벡터라는 개념으로 살펴봅니다. 앞서 살펴본 대로 벡터에는 덧셈과 실수 배라는 연산이 있는데, 이를 바탕으로 공간적인 특성을 가지는 ‘벡터 공간’이라는 개념으로 확장시킬 수 있습니다.


인공지능에서 선형대수학은 행렬 연산과 벡터의 변환, n차원 공간의 이해 등을 하기 위해서 필수적으로 배워야 합니다. 미적분학에서도 다양한 변수들로 표현된 다변수 함수를 다루기 때문에 일부 학자들은 미적분학보다 선형대수학을 먼저 배우는 것이 좋다는 의견을 내어놓기도 합니다.   



3) 확률과 통계  

 확률론은 주로 고등학교 때 배우는 확률과 통계의 내용과 일치하는 내용이 많습니다. 어떠한 시행을 할 때 특정 사건이 일어날 확률을 구하고, 어떠한 조건이 가정되었을 때 확률을 계산하는 조건부 확률 등의 내용을 다룹니다.

 또한 기본적인 확률 분포의 내용을 이 과목에서 다루기도 합니다. 특정 사건에서 어떠한 내용을 수치화할 것인지를 결정하는 확률 변수(Random Variable)와 이 확률변수의 평균, 표준편차 등을 구하는 기본적인 통계 활동 일부를 다루기도 합니다. 일부에서는 이러한 분포와 관련한 정보의 양을 측정하거나 특성을 알아내기 위한 정보 이론(information theory)을 다루기도 합니다.

매거진의 이전글 23. 전처리와 통계-1 시각화,결측값,이상값처리
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari