데이터 분석을 떠받치는 수학을 읽고
「데이터 분석을 떠받치는 수학 」은 엑셀로 통계를 배우는 내용의 책이다. 인공지능(A.I.)은 딥러닝이라는 데이터 분석 방법으로 획기적인 기술의 발전을 맞았다. 2016년 이세돌과 구글의 '알파고'가 바둑으로 대결하여 이후의 결과로 보게 되면 인간이 단 한 번의 승리를 가진 역사가 만들어졌다(한 번의 패배 이후, 인공지능은 더욱 발전했다). 인공지능은 이제 스스로 학습하는 단계로 나아가고 있다. 바둑이라는 한정된 공간 속에서는 인간이 만든 데이터가 아닌 자신과 자신이 만들어내는 데이터를 가지고 바둑 실력을 늘려갔다. 결과적으로 인간이 두지 않는 A.I. 수법이 인간의 바둑 전반에 퍼지게 되었다. 인간이 한계 지어 놓은 인식의 절벽을 기계는 넘어버린 것이다.
나는 인공지능이 궁금한 한 사람으로서 결국, 이러한 기술들의 밑바탕은 데이터 분석이라고 생각한다. 기존에 딥러닝 기술을 만들어 내게 되는 배경도 이러한 데이터 분석 기법들의 축적이라고 볼 수 있다. 이 책은 일반인들에게 데이터 분석을 위한 기초를 제공하고 압축기법인 주성분 분석과 분류 기법인 마할라노비스-다구찌 시스템 및 예측기법인 회귀분석을 엑셀로 구현해내고 데이터 분석 실습을 하는 과정으로 구성되어 있다. 실제 업무 중에 보게 되었던 통계 관련 단어들이 많이 등장했다.
분산과 표준편차의 의미를 직접적으로 이해하게 되었고, 정규분포와 3 시그마라는 말도 알게 되었다. 행렬을 사용한 데이터 처리와 변환 과정뿐 아니라 미분의 사용으로 데이터를 활용하는 방법을 보았다.
주성분 분석은 퍼져있는 데이터를 변환하여 하나의 축으로 바꾸며 데이터가 희소한 권역(차원?)을 버릴 수 있게 했다. 이는 의미가 없는 데이터 부분을 삭제함으로써 원 데이터에는 손상을 주지 않고 아니면, 최소한의 손상으로 데이터 차원을 줄여주는 방법이다. 이러한 내용을 직접 엑셀 데이터를 변환하며 이해하게 되어 상당히 쉽게 통계학을 받아들이게 되었다.
마할라노비스-다구찌 시스템은 후에 딥러닝으로 개화하게 되는 분류 기법의 대표적인 방법이다. 정상상태와 비정상상태를 구분하는 방법을 제시하는 것으로, 일변량(일반적인 데이터 변동성) 내에 있는 데이터라도 분산상 이상(마할라노비스 거리가 기준을 벗어난) 상태를 파악할 수 있는 방법으로 정상상태와 비정상상태를 구분한다. 주성분 분석과 거의 동일한 방법이 사용되어 이해가 용이했다.
딥러닝 기법의 인공지능에 영향을 미친 것은 회귀 분석이다. 딥러닝은 회귀 분석이 다 차원적으로 펼쳐지게 된 것과 같은 내용이다. 그래서 예측 기법인 회귀 분석은 인공지능 이해에 상당히 중요하다. 우리가 배웠던 함수가 단순 회귀 분석의 하나였고, 두 개 이상의 변수를 이용하는 다중회귀 분석은 현실의 다양한 이해(상태)를 반영한다. 여러 독립변수들이 하나의 결과를 만들어 내는 과정을 보여준다. 여기에서는 행렬이 중요한 계산 방법이 된다.
참고로 딥러닝은 다중회귀분석과 유사하나, 역 전파라고 하여 결과를 계산한 내용을 독립변수 항들에 역으로 전달하여 계산하는 방법이다.
상당히 어려워 수학적인 내용을 이해하는 것은 무리가 있었으나, 회귀분석을 엑셀을 통해 실습을 하며 수학적인 모델이 어떻게 기계적으로 또는 기술적으로 적용되는지 눈으로 파악하여 상당히 이해가 잘 되었다.
올 한 해 인공지능의 이해를 위해 '통계분석을 위한 R 언어', '내가 쓴 숫자 인공지능 인식 하기' 및 '엑셀을 이용한 데이터 분석'까지 공부해왔다. 현재의 기술이 적용되는 기본을 알게 되었다. 모르면 두렵다. 하지만, 알고서 바라보는 이 변화는 두려움 없이 맞이 할 수 있을 것 같다. 그리고, 내가 일하고 있는 부분에 파급되는 기술의 변화에도 능동적으로 대처할 수 있을 것이다.