brunch

You can make anything
by writing

C.S.Lewis

by 코딩하는 수학쌤 Jun 28. 2021

23. 전처리와 통계-1 시각화,결측값,이상값처리

[제3악장. idylle- 수학에서 인공지능으로]

  데이터 요약하기 - 대표값 산출과 시각화


 인공지능에 활용되는 데이터는 여러 가지 속성들을 가지고 있습니다. Kaggle에서 제공하는 타이타닉 생존자 훈련용 데이터셋을 보면 객실, 이름, 성별, 나이 등과 같은 속성들을 볼 수 있습니다. 그런데 약 600여 개의 자료만 하더라도 사람들이 한눈에 살피기에는 그 양이 너무 많죠.


 통계는 이렇게 많은 데이터를 간략하게 요약해서 정리해주는 역할을 합니다. 대표적으로 평균, 최빈값, 중앙값 등의 대푯값들이 있습니다. 수치형으로 나와있는 데이터들 중에서 모든 값들을 더해 그 개수로 나눈 것을 평균이라고 합니다. 최빈값을 가장 많이 나온 값들이 무엇인지를 설명합니다. 중앙값은 값들을 나란히 줄을 세웠을 때 가장 가운데 오는 값들이 무엇인지를 설명합니다.


 반면 시각화는 각 속성의 값들이 어떻게 분포하는지를 눈으로 확인할 수 있게 그래프를 비롯한 다양한 방법을 통해 표현해줍니다. 때로는 2개의 속성에 대하여 점들을 찍는 산점도(scatter plot)의 형태로 나타내기도 하고, 변량에 따른 도수 분포를 나타내는 히스토그램, 막대그래프 등도 좋은 시각화 방법이 됩니다.

타이타닉 생존자 데이터 분석의 시각화 예시

 데이터가 한눈에 들어오는 표 하나 정도로 정리된다면 모르겠지만 그렇지 않은 수많은 데이터의 경우 적절한 시각화 기법을 활용하여 한눈에 볼 수 있습니다. 데이터 시각화의 경우 인공지능에 직접적인 활용을 주기보다는 데이터를 적합하게 가공하는 단계에서 직관적으로 데이터의 특징을 파악할 수 있게 도움을 줍니다.  



결측값 처리 (Missing Value treatment)  

 위의 데이터를 살펴보다 보면 값들 중 일부가 없는 경우가 있는데 이를 결측값이라고 합니다. 이러한 결측값들을 가지고 모델을 만들게 되면 변수 간의 관계가 정확하게 측정되지 못하기 때문에 모델의 정확성이 떨어지게 됩니다. 이때 결측값을 적절히 처리를 해주어야 합니다.


 결측값 처리에는 주로 삭제와 대체 방법을 사용합니다. 만약 결측값이 무작위로 일부만 발생할 경우 결측값을 포함한 자료를 삭제할 수 있습니다. 위의 자료에서 나이가 공백인 경우 그 승객의 자료를 제외하는 것과 동일합니다. 또 하나의 방법으로는 다른 값으로 대체할 수 있습니다. 가장 많이 나오는 최빈값, 혹은 그 속성의 평균값 등 통계로 계산한 대푯값을 결측치로 대신하는 방법입니다. 마지막 방법으로는 예측값들을 사용할 수 있습니다. 다른 속성으로 인해 그 값들을 유추할 수 있는 경우에 이를 활용할 수 있습니다. 예를 들어 신발 사이즈에서 결측치가 발생할 때 키를 통해 신발 사이즈를 예측하는 방법을 사용할 수 있습니다.


  

이상값 처리 (outlier treatment)

-이미지 출처 : stats.stackexchange.com

 이상값(outlier)란 통계에서 다른 데이터와 매우 동떨어진 관측값을 뜻합니다.  제 둘째 아들이 하루는 유치원을 다녀온 후 

“아빠! 새로 온 친구는 키가 200나 된대!” (예전에 등장했던 예시죠?)
라는 말을 했었어요. 실제 유치원생의 키가 200cm이 될 리는 없겠죠. 아마 102를 200으로 잘못 알아들었거나 신발 사이즈를 키로 잘 못 들었을  가능성이 훨씬 더 클 것입니다. 


 이상값은 관측이나 측정의 오류로 주로 발생하는데 이 데이터가 인공지능에 그대로 활용될 경우 모델을 왜곡할 가능성이 높습니다. 데이터에 나타난 이상값들은 전체 분포를 살펴봄으로 확인할 수 있는데 사람이 직접 개별 데이터를 관찰하거나 통계 수치를 활용해서 검출할 수 있습니다. 이 외에도 그래프나 히스토그램, 점 플롯 등과 같은 데이터의 시각화를 통해도 찾아볼 수 있고, 머신러닝을 활용하여 이상치를 검출해낼 수 있는 여러 통계적인 기법 또한 존재합니다.


 이상값이 사람의 입력 혹은 관찰 실수로 인한 적은 양의 데이터인 경우 삭제를 하면 됩니다. 하지만 이상값이 자연적으로 발생한 데이터일 경우이거나 개수가 지나치게 많을 경우 이상값이 발생한 원인을 분석할 필요가 있습니다. 예를 들어 근무 연차와 연봉의 관계를 살펴볼 때 특이하게 높은 값들을 기록하는 이상값이 발생할 경우 고소득 전문직에 해당할 수 있으므로 그 값들은 별도로 처리하는 방법을 활용해야 합니다. 예를 들면 직업에서 일반 직종과 고소득 직종을 나누어서 살펴보는 방법을 택함으로써 측정된 이상값들이 공통적으로 가지는 특성을 추출하여 함께 다룰 수 있습니다.

매거진의 이전글 22. 통계:데이터의 숨겨진 가치를 찾는 놀라운 도구
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari