brunch

You can make anything
by writing

C.S.Lewis

by 코딩하는 수학쌤 Jun 25. 2021

22. 통계:데이터의 숨겨진 가치를 찾는 놀라운 도구

[제3악장. idylle- 수학에서 인공지능으로]

 우리는 데이터의 홍수 시대에 살아갑니다. 우리도 모르는 사이에 직접 데이터를 생성하고 있기도 하고, 개인과 기업, 수많은 장비를 통해 만들어지는 수많은 데이터가 측정되고 저장되고 있습니다. 예전에 비해 데이터의 생성되는 양은 방대해졌고, 형태는 다양해졌으며, 속도 또한 비교할 수 없을 만큼 증가했습니다.




 데이터는 그 자체로 중요한 정보를 제공하지 않습니다. 데이터를 가공하고 분석하여 중요한 정보를 추출하고, 그 속에 숨겨진 관계를 파악해서 정보를 파악해야 합니다. 기업에서는 이를 활용해 서비스를 만들어 가치를 창출합니다. 예를 들어 월마트의 경우 고객들의 구매 패턴을 분석한 결과 기저귀와 함께 가장 많이 팔린 물품이 맥주라는 사실을 발견했습니다. 그 이유를 분석한 결과 아내의 부탁으로 기저귀를 구매하러 왔던 남편들이 맥주를 함께 구매했다는 관계를 발견했습니다. 구매 데이터에 숨겨진 연관 관계를 파악한 월마트는 기저귀와 맥주를 나란히 진열하였고 그 결과 맥주 매출을 이전과 비교하여 크게 올릴 수 있었습니다. 월마트가 기저귀의 판매량과 맥주의 판매량 사이의 관계를 발견한 것은 통계 기법을 잘 활용하여 두 요인 간 연관성이 높다는 것을 발견했고 이를 유추하여 상황 맥락을 확인할 수 있었습니다. 이처럼 통계를 잘 활용하면 데이터에 숨겨진 패턴이나 관계를 파악할 수 있고 가치 있는 정보를 얻을 수 있습니다.


 인공지능 모델이 결과물인 요리라고 비유한다면 데이터는 이 요리를 만들기 위한 식재료와 같습니다. 여러분이 훌륭한 요리를 만들기 위해 식재료를 구매하러 우리나라에서 가장 큰 가락시장에 갔다고 가정해봅시다. 그곳에는 채소, 고기, 각종 양념, 생선 등이 너무도 많이 존재하고 신선도가 어떤지, 가격은 적절한지에 대한 정보가 부족합니다. 이럴 때는 이러한 재료의 특성과 가격에 관한 전문가가 필요합니다. 시장을 자주 다니시는 부모님이나 요리 전문가는 경험을 통해 쌓여있는 통계적 지식이 있습니다. 불필요한 재료는 피하고 필요한 제품 중에서 신선도가 떨어지거나 가격이 너무 비싼 재료들을 선별할 수 있습니다. 또한 재료를 요리에 적당한 모양으로 다듬는 과정을 거칩니다. 데이터의 정제와 적절한 변환을 거치는 전처리 과정에서 모두 통계가 활용됩니다. 즉 통계라고 하는 것은 특정한 데이터가 기준으로 어떤 의미를 가지는지를 판단할 수 있는 능력과 인공지능에 적합하게 데이터를 가공하는 도구를 제공한다고 할 수 있습니다.


 통계는 인공지능의 다양한 부분에서 활용되고 있습니다. 예측 모델이나 분류 모델에서 데이터를 구분하는 선을 긋거나 추세선을 그어 판단을 할 때도 통계적인 지식을 활용합니다. 여러 단계 중 통계가 가장 큰 활약을 하는 단계는 데이터 전처리 과정입니다. 데이터 전처리 과정은 데이터를 인공지능이 사용하기 적절하게 정리와 가공을 하는 단계를 의미하는데, 이 과정에서 인공지능이 활용하기에 적합하게 데이터를 잘 처리해야 인공지능의 성능을 보다 향상시킬 수 있습니다. 마치 좋은 재료가 있더라도 어떻게 다듬느냐에 따라 요리에 적합한지 아닌지가 달라집니다. 좋은 무가 있더라도 깍두기를 만들 때는 조그맣게 썰어야 하고 동치미를 담글 때는 커다랗게 썰어야 제 맛이 우러나는 것과 비슷합니다. 마찬가지로 같은 데이터라도 전처리를 어떻게 하느냐에 따라 모델의 성능이 달라질 수 있습니다. 


 통계를 활용하여 어떠한 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 가리켜서 탐색적 데이터 분석(Exploratory Data Analysis)라고 합니다. 이 과정은 데이터 전처리를 통해 인공지능에 데이터를 입력하기 전 데이터의 잠재적인 문제를 발견함으로써 불필요한 수고를 줄일 수 있고 더 좋은 성능을 이끌어낼 수도 있습니다.


 다음 글에서는 캐글에서 제공하는 타이타닉 탑승자 훈련용 데이터셋 일부를 인용하여 간단히 개념을 살펴보겠습니다. 

매거진의 이전글 21. 확률 : 불확실함도 측정해내는 수학의 마술
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari