brunch

You can make anything
by writing

C.S.Lewis

by 서진호 Jun 18. 2018

월드컵 2018, 과연 누가 우승할까요?

인공지능이 예측한 월드컵 2018

다시 4년 만에 돌아온 월드컵이 개막되었습니다! 매번 우리는 한국이 16강을 넘어 설까? 어느 나라가 우승할까? 월드컵이 시작할 때마다 늘 설레기 마련입니다. 그러한 예측을 이전에는 문어의 점괘로 맞추었습니다. 물론 펠레의 저주도 있지만 심지어 요즘은 고양이에게 주문을 한다고 하더군요! 아무래도 미신 측면이 강합니다. 


그러나 올해부터는 다릅니다! 바로 인공지능이 예측을 했습니다. MIT 테크 리뷰 온라인에 소개되었는데요, 오늘은 이 소식을 여러분들께 전달하겠습니다. 


인공지능이 예측한 결과

단독 직입적으로 말하자면, 한국이 총 32개 팀 중 16강에 올라갈 가능성이 17.9% 라고 합니다. (그림 1 참조). 우리나라와 함께 소속된 F조인 스웨덴과 독일팀이 올라갈 확률이 29.9% 로 훨씬 더 높습니다. 그 외 각국이 올라갈 확률을 [그림 1] 표에 잘 나타나 있으니 한번 살펴보시기 바랍니다. 


[그림 1 - 인공지능이 예측한 월드컵 2016 조별 나라 팀별 진출표]


그렇다면, 우승 팀은 과연 어느 나라 팀일까 궁금할 텐데요, 브라질과 독일 결승전에서 맞붙어 브라질이 우승컵을 차지할 것이다 라는 예측이 16.6% 정도라고 합니다. 그다음으로 독일 12.8%, 스페인 12.5% 순으로 나타났습니다. (그림 2 참조)


[그림 2 - 월드컵 2018 16강 1,2위 순위 확률표]


그렇다면, 16강 이후부터는 어떻게 펼쳐질까? 궁금하시죠! [그림 3]은 [그림 2]에 예측한 팀을 수평 트리 형식으로 펼쳐져서 확률로 나타내었습니다. 독일 도르트문트 대학 연구팀에서는 4강이 프랑스, 브라질, 스페인, 독일로 점치고 있고, 결승전은 브라질과 독일이 맞붙어 승리하는 확률이 무려 64%가 된다고 합니다. 

 

[그림 3 - 월드컵 2018 8강 대진 예측]


그렇다면, 어떻게 그들은 예측했나?

결과를 보고 너무 확률이 낮은 거 아닌가? 고개를 갸우뚱 거리 실 텐데, 이 예측 논문은 독일 도르트문트 기술 대학의 안드레아스 그롤과 동료들이 일반 통계학과 머신 러닝 기법을 사용했다고 합니다. 좀 더 기술적으로 말해서, 서로 다른 팀들 중 가장 우승할 확률이 높은 우승팀을 선정하는 랜덤 포레스트 접근(Random-Forest Approach) 기법을 사용했다고 합니다.


좀 더 기술적인 배경을 설명하자면, 랜덤 포레스트 기법은 대용량 빅 데이터를 분석하는 데 가장 많이 사용되고 있습니다. 미래의 예측을 하기 위해서는 트레이닝 데이터의 집합을 참조하여 각 브랜치를 계산하여 결과 값을 가지는 결정 트리(decision tree) 기법으로 식별합니다.


그런데, 결정 트리는 한 가지 잘 알려진 문제를 제공합니다. 바로 브랜칭 프로세스에서 결정들은 브랜치가 산발적으로 흩어지고, 오버 피팅(overfitting)이라고 알려진 문제로 아주 큰 변동을 하기 쉽기 때문에 심하게 왜곡됩니다. 


따라서, 이와 같은 기법과 전혀 다른 랜덤 포레스트 기법으로, 각 브랜치에서 결과를 계산하는 대신에, 브랜치 프로세스들이 랜덤 브랜치들의 결괏값을 계산합니다. 랜덤으로 선택된 브랜치의 다른 집합들로 여러 번 처리한 다음 최종 결과로 그러한 랜덤으로 처리로 생선 된 결정 트리의 값들입니다. 


이러한 기법들은 많은 장점을 가집니다. 일반 결정 트리들을 성가시게 하는 똑같은 오퍼 피팅 문제로부터 제공받지 않습니다. 또한 어떤 인자들이 결과를 식별하는 데 가장 중요하는 지를 알 수 있습니다. 만일 특별한 결정 트리는 많은 파라미터를 포함한다면, 어떤 파라미터들이 결괏값이 가장 크게 영향력을 끼치는지 그렇지 않은 지를 쉽게 볼 수 있습니다. 그러한 들 중요한 인자들은 미래에 무시할 수 있습니다. 


그릴과 코는 2018 월드컵을 모델화하고 정확하게 이러한 방법으로 2018 월드컵을 모델화했다고 했다고 합니다. 각 나라 팀들이 플레이한 것을 각 게임의 결과를 모델화하고 토너먼트의 가장 확률이 높은 코스를 생성하는 결과를 이용했다고 합니다.      


참고로 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 회귀분석(Regression Analysis)과 같은 곳에서 사용되는 앙상블 학습 메서드(ensemble learning method)를 이용해 Training 과정에서 구성한 다수의 decision Tree로부터 분류하여 평균 예측치를 출력해서 예측하는 방식을 말합니다.


결론 - 그래도 축구공은 둥그니깐요! 

재미있었나요? 우리나라에겐 너무 절망적인가요? 이것은 어디까지 이것은 통계학의 확률입니다! 그래도 축구공은 둥그니깐 직접 부딪쳐 봐야겠죠! 그래도 한국 선수들을 응원합니다! 필승! 월드컵 2018 코리아!


1. 참조 1 - MIT Tech Review Online 
https://www.technologyreview.com/…/machine-learning-predic…/


2. 참조 2 - 어렵지 않게 논문을 잘 적었어요! 더 머신 러닝과 데이터 사이언스에 관심 있는 분들은 아래의 논문을 읽어 주세요!
https://arxiv.org/pdf/1806.03208.pdf

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari