brunch

You can make anything
by writing

C.S.Lewis

by 김종민 Aug 28. 2022

PCA/통계로 분석한 LCK
2022 LCK Summer

재밌는(?) 데이터 분석으로 바라본 LCK

LCK의 데이터 중, 승률에 영향을 미치는 가장 중요한 변수는 무엇일까?

저는 리그 오브 레전드 게임을 즐기는 만큼, LCK(League of Legend Champions Korea)를 시청하는 것을 즐깁니다. 최근 플레이오프에서는 동시 시청자 수가 100만을 넘을만큼, 국내에서도 국제적으로도 인기가 많은 리그인데요. 대망의 2022 LCK 써머 시즌도 이제 결승전만 남겨두고 있습니다.


결승전을 고대하며 기다리던 어느 날은 커뮤니티를 눈팅하다가 다음과 같은 글을 보았습니다. 



이 글은 PCA(주성분분석)라는 방법을 활용해서 선수들의 개인 지표를 분석한 내용이었는데요. 이분은 LCK 2022 Spring의 데이터를 바탕으로 데이터를 분석하였고, 상당히 흥미로운 해석 결과를 제시하였습니다. 이분의 분석 주제는 다음과 같습니다. LCK 선수들의 다양한 데이터 중, 승률에 가장 영향이 있는 것은 무엇인가?


저도 이 분의 글을 보고 이번 써머 시즌도 비슷하게 분석해보면 재밌겠다는 생각에 연습차 PCA 분석을 진행해봤습니다. 다만 이 분이 크롤링으로 데이터를 가져온 소스가 더 많은 것 같고, 저는 Gol.gg라는 사이트의 데이터만을 활용하여 PCA를 진행하였습니다. 또한 저는 주성분의 개수를 더 줄여서 약식으로 진행하였습니다.


PCA-주성분 분석이란?

PCA는 차원 축소 기법의 하나입니다. 차원 축소 기법은 수많은 설명 변수의 상호 연관성을 바탕으로, 설명 변수들의 개수를 줄이는 방법입니다. 자세한 설명은 아래 사이트를 참조해주시면 감사하겠습니다.


PCA 외에도 데이터 분석에는 다양한 기법이 있는데요. PCA를 활용한 이유는 다음과 같습니다.

1) 원본 데이터의 설명 변수들 간 Mulitcolinearity가 높은 것으로 보여서입니다.

- 실제로 15분 골드 리드나, 15분 경험치 리드 등 설명변수들의 Correlation이 높아보입니다.


2) 예측을 위한 데이터 분석이 아닌, 중요 지표가 무엇인지 분석하기 위해서입니다.

- 예측을 위해서 다중 회귀분석을 진행하는 경우, 보통 Forward나 Backward로 변수를 추가해가면서 적당한 모델을 찾는데요. 이 경우 어떤 설명 변수가 중요한지의 여부보다는 최종적으로 종속 변수의 예측력을 염두에 두게 됩니다. PCA를 활용하면 전체 설명 변수의 정보는 다소 유실되나, 변수들끼리 묶음으로서 어떤 변수가 승률에 중요한 영향을 미치는지를 파악할 수 있습니다.


그럼 본문으로 넘어가보겠습니다.


(1) 데이터셋

데이터셋은 gol.gg의 데이터를 활용하였습니다. 플레이오프가 아닌 시즌 중의 데이터만 활용하였습니다. 원본 데이터셋의 경우 바텀 듀오들간의 포지션 변경(원딜이 세나, 서포터가 CS를 먹는 탐켄치 등)을 구분하여 데이터가 준비되어 있는데요.

KT의 원딜인 Aiming의 예시로 보시면 서포터와 원딜 모두 데이터가 기록되어있습니다. 다만 이 경우, 바텀 듀오끼리 서로 역할을 바꿔서 경기를 치른 수가 적습니다. 따라서 바텀 듀오간의 역할 변경은 염두에 두지 않고, 선수별로 단순 통합하였습니다. 통합 데이터셋은 아래와 같습니다. 종속 변수는 Win rate로, 승률입니다. 즉 다른 변수들이 승률에 얼마나 영향을 미치는지를 분석하고자 했습니다.


(2) PCA 분석 결과

위의 설명 변수들을 바탕으로 PCA를 수행한 결과, 주성분의 개수 n=3으로 하는 것이 적합하다고 판단하였습니다. 3개의 주성분으로 전체 설명변수 변동의 99.5%가 설명되기 때문입니다.(그만큼, 현재 준비된 데이터셋의 Correlation이 높은 것으로 볼 수 있습니다.)


주요 변수들을 하나씩 살펴보고 분석해보도록 하겠습니다.


주성분1. 라인전/15분 스노우볼

주성분1의 값 X축으로, 승률을 Y축으로 하여 선수별로 Scattered Plot을 그리면 아래와 같습니다.

전체적으로 봤을 때 PC1(주성분1)과 승률은 비례관계에 있습니다.


Y축의 가장 상단에는 정규 시즌 성적이 가장 좋았던 젠지의 선수들이 눈에 띕니다. Y축을 따라서 아래로 가면 팀의 정규 시즌 성적이 나타난다는 것을 볼 수 있습니다.


PC1 축으로 보면 역시 젠지의 선수들이 눈에 띄나, 같은 승률인 경우 특히 쵸비와 룰러가 눈에 띕니다. 정글 중에서는 피넛이 눈에 들어오구요. T1에서는 탑라이너 제우스, 샌드박스에서는 프린스가, 담원에서는 너구리, KT에서는 에이밍이 높은 지표를 보여줍니다. 이 지표를 좀 더 뜯어보면 아래와 같습니다.


설명 변수들 중 PC1에 영향을 많이 주는 것들을 보면, 15분 지표들입니다. 15분 전에 경험치/골드에서 얼마나 앞섰는가, CS를 얼마나 리드하고 있는가가 나타납니다. 여기에 더해서 분당 CS와 골드도 PC1에 기여하고 있는데요.


즉, 이 지표는 라인전에서 얼마나 리드하는지, 초반에 얼마나 이득을 봤는지, 그 이득으로부터 얼마나 스노우볼을 굴렸는지에 대한 지표이며, 돈에 대한 지표라 볼 수 있겠습니다. 이 지표는 전체 설명 변수 변동의 76%를 차지하는 중요한 변수입니다. 이 지표를 가지고, 승률을 종속변수로 하여 단순 회귀 분석을 하였을 때의 R-square 값은 0.4에 이릅니다. LCK가 괜히 주도권의 리그가 아닌듯 합니다.


주성분2. 포지션: 딜러들의 딜링 능력

주성분2(PC2)의 경우 설명변수의 전체 변동 중 24%를 설명하는데요. 마찬가지로 Scatter Plot을 살펴보면 아래와 같습니다.

우선 전체적으로 눈에 띄는 것은, PC1과 달리 명확한 비례관계는 눈에 들어오지 않는다는 것입니다. 그런데 눈에 들어오는 것은 다른 것입니다. PC2에서는 명확히 정글과 서포터가 낮은 값을 보이고, 라이너들이 높은 값을 보입니다. 한 번 구성 변수들을 자세히 살펴봅시다.

PC2에서 중요한 값은 데미지, 즉 딜링 능력입니다. PC2에 주로 기여하는 값은 데미지입니다. 또한 이 값에 (-)기여를 하는 것은 15분 경험치, CS, 골드 등입니다. 즉 PC2는, 초반에 크게 앞서지 않더라도 전투로 이를 극복하는가? 초반 리드 대비 딜러들의 데미지 효율이 어떻게 되는가로 해석됩니다. 같은 팀에서도 정글러와 서포터의 이 지표가 낮게 나타나는 것을 보면, 팀 내 딜링을 주로 담당하는 포지션이나 팀의 플레이스타일도 이 지표를 통해 엿볼 수 있습니다.


젠지의 선수들은 대체로 15분 이전에 게임을 터트렸다보니, 이 지표가 전체적으로 높지는 않습니다. 젠지의 딜러들 중에서는 룰러가 눈에 띕니다. 데미지 비중도 높고, 초반에 리드하지 않거나 불리하게 출발하더라도 후반에 캐리력을 보여주는 것으로 보입니다.


T1에서는 페이커, 샌드박스에서는 도브, 담원에서는 덕담, KT에서는 에이밍이 눈에 띄는데요. 에이밍의 경우 앞서 PC1 지표가 높았기 때문에 PC2에서는 상대적으로 낮은 값이 나옵니다. 다만 이는 에이밍의 캐리력이 부족하다는 해석보다, 에이밍은 이번 시즌 라인전에서도 강점을 보였고, 캐리력도 상당히 준수했다고 보는 것이 맞는 듯 합니다. 페이커의 경우 초반 정글러의 투자를 받는다거나, 라인전에서 힘을 싣지 않아도 데미지를 충분히 뽑아내는 것으로 해석됩니다. 도브나 덕담 역시도 마찬가지인데요. 초반부터 팀원들의 투자를 받아 힘을 싣지 않아도, 딜을 충분히 뽑아낼 수 있다는 점을 시사합니다.


한편 팀 전체로 봤을 때는 리브 샌드박스의 선수들, 특히 정글러인 크로코 선수까지도 이 PC2 지표가 높은 것으로 확인되는데요. 리브 샌드박스의 교전 실력과 플레이스타일을 생각하면 그럴 수 밖에 없겠습니다. 이번 시즌 샌드박스는 특유의 전투 지향적 플레이스타일을 보여주며, 불리한 게임도 싸움으로 뒤집는 낭만의 팀이라는 찬사를 들었습니다.

사진=샌드박스 유튜브


주성분3. 플레이메이킹(변수 창출)과 시야

주성분3(PC3)의 경우 전체 설명 변수 변동의 5% 내외를 차지합니다. 이 값이 적기 때문에 해석의 여지가 열려 있는데요. 우선 Scatter Plot을 보면 아래와 같습니다.

이 지표가 높은 선수들의 경우, 재밌게도 포지션이 뒤섞여 있습니다. 라이너로는 T1 선수들이 눈에 들어오고, 원딜로는 룰러와 덕담이 이 지표가 높네요. 정글러로서는 주한, 드레드 서포터에서는 카엘, 모함 등이 높은 지표를 보이네요. 자세히 살펴보겠습니다.

이 지표에 영향을 미치는 것은 퍼스트 블러드 관여 정도와 시야 점수들입니다. 와드 설치나 파괴 등이 있군요. 이를 토대로 이 지표를 해석하면, 팀적으로 움직이며 시야를 잡고, 초반 킬에 참여하는 정도로 볼 수 있습니다. 팀 게임인 프로 리그에서, 보통 퍼스트 블러드는 설계된 상황에서 나오기 마련입니다. 즉, 이 지표는 설계된 상황 속 플레이메이킹이나 변수 창출로 볼 수 있겠습니다.


다만 이 지표가 낮은 선수를 보면 다소 의아한 결과인데요. 솔로킬로 유명한 라스칼의 경우, 팀적인 설계보다는 독자적으로 움직이기 때문에 이 지표가 낮은 것이 이해가 됩니다. 그러나 쇼메이커나 빅라의 경우 이번 시즌 플레이메이킹을 비롯해 팀이 필요한 상황에서 변수 창출을 하는 모습을 자주 보여주곤 했는데요. 이러한 내용들이 수치로 반영되지 않았다는 한계가 있는 듯 합니다.


이 지표가 높은 하위권 팀의 선수들은 정글러나 서포터인 경우가 많습니다. 해설들도 지적하듯, 보통 하위권 팀에서는 조합이 단순한 것이 좋죠. 이니시와 플레이메이킹, 설계를 담당하는 역할을 서포터에게 맡겼기 때문인 것으로 보입니다. 페이커의 경우 초중반 라인전보다는, 플레이메이킹으로 변수를 창출하는 팀적 움직임에 능하다는 것이 눈에 띕니다. 한편, 젠지에서는 이 수치가 룰러에게서 높은데요. 그 이유는 라인전에서부터 솔로킬과 퍼스트 블러드를 많이 냈기 때문입니다. 사실 바텀에서의 듀오킬, 솔로킬, 퍼스트 블러드는 팀적으로 가장 영향이 크죠. 이 점을 감안하면 일리가 있습니다.


마지막으로 이 PC1, PC2, PC3를 변수로 하여 다중 회귀 분석을 돌린 결과는 다음과 같습니다.

R-squared 값이 0.4정도인데, 앞서 언급드렸듯 PC1 단독으로 회귀 분석을 수행했을 때의 값이 0.4에 근접하므로 사실상 통계학적 관점에서 해석상 가장 의미가 있는 값은 PC1로 보입니다. F-statistic 값을 봤을 때 모델 전체적으로는 통계적으로 의미가 있네요. 다만 변수들을 따로 살펴보면, PC1(=x1)의 값은 Cofficient가 통계적으로 유의미하지만, 나머지는 그다지 유의미하진 않네요. PC1, 2, 3간에도 Correlation이 꽤 있는 것 같은데요. 그렇지만 어쨌든 PC2와 PC2도 승률과 약한 양(+)의 상관관계가 있는 것으로 보입니다.  D-W 통계량은, PC1, 2, 3외에 다른 변수가 있는지를 판별하기 위한 값인데요. 잔차들간 약간의 상관관계가 엿보입니다. 여기에 반영되지 않은 Omitted Variable이 있을 수 있습니다.


또 한 가지 재밌는 특징이 있다면, 위에서 언급하지는 않았지만, 게임 출전 수와 승률은 꾸준히 양의 상관관계를 보입니다. 이는 팁적으로 교체선수를 계속 활용하는 경우 승률이 좋지 않다는 것을 의미하는데요. 팀이 아직 최적의 조합을 찾지 못했거나, 선수 개인으로도 폼의 기복이 심하다는 것을 의미합니다.


(3) 결론

그래서 결론을 내리면 다음과 같겠습니다.


1. LCK는 주도권의 리그. 15분 전의 리드가 상당히 중요하다.

2. 롤은 딜러 게임. 딜러의 역량이 두드러지게 나타난다.

3. LCK엔 운영의 팀과 한타의 팀 등 다양한 스타일이 있으며, 같은 포지션의 선수라도 팀 내 역할이 다르다.

4. 플레이메이킹과 팀적 영향력의 관점에서 봤을 때, 바텀이 중요하다.


특히 1과 2, 그리고 4를 요약하면, 요즘 롤을 설명하는 대세 이론 중 하나가 됩니다. 바로 '씨맥의 바텀론'입니다. 바텀이 이기면 우리 팀은 이기고, 바텀이 지면...원딜이 딜러로서 구실을 할 수 있어야만 희망이 있다는 내용인데요. 재미로만 봐주시면 됩니다ㅋㅋ

사진=씨맥,도파 유튜브


이렇게 간단한 PCA 데이터 분석을 해봤는데요. 엄밀하게 분석한 것이 아니라 한계는 많으니, 그저 읽을거리로, 재미로 봐주시면 감사하겠습니다.


분석에 한계가 있다면, LoL이라는 게임이 20~40분 내에 끝나니, 그 중 절반을 차지하는 15분 리드는 당연히 중요하다는 비판이 있을 수 있겠습니다. 또 한편으로는 강팀은 경기를 빨리 끝내기 때문에, 15분부터 앞설 확률이 크고, 그래서 15분이 중요한 것처럼 보일 수 있습니다. 데이터가 반영될 때 애초에 더 가중치를 받는 셈입니다.


또한 수치상으로 반영되기 어려운 점들이 많습니다. 우선 제가 데이터를 한 사이트에서만 가져왔기 때문에 누락된 것이 있을 수 있고, 애초에 수치상으로 표현하기 어려운 요인이 분명 존재합니다. 


또 LCK 써머라는 한 시즌을 기준으로 했음에도, 시즌 중에 메타가 변했다는 점입니다. 이전에는 15분 리드로 게임을 굴리는 경향이 강했으나, 시즌 막바지가 되면서 '시비르'와 '제리-유미'로 대변되는 원딜 캐리조합이 주목받았습니다. 그래서 딜러들의 역량과 한타가 더욱 중요해졌는데, 이런 시계열적인 변화는 데이터에 반영되지 않았습니다.


또 15분 리드가 LCK에서 더 두드러지는 특징인지, 타 리그와의 비교가 필요할 것으로 보입니다. 15분 리드는 LCK뿐만 아니라 다른 리그에서도 공통적으로 중요할 것으로 보이는데요. 그렇다면 다른 리그와의 차이점을, 데이터 분석의 관점에서 어떻게 설명할 수 있을지가 또다른 주제가 될 것으로 보입니다.


이상입니다. 감사합니다. 


매거진의 이전글 자연어 처리가 어려운 이유: 인공지능이 아닌 인간지능

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari