brunch

You can make anything
by writing

C.S.Lewis

by 쿨캄준 CCJ Jan 28. 2023

아브라함 왈드 사례 그리고 데이터분석의 한계

게임사에서 직무와 상관없이 게임을 직접 플레이해야 하는 원인

좋아요와 구독은 쿨캄준에게 큰 힘이 됩니다 ! :D


안녕하세요 글쓰는 직장인 쿨캄준입니다.  



게임을 포함한 IT기업에서 일하는 직원들 일부를 보면 본인이 일하는 회사의 메인 비즈니스에 대한 이해가 없는 경우가 종종 있습니다. 아니 많이 있습니다.


예컨대 당신은 게임 스타트업에 재직하는 데이터분석가라고 해 봅시다. 당신의 역할은 유관부서에서 요청하는 데이터를 뽑아주고 분석해 주는 역할을 할 것입니다.  회사의 규모가 크다면 보기 쉬운 대시보드를 만들어서 전사 배포하고 데이터를 언제든지 쉽게 뽑을 수 있는 인프라 마련하는 역할도 있겠지요.  


데이터분석팀은 유관부서에서 요청받은 업무를 진행하지만, 왜 이러한 데이터가 필요한지 완벽히 알지는 못할 겁니다.  왜냐하면 데이터분석가는 관련 기술은 있지만 게임 장르의 특성, 게임 플랫폼에 따른 유저 성향, 주요 비즈니스 모델, 플레이 동기 등에 대한 이해와 국내외 시장의 차이점에 대해서는 무지하기 때문입니다.


즉 해당 기술자가 본인이 스스로 사업에 도움이 되는 가설을 세우고 해당 가설이 맞는지 안 맞는지, 또는 KPI의 트렌드를 보고 현재 서비스가 처해 있는 상황은 어떠하고, 이를 바탕으로 어느 방향으로 나아가야 하는지에 대해서는 무지한 경우가 대다수입니다.


Abraham Wald(아브라함 왈드) 사례를 들어보겠습니다. 아래의 그림을 보시죠. 좌측은 세계 2차 대전 시 본진으로 살아 돌아온 전투기들이 사격을 당한 지점들을 빨간색 원형으로 표시해 둔 것입니다.  예를 들어 50대가 돌아 왔다면, 해당 비행기들이 총격을 맞은 부분들을 아래와 같이 취합한 것이죠.


<전자책 MBA> 책 더 알아보기↓


통계 리서치 그룹(SRG)은 전투기의 기동성을 유지하면서 생존성을 높이기 위해, 전투기 중 어디에 장갑판을 부착할지 고민하고 있었습니다.


장갑판은 무겁기에 너무 많이 부착할 경우, 비행 속도에 영향을 줍니다.  그리고 전투기가 무거울수록 기름 소비량도 상승하는 문제가 있다는 정도는 SRG도 알고 있었습니다.  즉 추락을 최적으로 방지할 수 있는 곳에만 장갑판을 효율적으로 부착해야 하는 것이죠.


이제 다시 위 그림을 보겠습니다.  어디에 부착해야 할까요?  당연히 총알을 많이 맞은 빨간색 지점들에 장갑을 달아야죠.  너무 쉬운 질문을 했나요? 


데이터가 그렇게 말해 주고 있으니 당연히 그래야 하는데 말이죠.  해당 붉은 지점들에 많이 공격을 받았기 때문에 그래야 하지 않을까요?  아닙니다.


본인이 속한 비즈니스에 대한 이해 없이 데이터만 보고 판단한다면 이러한 결론을 내릴 겁니다.  데이터분석가들의 한계인 거죠.  또는 통찰력, 사고력 그리고 적절한 경험이 없는 상황에서 데이터만 보고 의사결정을 하는 오류를 범하게 됩니다. 


위의 데이터의 경우 추락하여 돌아오지 못한 전투기들에 대한 데이터는 없습니다.  즉 진정한 데이터 기반 의사결정에 의존하려면 추락한 비행기들도 수거하여 관찰하여야 합니다.  다르게 표현하면 해당 데이터는 랜덤한 표본이 아니라는 것이죠.  더 풀어서 이야기하면, 살아 돌아온 전투기만 관찰을 했기 때문에, 이들이 모든 비행기를 대표할 수 없다는 겁니다.  


통계학적으로 의미가 있으려면 표본의 사이즈가 충분히 커야 하며 무조건 랜덤으로 지정되어야 합니다.  생존한 비행기만 데이터로 삼는 것은 랜덤하지 못하죠.  데이터분석에서는 <garbage in garbage out>이라는 표현을 많이 합니다.  쓰레기를 넣고 보석과 같은 결과를 기대할 수 없다는 겁니다.  


수년간 가짜 데이터를 제공한 직원


심각한 상황은 쓰레기를 넣었는지 모르는 무지한 사람들에 의한 의사결정입니다.  총알이 대부분 비행기의 기체에 맞았으니 장갑을 기체에 달았겠지요.  이러한 오류를 범하면 안 됩니다.  기체에 총을 맞아도 돌아왔으니, 전투기가 추락한 원인은 기체가 아닌 엔진 부위에 총격을 당했기 때문임을 생각할 수 있어야 합니다.  이에 장갑을 아래와 파란색 원과 같은 부위(주로 엔진 위치)에 달아야 하겠지요.  



붉은 곳에 총격을 당하여 살아 돌아온 전투기들을 참고하여 의사결정을 내렸다면, 좋게 말하자면 생존자 편향의 오류(Survivorship bias)에 빠졌다고 표현할 수 있겠습니다.  반대로 나쁘게 이야기하면 비행기 구조에 대해 아는 게 없다는 거겠죠.  엔진이 비행기의 심장이니 이를 보호해야 한다고 판단을 내리는 것은 데이터 없어도 가능한 일입니다.  이것이 바로 올바른 의사결정을 하기 위해서는 회사의 제품 그리고 비즈니스 환경에 대해 알아야 하는 원인이 되겠습니다.  


데이터 이면에 무엇이 있는지 우리는 알아야 합니다.  데이터는 참고 정도만 하는 것이지, 데이터만을 통한 의사결정은 언제나 슬기롭다고는 할 수 없습니다.  기초 데이터가 쓰레기가 아닌지 확인하는 작업은 필수이며, 무결한 데이터를 보고 알 수 없는 지역에 대해서는 비판적 사고와 경험이 주요하게 작용한다고 생각합니다.  


게임을 서비스하는 퍼블리셔 또는 플랫폼 회사에서 재직하면서, 게임에 대한 지식이 하나도 없는 사람이 내리는 데이터 기반 의사결정은 오류가 있을 수밖에 없습니다.  게임에 대한 이해를 기반으로 데이터를 참고하여 의사결정을 해야 하는 것이지요.  다르게 이야기하자면, 엔진이 총에 맞으면 비행기가 추락한다는 생각을 일절 하지 못하고, 기체에 장갑을 부착하는 오류가 일어날 겁니다.  당사자는 데이터에 기반하였다며, 옳은 의사결정을 하였다며 착각에 빠지겠지만요. 



<전자책 MBA> 책 더 알아보기↓


좋아요와 구독은 쿨캄준에게 큰 힘이 됩니다 ! :D
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari