들은 것이나 개인적인 경험에만 의존하면 세상이 어떻게 돌아가는지에 관해 틀리게 생각하기 쉽다. 좋은 데이터 과학의 방법론은 직관적이지만, 그 결과는 직관에 반할 때가 많다.
데이터 과학은 자연적이고 직관적인 인간의 행위에 따라 패턴을 발견하고, 이해하는 과정을 거친다. 그러고는 거기에 스테로이드를 주입해 우리에게 세상이 우리 생각과는 완전히 다른 방식으로 돌아간다는 점을 보여준다. 어떤 사람이 농구 선수로 성공을 거둘지 예측하는 사람들에 관해 연구할 때 바로 이런 일이 일어났다.
어린 시절 나에게는 꿈이 있었다. 나는 프로 농구 선수가 돼서 나의 영웅, 뉴욕 닉스의 올스타 센터, 패트릭 유잉의 발자취를 따르기를 간절히 원했다.
모든 데이터 과학자의 내면에는 왜 어린 시절 꿈이 이뤄지지 않았는지를 알아내려고 노력하는 아이가 있지 않을까 하는 생각을 가끔한다. 그러니 내가 최근에 NBA 선수가 되는 데 무엇이 필요한지 조사한 것도 놀랄 일은 아니다. 하지만 결과는 놀라웠다. 조사 결과는 좋은 데이터 과학이 세상을 보는 시각을 어떻게 바꿀 수 있는지, 숫자가 얼마나 반反직관적일 수 있는지를 다시 한번 입증해줬다. 내가 조사한 특정한 질문은 이것이었다.
가난한 가정 출신과 중산층 가정 출신 중
NBA에서 성공할 가능성은 어느 쪽이 더 높을까?
대부분 사람들이 가난하게 자란 선수가 성공 확률이 높을 것으로 짐작한다. 통념에 따르면 홀어머니나 10대의 어린 엄마 밑에서 어렵게 성장하면 경쟁이 치열한 스포츠에서 최고 수준에 오르는 데 필요한 투지를 키울 수 있다.
필라델피아에 있는 고등학교 농구 코치인 윌리엄 엘러비는 《스포츠일러스트레이티드》와 인터뷰하면서 이러한 견해를 밝혔다. “교외에 사는 중산층 가정의 자녀들은 재미로 운동을 합니다. 도심 빈민 지역의 아이들은 농구를 사느냐 죽느냐의 문제로 봅니다.” 나는 뉴저지 교외에서 부모님 밑에서 성장했다. 내 세대 최고의 선수였던 르브론 제임스는 오하이오 애크론에 사는 열여섯 살 난 싱글맘에게서 태어나 가난하게 성장했다.
내가 실시한 인터넷 설문조사에서 미국인 대다수는 엘러비 코치나나와 비슷하게 생각하고 있었다. NBA 선수 대부분이 가난하게 성장했다고 말이다. 이런 통념이 옳을까?
데이터를 살펴보자. NBA 선수들의 사회경제적 지위에 관해서는 포괄적인 데이터 정보원이 존재하지 않는다. 하지만 데이터 탐정이 돼서 다양한 정보원의 데이터를 이용하면 NBA 선수를 만드는 데 가장 도움이 되는 가정환경을 알아낼 수 있다(나는 바스켓볼레퍼런스닷컴b, 앤시스트리닷컴, 미국인구총조사등 을 활용했다). 당신도 알게 되겠지만, 이런 연구는 다양한 데이터 정보원을 이용한다. 어떤 것은 크고, 어떤 것은 작고, 어떤 것은 온라인이고, 어떤 것은 오프라인이다.
첫 번째로 점검한 관련 데이터는 모든 선수의 출생지였다. 나는 미국의 모든 카운티에서 1980년대에 얼마나 많은 흑인과 백인이 태어났는지를 기록했다. 다음으로 그중 NBA에 이른 사람이 얼마나 많은지를 기록해 이것을 해당 카운티의 가구 평균 소득과 비교했다. 또한 나는 그 카운티의 인종별 인구통계를 통제했다. 왜냐하면 흑인은 백인보다 NBA에 이를 확률이 약 40배 높기 때문이다.
데이터는 부유한 카운티에서 태어났을 때 NBA에 이를 확률이 상당히 더 높다고 말해줬다. 미국에서 가장 부유한 카운티 중 한 곳에서 태어난 흑인 아이는 가장 가난한 카운티에서 태어난 흑인 아이에 비해 NBA에 이를 가능성이 두 배 이상 높다. 백인 아이의 경우, 부유한 카운티에서 태어난 아이가 가난한 카운티에서 태어난 아이보다 NBA에 이를 확률이 60퍼센트 높다.
이는 통념과 반대로 가난한 사람이 NBA에 적게 진출해 있다는 사실을 보여준다. 그렇지만 이 데이터는 완벽하지 않다. 뉴욕의 맨해튼처럼 미국의 많은 부유한 카운티에는 할렘 같은 가난한 지역도 있기 때문이다. 따라서 어린 시절의 어려운 환경이 NBA에서 성공하는 데 도움이 될 가능성은 여전히 남아 있다. 우리에게는 더 많은 단서와 더 많은 데이터가 필요하다.
그래서 나는 NBA 선수들의 가정환경을 조사했다. 이 정보는 보도기사와 소셜 네트워크에서 찾았다. 이 방법에는 시간이 많이 들기 때문에 나는 분석 범위를 1980년대에 태어난 흑인 NBA 선수 중 득점 순위가 100위까지인 선수로 제한했다. 미국의 평범한 흑인과 비교했을 때 NBA 슈퍼스타들은 10대 엄마나 미혼모에게서 태어났을 가능성이 약 30퍼센트 낮았다. 달리 말해, 흑인 최고 NBA 선수들에게 편안한 가정환경은 성공에 큰 이점으로 작용했다.
그렇긴 하지만 카운티 수준의 출생 자료도, 한정된 표본의 선수들의 가정환경도 모든 NBA 선수들의 어린 시절에 관한 완벽한 정보가 되지는 못한다. 때문에 나는 양친이 있는 중산층 가정이 홀어머니나 홀아버지가 부양하는 가난한 가정보다 더 많은 NBA 스타를 배출한다고 확신하지는 못한다. 이 문제에 관한 자료가 많아질수록 더 나은 결과를 얻을 것이다.
이후 나는 출신 배경에 관한 단서를 제공하는 데이터 포인트를 하나 더 기억해냈다. 두 경제학자, 롤랜드 프라이어와 스티븐 레빗의 논문에는 흑인의 이름이 사회경제적 배경을 암시한다는 내용이 있다. 프라이어와 레빗은 1980년대 캘리포니아의 출생증명서를 연구해 아프리카계 미국인 중 가난하고 교육을 많이 받지 못한싱글맘이 아이들에게 붙이는 이름이 교육 수준이 높은 중산층의 부모들이 붙이는 이름과 다르다는 것을 발견했다.
부유한 배경의 아이들은 케빈, 크리스, 존 같은 평범한 이름을 얻는 경우가 많다. 그런데 저소득 주택 단지의 어려운 가정 아이들은 노숀, 유닉, 브리언셰이 같은 독특한 이름을 얻는 경향이 있다. 가난한 지역에서 태어난 아프리카계 미국인 어린이는 같은 해에 태어난 다른 아이들과 겹치지 않는 이름을 갖는 경우가 거의두 배 많다.
그렇다면 흑인 NBA 선수들의 이름은 어떨까?
그들의 이름은 중산층 흑인에 가까운가 아니면 가난한 흑인에 가까운가?
같은 시기에 캘리포니아에서 태어난 NBA 선수 중 이름이 독특한 비율은 평범한 흑인 남성의 절반으로 유의미한 통계적 차이를 보였다.
주위에 NBA가 빈민가 출신 아이들의 리그라고 생각하는 사람이 있는가?
그에게 라디오로 농구 중계를 자세히 들어보라고 말하라. 러셀이 드와이트를 뚫고 드리블을 해서 조쉬가 뻗은 팔 사이를 통과한 후기다리고 있는 케빈의 손에 공을 넘겨주려 한다는 이야기가 얼마나 자주 들리는지 이야기하라. NBA가 정말 가난한 흑인들로 채워진 리그라면 르브론 같은 독특한 이름이 중계에 더 많이 등장할 것이다.
지금까지 우리는 출생한 카운티, 상위 득점자 어머니의 혼인 여부, 선수의 이름, 이렇게 세 개의 다른 증거를 수집했다. 어떤 정보원도 완벽하지는 않다. 하지만 세 가지 모두가 같은 이야기로 모인다. 더 나은 사회경제적 지위가 NBA에서의 더 높은 성공 가능성을 의미한다는 것이다. 즉, 통념이 틀렸다.
농구가 “사느냐 죽느냐의 문제”처럼 보일 정도로 필사적인 상황에 처하는 것은 우리의 직관과 달리 도움이 되지 않는다. 더그 렌의 사례가 이를 분명히 보여준다. 그리고 데이터도 이를 증명한다.
2013년 6월, 르브론 제임스는 NBA 챔피언전에서 두 번째 우승을 차지한 후 텔레비전 인터뷰를 했다(그는 챔피언전에서 세 차례 우승했다).
“저는 르브론 제임스입니다. 오하이오 애크론의 빈민가 출신이죠.
이 자리에 서리라는 생각조차 해보지 않았습니다.”
트위터를 비롯한 소셜 네트워크에는 비난이 쏟아졌다. 저런 엄청난 재능을 가진 사람이, 어린 나이에 농구계의 미래로 인정을 받은 사람이 어떻게 자신이 약자라고 주장할 수 있는가?
사실, 어려운 환경에서 성장한 사람은 운동 기량과 상관없이 불리한 입장에 서게 된다. 달리 말하면 제임스의 기량이 처음 생각보다도 훨씬 더 특출했기 때문에 성공할 수 있었다. 데이터 역시 같은 이야기를 한다.
《모두 거짓말을 한다》는 사람의 생각을 연구하는 완전히 새로운 방법을 이야기한다. 세스 스티븐스 다비도위츠는 빅데이터가 사람의 심리를 엿보는 아주 새로운 방법임을 보여준다. 내 나라와 내가 속한 종에 대한 나의 선입견이 그의 발견으로 송두리째 뒤집어졌다.
- 스티븐 핑커, 《우리 본성의 선한 천사》 저자 추천사 중에서
- 읽어보기 http://bit.ly/2LaKBZH