brunch

You can make anything
by writing

C.S.Lewis

by 강철근육 Jun 22. 2019

Bias (편향, 또는 편견)

개인에게 경험보다 정확한 데이터는 없다.

미국 정착을 위해서는 많은 서류 작업이 필요하다. 사회보장번호(SSN, Social Security Number) 발급이라든지 운전면허 발급이 대표적이다. 미국 내에서 쌓아 둔 신용(Credit)이 없으면 당장 통장 개설이나 전기, 수도, 가스 개통도 번잡하다.


때로는 한국 서류를 증빙으로 제시해야 할 때가 있는데, 그런 경우 영사관 방문을 해야 한다. 서류를 아예 새로 발급받아야 할 수도 있고 그 서류를 영문으로 번역해 공증을 받아야 할 수도 있다. 모두 영사관에서 제공하는 서비스다. 여권 재발급도 영사관 방문이 필수적이다.


어떤 연유에서인지 모르지만 - 한국에선 잘 작동하지 않는 구글맵이 새로운 곳을 방문할 때 유용한 참고 지표가 된다. 구글맵은 훌륭한 내비게이션인 동시에 각 장소들에 대한 정보도 제공하는 것이다. SSN을 발급받기 위한 Office 중 어디가 더 가까운지 볼 수도 있고 거기 방문한 사람들의 평점도 볼 수 있다. 


그래서 구글맵에서 영사관을 검색했을 때 그 낮은 평점을 보는 순간 나는 긴장할 수밖에 없었다. 해외에 나와있는 국민을 도와주는 곳이란 막연한 기대가 깡그리 무너지는 동시에 구글맵에서 보기 힘든 한국어로 온통 비난이 적혀있었던 탓에 뇌리에도 더 잘 남았다. 나는 어느 정도의 수모를 감수할 각오를 하고 길을 나섰다.


그런데 막상 갔더니 상황이 완전히 달랐다. 모두 친절했고 서비스가 빨랐던 것이다. 미국의 느린 속도에 비하면 모든 절차가 즉석에서 이뤄지는 게 거의 빛의 속도 같았다. 나는 또 한 번 나의 바보스러움을 질책해야 했다.


내 전공은 경제학이고 그중에서도 통계학을 가장 사랑했다. 또한 항상 이론과 현실을 통합하라고 주장해 왔다. 그런 나 스스로가 통계적 편향(Bias)에 기죽어 긴장했던 것이다.






하루에 영사관을 방문하는 이는 적게 잡아도 10명은 될 것이다. 업무일을 보수적으로 200일로만 여겨도 연간 2,000명이 방문한다는 뜻이다. 5년이면 방문한 사람의 모수는 10,000명이다. 그중 150여 개의 리뷰로 측정된 점수는 당연히 통계적 편향을 띨 수밖에 없다. 이제 그 이유를 살펴보자.


우선 평점을 매긴 사람들의 특성을 알아야 한다. 그들을 모수에서 추출한 표본이라고 볼 수 있는데 이는 통계학 이론에서 나오는 무작위(Random) 표본이 아니다. 정말 기분 나빴거나 정말 기분 좋아서 굳이 로그인을 해서 별점을 매기고 사유를 남길 만한 사람들로 구성돼 있다.


통계적 추측에서는 30명 이상만 되면 대수의 법칙을 적용하여 표본의 평균이 모집단의 평균에 수렴한다고 본다지만 이 경우 무작위 추출이 반드시 전제가 돼야 한다. 따라서 영사관 평점은 전체 방문객의 평균을 대변하지 못한다.


다음으로 그들의 비율을 봐야 한다. 아주 보수적으로 가정했을 때도 10,000명 중의 150명이었다. 1.5% 정도가 되는 셈인데 만약 하루 방문객이 20명으로 늘어나면 그 비율은 0.75%로 대번에 줄어든다. 1%가 안 되는 비율의 의견으로 전체를 대변하는 것은 분명 무리가 있다.


물론 침묵하는 다수의 개념이 여기도 성립한다. 좋은 경험을 굳이 기록으로 남기지 않고, 나빴던 기억도 그냥 삭히고 지나갔을 숱한 사람들이 있을 것이다. 그런 모든 기록을 남기려면 의무적으로 설문조사를 실시할 수밖에 없다.


설사 의무적으로 설문조사를 한다고 해도 여전히 문제는 남는다. 느낌은 상대적인 것이기 때문이다. 기계처럼 똑같이 응대하는 직원에게서 동일한 서비스를 받았어도 고객이 받는 느낌은 천차만별이다. 누구는 3점을, 다른 이는 5점을 줄 수 있다는 말이다.


어쨌거나 중요한 건 내가 손에 쥔 일이 되게끔 하는 것이고 그 순간 내가 느낀 감정이다. 구글이 제아무리 큰 데이터를 갖고 있다 한들 가장 믿을 만  것은 내가 직접 겪은 경험이다.


사주팔자를 믿어도 인생에 재미 내지는 참고 정도로만 삼듯 인터넷 평도 참고 지표로만 삼으면 충분하다. 우린 어차피 그 일을 해결하고 나면 그곳에 대한 평을 검색하지 않는다.




부정적인 평만 추출해 상품이나 사이트의 정보를 제공하는 업체가 있는 것으로 안다. 일부러 편향된 표본을 추출하는 셈인데 이는 위에서 내가 언급한 것과는 뉘앙스가 좀 다르다. 어떻게 쓰면 될지 생각해 봐도 좋을 소재다.


오오 판다 신이시여!
매거진의 이전글 직장인의 기억법
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari