이 도표는 진정한 예술과 상상의 산물이야
76-77p. 추출된 표본이 전체 밭을 얼마나 정확하게 대표할 수 있는지를 숫자로 나타낼 수 있는데 이를 예상오차(probable error)와 표준오차(standard error)라 한다. (…중략…) 그러나 오늘날 대부분의 통계학자들은 표준오차라 불리는 다른 오차를 사용하고 있다. 이 오차는 전체 경우의 수 중에서 절반을 오차 범위에 포함시키는 앞의 예상오차와는 달리 전체 경우의 수 중 약 3분의 2를 포함하고 있으며, 뿐만 아니라 수학적으로는 다루기가 훨씬 쉽다.
80p. 때때로 수학적으로는 분명히 존재하지만 현실적으로 볼 때 아무런 의미가 없는 조그마한 차이를 가지고 야단법석일 때가 있다. 옛날부터 전해 내려오는 '아무리 적어도 차이는 차이'란 말을 무시해서는 안 된다는 믿음에서 비롯된 것이다. 올드 골드 담배 회사가 실제로는 아무 것도 아닌 미미한 숫자상의 차이를 일부러 왁자지껄 떠들어대서 회사에 이득을 가져다 준 사건이 그 한 예이다.
105p. 무엇인가 증명하고 싶어도 증명할 수가 없는 경우에는 다른 엉뚱한 것을 하나 끄집어내어 증명한 다음 마치 그 두 사실이 같은 것처럼 슬쩍 넘어간다. 서로 모순이지만 복잡하게 보이는 통계숫자들을 눈앞에 갑자기 들이밀어 어리벙벙하게 만들면 그들 사이의 사소한 차이를 주목할 수 있는 사람은 거의 없다. 아전인수 격으로 꾸며내어 갖다 붙인 숫자들은 당신을 언제나 유리한 위치에 놓이게 해주는 훌륭한 도구이다. 이 말이 틀리면 정말 내 손에 장을 지지겠다.
116-117p. 어떤 숫자이건 간에 그것을 표현하는 방법은 여러 가지가 있다. 똑같은 사업실적이라도 이를 매출실적의 1% 이익이라든가, 투자액의 15% 이익, 또는 1천만 달러의 이윤이라든가, 40%의 이익신장률, 또는 전년도 대비 이익의 60% 감소라든지 여러 가지 방식으로 얼마든지 표현할 수가 있다. 이 많은 표현 방법 중에서 원하는 목적에 가장 알맞은 것을 골라 쓰면 되는 것이다. 게다가 이 숫자가 실상을 옳게 반영하는 것이 아니라는 사실을 간파하는 사람은 거의 없다고 믿어도 좋다.
120p. 흥미 있는 것은 어떤 유행병의 발병률을 재는 척도로서는 환자 수보다는 사망률 또는 사망자 수가 더 정확하다는 사실이다. 사망 시의 보고가 그 내용이나 기록 면에서 훨씬 더 정확하기 때문이다. 따라서 위의 경우, 이 병과 비슷한 질병의 발병률을 모두 포함한 것으로 생각되는 환자 수보다는 그 결과를 나타내는 사망자 수가 더 정확한 통계이다.
127p. 문제는 논리정연하고 그럴듯하게 여러 가지 해석을 할 수 있을 때 그 중에서 자기의 취향에 알맞은 것만을 골라내어 그것만 주장해서는 안 된다는 사실이다. 하긴 많은 사람들이 그 짓을 하지만 말이다. 전후관계와 인과관계를 혼동하는 오류를 범하지 않도록, 그리고 또 사실이 아닌 여러 현상을 사실이라고 믿는 일이 없도록 하기 위해 상관관계에 관해 언급할 때는 각별한 주의를 기울여야 한다.
127p. 어떤 것이 다른 어떤 것의 원인이라는 것을 증명해 줄 것 같이 보이는 저 믿음직스럽게 정밀한 숫자인 상관관계에는 여러 가지 유형이 있다. 그 하나는 우연히 일어나는 상관관계이다. 실제로는 절대로 일어날 것 같지 않은 일이 일어날 수도 있다는 것을 증명해 주는 숫자를 이런 식으로 하면 한 번은 얻을 수 있지만, 그러나 다시 한번 되풀이할 때에도 그럴 수 있다는 보장은 할 수가 없다. 충치를 획기적으로 줄일 수 있을 것 같은 치약을 제조한다는 회사처럼, 당신도 원하지 않는 결과가 나오면 기꺼이 없애 버리고 원하는 결과만을 골라 발표하면 된다.
128p. 두 번째는 보통 공분산(co-variation, 두 변량의 편차─각 평균값으로부터의 차─들의 곱에 대한 기댓값)이라고 부르는 것으로 상관관계가 있다는 것은 명백하지만 어느 것이 원인이고 어느 것이 결과인지가 분명하게 드러나지 않을 때 사용한다. 어떤 경우에는 원인과 결과가 때때로 서로 뒤바뀌는 경우도 있고, 또 양쪽이 동시에 원인이 되기도 하고 결과가 되기도 하는 경우가 있다. 소득과 주식 소유량 사이의 상관관계가 아마도 이런 종류일 것이다.
130p. 또 하나 상관관계에 관하여 경계해야 할 점은 그 상관관계를 뒷받침하는 데이터의 범위를 넘어서까지 그 상관관계가 지속해서 성립할 것이라고 추측하는 일이다. (…중략…) 양의 상관관계가 어느 한계에 다다르면 음의 상관관계로 돌변한다. 즉 어느 일정한 양 이상의 비가 더 오면 수확량은 오히려 감소하게 된다.
137-138p. 올바른 결론을 내리기 위해서는 한 여성─또는 비슷한 나이의 여성들의 그룹─을 일정기간에 걸쳐 조사해야만 한다. 그래야만 비로고 오류 요인을 제거할 수 있을 것이다. 그 오류 요인이란 현재의 나이든 여성들이 젊었을 때에는 팔자걸음으로 걸으라고 교육받은 데에 비해 현재의 젊은 여성들은 팔자걸음을 걸으면 안 된다고 배워왔던 사실이다.
책을 읽는 내내 너무나 당연한 내용이라 심드렁했다. 저번 주보다 읽어야 할 챕터가 더 많았음에도 훨씬 금방 읽는 느낌. 그러고 나서 출근하니 그 당연한 걸 또 까먹고 되풀이하고 있었다. 마치 수업시간에 선생님과 같이 풀면 술술 풀리는데, 막상 자습시간에 혼자서 풀려고 하면 하나도 모르겠는 것처럼.
그래서 이번에는 책을 읽으며 배운 것을 딱 하나라도 적용해보자고 다짐했다. 바로 위에서 언급한 '오류 요인 제거'에 대한 것. 현재 맡고 있는 프로덕트가 글로벌 플랫폼이라 각국의 사회문화적/기술적 요소가 고려될 필요가 있음을, 해당 구절을 읽으며 생각했기 때문이다. (사실 예전부터 생각했지만 시간에 좇겨 깊이 파보지 못했다.) 나라마다 인터넷 속도가 다르다거나, 오른쪽에서 왼쪽으로 문자를 읽는다거나 하는 요소들이 사용자 행동 데이터에 영향을 미쳤을 수도 있다. 반대로 아닐 수도 있고, 어쩌면 그런 요소를 찾아내는 데에 오랜 시간이 걸릴 수도 있다.
그래도 해보자!
다행히 이번 주는 반성보다 탐구욕이 앞서는 독서였다.
#데이터리안 #데이터넥스트레벨챌린지 #데벨챌