우리 다들 배웠잖아요
이것저것 시시콜콜한 국내뉴스를 유튜브 통해 보다 말고 또 가슴이 퍽 갑갑해지는 공중파 소식이 있었다.
GTX-A 라인이 개통을 했는데, 예상 이용객 대비 이만코 저만코 해서 하루 이용객이 현저히 적다는 소식.
https://youtu.be/nepYZJ_C3pQ?si=7LTAp6P3VofnNv1H
근데, 뭐가 갑갑하냐고?
아니 이거 SBS 공중파잖아요. 여기에 공식 "정부 예상치"가 "2만 1,523명" 이랜다. 마치 전 가정 돌아다니며 개개인 GTX-A 이용할 사람 각서라도 받아온 것 같은 느낌적 느낌이다.
예상치 어디에도 숫자 "0"이 없는 걸로 봐서, 그리고 예상인원이 소수점이 아닌 걸로 봐서 이 예상치의 유효숫자는 무려 다섯 자리! 이 수치로 예상을 하려면 99.999%에 비견되는 숫자다(예측 정확도가 아니다. 다시 말하지만 "유효자리"에 관한 말을 하고 있는 거다).
나는 공과대학을 나왔다.
공대에서 설계를 잘하려면, 유효자리 개념을 정확히 이해해야 한다.
공학에서 말하는 51은 51.0, 51.00과는 그 의미가 완전히 다르다.
별도의 정의 없이 통상적인 공학기준으로 이해하자면 51은 50.5 이상 51.5 미만의 적당한 숫자범위를, 51.0은 50.95 이상 51.05 미만의 숫자 범위를, 51.00은 50.995 이상 51.005 미만의 숫자 범위를 의미한다. 유효자리 숫자 개수에 따라 그 정밀도가 완전히 다른 것이다. 이러한 표기는 제작정밀도 계량정밀도에 영향을 크게 주며 유효자리를 몇 자리로 잡는가에 따라 설계원가와 제조원가가 엄청나게 차이가 난다.
내가 이 뉴스를 보고 기가 차는 이유는, 정부의 최초 전망치가 "2만 1,523명"이라는 일견 "아주 정확해 보이는" "유효자리 5자리 숫자"에 있다. 유효자리를 5자리로 세팅하고 설계하는 게 얼마나 힘든 일인지 과연 그 의미를 알고 저랬을까? 그것도 수치나 정밀시료 무게 측정이 아닌, "전철 하루 이용객 전망"에 유효자리를 5자리로 설정했다고? 헛헛헛..... 미래에서 누군가 타임머신을 타고 왔다손 쳐도 전망 불가능한 유효자리다.
나는 유동인구 통계학 전문가가 아니라서 저 "하루 이용객" 예상치를 어떻게 산출했는지 모른다. 하지만 예상은 해 볼 수 있다. 아마도 이 비슷한 접근을 했을 거다.
(예시)
* A 지역 총인구 : 315,148명 (2022년 총인구조사 기준)
* A 지역 평소 평균 유동인구 : 55,700여 명 (표준편차 +- 700명)
* A 지역에서 광역버스로 서울을 오가는 일일 평균인구 : 31,200여 명 (표준편차 +-600명)
* GTX-A가 개통되면 광역버스에서 전철로 옮겨올 비율 : 약 55%
* GTX-A가 개통되면 증가할 예상 유동인구 : +3,500여 명
☞ 아마도 이런 류의 데이터를 적당히 더하고 빼고 곱하고 나누어 GTX-A 예상 이용 승객 숫자를 산출했을 것이다.
대충 적어봤는데, 이런 예상치는 이미 알려진 총인구숫자를 제외하곤 유효자리 세 자리 이상을 설정하는 것이 지극히 어려우며, 세 자리 이상을 설정했다 해도 충분한 설득력을 가질 수가 없다. 내가 가진 상식으로는 전망을 예상하는 사건에 대한 비율은 유효자리 1자리로 "제대로" 예상하는 것도 버겁다.
더 중요한 것은, 아주 정밀한 유효자리 5자리 설문을 진행을 하고 슈퍼컴퓨터로 유동인구 시뮬레이션을 했다 할지라도 반영되는 인자 중 하나라도 유효자리가 5자리에 미치지 아니하면 최종 결론치는 가장 낮은 유효자리 수치를 따를 수밖에 없다는 지극히 단순한 수학적 사실이다. 그런데, 고려할 인자가 족히 수십 개는 되어 보이는 저런 전망치에 유효자리 5자리를 설정했다고? 그걸 나보고 믿으라고? 기가 찰 노릇이다.
그럼 어떡하냐고?
의미없이 정밀해 보이는 숫자는 무시한다. 그게, 정보를 접하는 사람들에게 더욱 정확한 정보를 제공하는 방법이다. "몇 자리 이하의 숫자는 의미없으니 무시하세요~"가 그 속에 깔려있다.
즉, 이 경우는 "정부 예상치"가 "2만 1,523명"이 아닌 "약 2만 명(예상 유효자리 1자리)" 또는 "약 2만 1천 명(예상 유효자리 2자리)"로 발표했었어야 했다(물론 그마저도 실측치와 형편없이 안 맞긴 하지만).
좀 더 이해하기 쉬운 예를 들고 와 보자.
"페르미의 추정"이라는 유명한 예가 있다.
시카고의 피아노 조율사 수에 관한 문제로, 이 문제는 페르미가 시카고 대학 학생들에게 출제했다고 알려져 있다. 이에 대한 추정의 예는 다음과 같다.
먼저 다음 데이터를 가정한다.
시카고의 인구는 약 300만 명이다.
가구당 구성원은 약 3명이다.
피아노 보유율을 10% 정도라 하면 10만 가구가 피아노를 갖는다.
피아노 조율은 일 년에 한 번 한다고 가정한다.
조율사가 조율에 걸리는 시간은 이동시간을 포함해 2시간 정도이다.
조율사는 하루 8시간, 주 5일, 1년에 50주간 일한다.
이러한 가정을 바탕으로 다음과 같이 대략적인 숫자를 추론할 수 있다.
시카고는 총 100만 가구 (300만/가구주 3명)
피아노는 총 10만 대 (100만 대*10%)
피아노 조율은 연간 10만 건
피아노 조율사는 1년간 1000대를 조율 (4회/일*5일/주*50주간/연간)
따라서 조율사의 수는 100명 (피아노 10만 대/1000회/조율사 당)
놀랍게도, 당시 실제 전화번호부에 등재된 피아노 조율사는 81명으로 정답에 매우 근접하였다고 알려져 있다. 하지만, 오늘 내가 말하고자 하는 건 그게 아니니 다시 유효자리 얘기로 돌아와 보자.
페르미가 가정한 수치의 각각의 유효자리는 몇 자리인가?
딱 한자리뿐이다.
그래서 조율사 숫자는 95명도 105명도 아닌 100명(=1*10^2명)이다.
어림잡은 가정이라 두 자리를 유효자리로 잡았다면 그부터가 설득력이 없다.
수많은 고려인자 중 단 하나라도 가정된 정밀도(=즉, 유효자리)가 한 자리라면 마지막 내놓은 답도 유효자리 1자리가 되어야 한다.
더욱더 단순한 질문을 해 보자.
87,456명의 사람 중 미래에 결혼할 비율은 약 30%(유효자리 한자리)라고 한다. 그럼, 앞으로 결혼할 사람은 몇 사람으로 예측되나?
▷ 답 : 약 3만 명 (26,236.8명이 아님. 좀 더 정확히는 3*10^4명)
유효숫자는 소수점의 위치에 관계되지 않는다. 일반적으로 유효숫자의 부분을 따로 떼어서 정수 부분이 한 자리인 소수로 쓰고, 소수점의 위치는 10의 거듭제곱으로 나타낸다. 예를 들어 582.021 은 유효숫자 6자리의 수이고 5.82021×10^2로 쓸 수 있다.
유효자리 5자리(87,456명)의 정밀한 숫자가 유효자리 한 자리의 단순한 가정에 전혀 영향을 주지 못한다. 결혼을 할 것이라고 추정하는 비율 자체가 정밀하게 얻을 수 없는 수치라서 그런 거다. 그런데, 이런 당연한 영향을 생각하지 못하고 엉성한 비율을 아주 정밀한 수치에 대입하여 "아주 정밀하게" 예측한 것처럼 정보를 호도해 버린다. 엉성하면 엉성한대로, 정밀하면 얼마나 정밀한 예상치인지 설계치인지 정확히 알려줘야 정확하고 믿을 수 있는 보고서이다.
유효자리는 정밀도를 가늠하는 직관력을 가진 이유로 과학과 공학을 다루는 곳에서 매우 중요하게 취급되지만 재무나 사회과학을 다루는 쪽에서는 의외로 자주 간과되어 버린다.
유효자리숫자 표기 방법을 내가 언제 배웠나 잘 기억은 안 나는데, 이런 건 공과대학에서만 강조할 게 아니라 사회 전반의 기초 소양과 숫자표기의 약속으로 숫자를 다루는 모든 방면에서 잘 지키고 처음부터 잘 가르쳐 주었으면 좋겠다.