1. 확률 이해의 첫걸음 - 확률 변수
택배를 신청하고 기다리고 있으니 택배회사에서 문자가 도착을 했다.
"고객님께서 주문하신 상품이 오늘 오후 3시~5시 사이에 도착할 확률이 95%입니다."
고객의 입장에서 보면 『언제』라는 시간이 중요한 정보를 제공하는 것이 사실이다. 그 정보에 따라서 대책을 미리 세울 수 있기 때문이다.
만약 택배가 도착하는 시간에 내가 집에 있다면 아무런 문제가 되지 않지만, 그렇지 않다면 미리 택배를 받을 수 있는 대책을 세워서 택배 분실의 위험과 함께 택배 기사가 겪을 수 있는 미배달 문제를 사전에 해결할 수 있다.(이렇게 행동하는 것이 관리의 기본이다.)
이렇듯 일상생활에까지 '확률'이 들어와서 미래에 발생할 수 있는 Risk를 알려주고 있다.
여기서 말하는 확률은 어떻게 계산할 수 있을까?
우리는 크게 두 가지 방법을 활용해서 확인할 수 있다. 첫 번째는 개인의 경험에 의한 방법이다. 어떤 사건에 대해서 정말 많은 경험이 있다면 굳이 계산하지 않고 소위 '육감'이라는 방법을 활용하여 위험을 감지하고 그 위험이 발생할 확률이 큰 지 작은 지를 알 수 있을 것이다. 두 번째는 계량적인 방법이다. 경험에 의한 것이 아니라 위험을 확인할 수 있는 현상에 대해서 'Fact'인 '데이터'를 활용하여 확률을 계산하는 접근이다.
빅데이터와 AI로 상징하는 요즘은 계량적인 방법을 활용하여 Risk에 대한 확률을 계산하여 우리에게 제공하고 있다고 해도 과언이 아니다. 그만큼 현재는 '확률 게임'의 시대라고 할 수 있다.
확률을 활용하여 Risk에 대한 대책을 세우기 위해서 가장 중요한 것은 무엇일까?
그것은 바로 "내가 확인하고 싶고, 알고 싶은 현상"을 명확하게 정의(Define)"하는 것이다. 막연하게 모든 것을 알고 싶다고 말하는 것은 알고 싶은 것이 없다는 것과 동일하다고 생각한다. 제조 현장을 방문해서 이야기를 하다 보면 위와 같은 질문에 대한 고민을 깊게 하지 않은 곳을 만나고는 한다. 그러면서, 현장에 데이터가 많다는 하지만 이를 활용해서 기업운영관리에 도움을 주기 어려운 경우를 종종 접하고 있다. 정말 안타까운 일이 아닐 수 없다. 데이터를 모으기 위해서 많은 노력들을 하셨을 텐데...
좋은 성과를 내기 위해서는 "효과"와 "효율" 두 가지를 고려해야 한다. 먼저 "효과"를 극대화하기 위해서 확인해야 하는 Risk가 무엇인지 그리고 이를 위해서는 어떤 데이터를 어떻게 수집해야 하는지에 대한 고민과 설계가 먼저다.
그다음 "효율"을 이야기를 해야 한다. 왜냐하면, 효과적인 결과를 얻기 위해서는 다양한 방법과 도구(Tool)들이 있기 때문에다. 다시 말하면 효과적인 것을 고민하는 것은 '목적'을 명확하게 하는 것이고, 방법과 도구는 '수단'을 이야기하는 것이다. 수단을 정해놓고 목적을 달성하라고 하는 것은 일을 하지 말라고 하는 것과 큰 차이가 없다고 생각한다. "왜(Why)"와 "무엇(What)"을 명확히 한 다음에 "어떻게(How)"를 고민해야 효과와 효율을 높이는 업무 수행 방법이 될 것이다.
무엇(What)을 결정하면 계량적 접근 방법을 활용하기 위해서는 이를 수치화할 대상인 변수(Variable)를 정의한다. 건강을 위해서 확인해야 할 그 무엇을 "몸무게'라고 결정했다면 몸무게를 수치화할 변수인 "체중"으로 변환하는 것과 같은 방법이다. 몸무게는 체중으로 쉽게 변수로 정의할 수 있지만 상황에 따라서는 그렇지 않은 경우도 많이 있다. 내가 받고 있는 '스트레스"를 수치화한다면 어떻게 해야 할까? 추상적인 개념을 수치화하기 위해 필요한 것이 소위 전문적인 지식(현장 지식 또는 Domain Knowledge)을 활용한 변수의 조작적 정의(Operational Definition)이다.
변수를 정의했다면 계량적 방법을 활용하기 위해 필요한 행동이 바로 수치화 또는 데이터 수집이다.
왜 데이터를 수집할까?
간단한 가정을 해 보자. 내가 수집하는 데이터가 그냥 얻어지는 것이 아니라 확률을 포함하고 있다면, 데이터를 수집하는 것 자체가 확률을 계산하기 위한 필수적인 행동이 된다.
따라서, 변수는 어떤 확률을 가지고 있으니, 변수에 대한 데이터를 수집한다면 변수의 미래에 대한 확률을 확인할 수 있을 것이다. 이것이 계량적 방법의 기본적인 흐름이다.
1. "무엇을, 왜 알고 싶습니까"에 대한 고민과 대답이 먼저
2. "무엇"을 수치화할 수 있는 대상인 변수를 정의
이때 정의한 변수가 확률을 가지고 있다. 따라서, 확률 변수라고 한다.
3. 변수에 대한 데이터를 수집한다.
4. 수집한 데이터를 활용하여 미래(또는 내가 알고 싶은 사건)에 대한 확률을 확인한다.
(통계학에서는 '추론(Inference)'이라고 함)
5. 확률의 크고 낮음에 따라 현재 어떤 행동을 해야 할지 결정한다.
확률 변수는 결국 데이터다. 따라서, 데이터의 종류에 따라서 확률을 확인할 수 있는 다양한 방법이 존재한다. 이런 방법에 대해서 앞으로 하나씩 차분히 정리해 보고자 한다.