Data Driven 2023
작년 <린 분석> 읽기와 <Don't Trust Your Gut> 읽기에 이어 직업이나 개인 일상에서 데이터를 더욱 활용하는 한 해가 되도록 노력하자는 뜻으로 Data Driven 2003 시리즈로 묶었다.
그중에서 이 글은 <데이터 분석가의 숫자유감>의 1 ~ 5화를 읽고 인상 깊었던 내용을 메모하고 생각을 기록한 글입니다.
<린 분석>에서 같은 내용이 나오고 Head Fisrt 였던가 통계 개념을 배우려고 예전에 읽은 책에서도 강조했던 내용이다.
상관관계는 인과관계가 아니며, 특히 수많은 외생 변수가 여기저기 떠다니는 현실 데이터 분석에서는 더욱 그렇다.
그리고 만화로 묘사된 내용 중에서 상관관계는 대칭이지만, 인과 관계는 비대칭이라 원인과 결과가 바뀔 수 없다는 표현이 인상적이었다.
통계의 기본이라고 넘어갈 수도 있지만, 곱씹어 보고 싶다. 먼저 모르는 말이 있다, 외생(外生) 변수. 한자 그대로 보면 '밖에서 생겨난' 변수다. 네이버 한자 사전의 뜻은 다음과 같다.
시장(市場) 밖에서부터 영향력(影響力)을 미치는 경제량(經濟量). 즉, 기상(氣象) 조건(條件), 정부(政府)의 재정(財政)ㆍ금융(金融) 정책(政策), 공해(公害) 규제(規制), 세계(世界) 무역(貿易)의 동향(動向) 등(等).
위키피디아 Exogenous variable 페이시 설명과 마찬가지로 경제 용어로 다룬다.
In an economic model, an exogenous variable is one whose measure is determined outside the model and is imposed on the model, and an exogenous change is a change in an exogenous variable
exogenous variable란 표현은 구글링 결과에서 취한 것인데, 통계가 아닌 경제 용어로 나와 의외였다. 외생 변수에 대한 구글링 요약 설명은 다음과 같다.
외생변수는 독립변수 이외의 변수로 종속변수에 영향을 줘 이를 통제하지 않을 시 연구결과의 내적타당도에 문제가 되는 변수를 뜻한다. 외적통제는 비실험연구에서 더 중요시하고 내적통제는 실험연구에서 더 중요시하며 외생변수 통제로 오차변량의 극소화를 통해 결과의 신뢰도를 높이는 특징이 있다.
'외생 변수가 여기저기 떠다니는 현실 데이터'를 다시 읽어 보니 <TDD의 Fail과 삶의 직면(直面)에 대하여>편 제목에 등장하는 직면(直面)이 떠오른다. 데이터가 수단일 때는 현실을 사실에 충실하게 보려는 목적에 쓰인다. 그렇게 보면 데이터가 의도대로 나오지 않았다고 문제는 아니다. 실험을 잘못 설계한 것일 수도 있고, 편향이 심한 상태로 현실을 보고 있다는 점을 깨닫는다면 유익한 데이터일 수 있다.
그런 점에서 외생 변수 자체가 문제가 아니라 외생 변수를 통제하지 못한 실험이나 비현실적인 가정이 도리어 문제일 듯하다. 사업적 관점으로 '외생 변수가 여기저기 떠다니는 현실'이란 표현을 보니, 데이터가 행동에 인사이트를 주려면 '행동 가능한 문제 정의'가 필요할 수 있다. 요즘 Chat GPT 관련 영상을 보면 AI가 다루는 파라미터 수를 보라. 우리는 AI가 아니기 때문에 지나치게 많은 변수를 고려할 수도 없지만, 행동과 무관한 변수 설정은 무의미할 수 있다.
책에 나온 인과 관계와 상관관계에 대한 설명도 보자.
실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것을 '인과 관계'라고 한다.
앞에도 이야기했지만, 데이터를 보면 인과 관계와 상관관계를 혼동하기 쉽다고 저자가 지적한다.
상관관계는 두 변수가 얼마나 상호 의존적인지를 의미한다.
소위 '기레기'들은 이런 착시 현상을 이용해서 클릭 장사는 하지 않나 싶은 생각도 들었지만, 비생산적인 생각이라 차단했다.
너무나 멋진 말이다.
사실 숫자란 건, 한 번도 절대적이었던 적이 없어요. 이 사과를 '한 개'라고 부르는 것조차. 수많은 사람의 공통된 전제하에 만들어진 기준일 뿐이죠.
결론(해당 장의)부터 보자.
이 숫자를 제대로 사용하려면 당연히 그 아래 켜켜이 쌓아둔 많은 가정과 합의를 탐색하고 이해해야 한다.
책의 <2화 숫자의 불확실성>은 위 세 줄로 요약할 수 있을 듯하다.
이제 '숫자의 차이'에 대한 부연도 보자.
'숫자의 차이'는 절대적인 것처럼 보이는데, 이를 왜 '여러 면으로' 고민해야 할까? 수학은 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다.
그리고 저자는 전형적인 예시를 추가한다.
만약 사과를 봉지에 넣었다면 사과가 몇 개든 신경 쓰지 않고 '사과 한 봉지'라고 할 것이다. 이런 간단한 숫자 사용에도 이미 전제가 적용된다. 세상의 수치 비교는 수많은 전제를 논리적으로 배치했을 때 수학이나 통계의 가치가 빛을 발하게 한다.
다음으로 음미해 보는 시간을 갖자. 먼저 숫자에 교환 가치를 부여하는 도구가 단위란 사실을 <단위로 읽는 세상>을 읽고서야 알았다. 그러고 나니 수의 의미도 달리 보이고 경계의 의미도 심층적으로 느껴져 쓴 글이 <1 이라는 수와 경계 그리고 단위의 문제>이다. 고도로 압축된 숫자는 결국 그 아래 있는 '가정과 합의'가 뒷받침될 때 제 역할을 하겠구나 이해할 수 있었다.
노안 때문인지 '합의合意' 인지 '함의含意'인지 확인해야 했다. 문맥에 따르면 둘 다 쓸 수 있기 때문이기도 하다. 현실에서는 함의인 경우가 상당히 많지만 AI 지대란 점을 고려하면 디지털 언어로 합의 내역이 남도록 절차를 만드는 기업은 상당한 경쟁력을 가질 것이란 생각이 든다. 전에 <개발 팀에 민주적 소통 절차 수립하기> 과정에서 배운 내용이 절차적 측면이 강했다면, 해당 내용을 기록으로 남기는 노하우도 필요하다.
<Ubiquitous Language 만들 결심>을 했지만 진척은 더디다. Ubiquitous Language를 모르는 독자들은 난데없이 튀어나온 느낌을 받을 듯하다. 앞서 인용한 문장을 아래와 같이 살짝 바꿀 경우 내게는 UL과 그대로 연결되기 때문이다.
현장에서 쓰이는 용어를 제대로 사용하려면 당연히 그 아래 켜켜이 쌓아둔 많은 가정과 합의를 탐색하고 이해해야 한다.
책 45쪽에는 너무나 멋진 그림이 등장한다.
(舊수포자 주제에) 나는 그림에 감탄하면서 '함수적' 이라는 형용사를 떠올렸다. 수학적 표현이라기보다는 '선택된 매개변수에 따라 사상이 가능한' 정도의 의미인데, <행동 가능한 문제 정의와 함수>편을 압축한 표현이다.
모수란 뭘까? 모수는 '모집단의 수치적 요약값'이다. 모평균이나 모표준편차 같은 모집단에 대한 통계값을 모수라고 한다. 그리고 표본 데이터에서 이런 통계 대푯값을 구한 후, 이를 모집단의 통계값, 즉 모수라고 말하고 이를 근거로 모집단의 형태를 추정한다.
모수는 한자로는 '母數'이다. 모수를 위한 모집단 선정이 비즈니스 상황에서는 간단치 않다는 부연으로 다음과 같은 설명도 뒤따른다.
전체 데이터를 다 사용한다고 해도, 그 데이터가 서비스를 적게 사용한 사람들, 늦게 가입한 사람들, 중간에 탈퇴한 사람들을 모두 대표할 수는 없다.
책에서 '확률'을 설명하며 맞춤법 교정을 하며 익숙해진 표준국어대사전 정의를 인용한다.
일정한 조건 아래에서 어떤 사건이나 사상(事象)이 일어날 가능성의 정도
그리고 확률과 분포에 대한 간결한 설명이 이어진다.
시행 결괏값의 평균을 0과 1 사이로 나타낸 것을 '확률'이라고 하고, 확률이 어떤 모습으로 퍼져 있는지를 나타내는 것을 '분포'라고 한다.
저자는 이렇게 말한다.
많은 기업에서는 '실험'을 통해 '데이터'를 수집하고 '의사결정'을 한다.
이보다 더 중요해 보이는 내용은 다음 문장이다.
이런 실험을 왜 할까? '기존에 없었던 기록'을 얻기 위해서다.
실험에 대한 부연이 만화 속에 있다.
'앞서 실행된 결과 데이터가 없는 상태에서 확률을 구하고 싶다면 어떻게 해야 할까요?
데이터가 없는 경우 실험을 통해 기록을 얻고, 확률을 구한다고 이해할 수 있다.
2. AI 시대의 결혼
7. 데이터광의 외모 대변신