데이터 속의 숫자는 함수적으로 바라보라

Data Driven 2023

by 안영회 습작

Mar 15. 2023

작년 <린 분석> 읽기와 <Don't Trust Your Gut> 읽기에 이어 직업이나 개인 일상에서 데이터를 더욱 활용하는 한 해가 되도록 노력하자는 뜻으로 Data Driven 2003 시리즈로 묶었다.

그중에서 이 글은 <데이터 분석가의 숫자유감>의 1 ~ 5화를 읽고 인상 깊었던 내용을 메모하고 생각을 기록한 글입니다.

상관관계는 대칭이고, 인과 관계는 비대칭이다

<린 분석>에서 같은 내용이 나오고 Head Fisrt 였던가 통계 개념을 배우려고 예전에 읽은 책에서도 강조했던 내용이다.

상관관계는 인과관계가 아니며, 특히 수많은 외생 변수가 여기저기 떠다니는 현실 데이터 분석에서는 더욱 그렇다.

그리고 만화로 묘사된 내용 중에서 상관관계는 대칭이지만, 인과 관계는 비대칭이라 원인과 결과가 바뀔 수 없다는 표현이 인상적이었다.

고려하지 않은 변수의 영향을 막아라

통계의 기본이라고 넘어갈 수도 있지만, 곱씹어 보고 싶다. 먼저 모르는 말이 있다, 외생(外生) 변수. 한자 그대로 보면 '밖에서 생겨난' 변수다. 네이버 한자 사전의 뜻은 다음과 같다.

시장(市場) 밖에서부터 영향력(影響力)을 미치는 경제량(經濟量). 즉, 기상(氣象) 조건(條件), 정부(政府)의 재정(財政)ㆍ금융(金融) 정책(政策), 공해(公害) 규제(規制), 세계(世界) 무역(貿易)의 동향(動向) 등(等).

위키피디아 Exogenous variable 페이시 설명과 마찬가지로 경제 용어로 다룬다.

In an economic model, an exogenous variable is one whose measure is determined outside the model and is imposed on the model, and an exogenous change is a change in an exogenous variable

exogenous variable란 표현은 구글링 결과에서 취한 것인데, 통계가 아닌 경제 용어로 나와 의외였다. 외생 변수에 대한 구글링 요약 설명은 다음과 같다.

외생변수는 독립변수 이외의 변수로 종속변수에 영향을 줘 이를 통제하지 않을 시 연구결과의 내적타당도에 문제가 되는 변수를 뜻한다. 외적통제는 비실험연구에서 더 중요시하고 내적통제는 실험연구에서 더 중요시하며 외생변수 통제로 오차변량의 극소화를 통해 결과의 신뢰도를 높이는 특징이 있다.

직면(直面)과 현실 데이터

'외생 변수가 여기저기 떠다니는 현실 데이터'를 다시 읽어 보니 <TDD의 Fail과 삶의 직면(直面)에 대하여>편 제목에 등장하는 직면(直面)이 떠오른다. 데이터가 수단일 때는 현실을 사실에 충실하게 보려는 목적에 쓰인다. 그렇게 보면 데이터가 의도대로 나오지 않았다고 문제는 아니다. 실험을 잘못 설계한 것일 수도 있고, 편향이 심한 상태로 현실을 보고 있다는 점을 깨닫는다면 유익한 데이터일 수 있다.

그런 점에서 외생 변수 자체가 문제가 아니라 외생 변수를 통제하지 못한 실험이나 비현실적인 가정이 도리어 문제일 듯하다. 사업적 관점으로 '외생 변수가 여기저기 떠다니는 현실'이란 표현을 보니, 데이터가 행동에 인사이트를 주려면 '행동 가능한 문제 정의'가 필요할 수 있다. 요즘 Chat GPT 관련 영상을 보면 AI가 다루는 파라미터 수를 보라. 우리는 AI가 아니기 때문에 지나치게 많은 변수를 고려할 수도 없지만, 행동과 무관한 변수 설정은 무의미할 수 있다.

인과 관계와 상관관계

책에 나온 인과 관계와 상관관계에 대한 설명도 보자.

실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것을 '인과 관계'라고 한다.

앞에도 이야기했지만, 데이터를 보면 인과 관계와 상관관계를 혼동하기 쉽다고 저자가 지적한다.

상관관계는 두 변수가 얼마나 상호 의존적인지를 의미한다.

소위 '기레기'들은 이런 착시 현상을 이용해서 클릭 장사는 하지 않나 싶은 생각도 들었지만, 비생산적인 생각이라 차단했다.

숫자란, 한 번도 절대적이었던 적이 없다

너무나 멋진 말이다.

사실 숫자란 건, 한 번도 절대적이었던 적이 없어요. 이 사과를 '한 개'라고 부르는 것조차. 수많은 사람의 공통된 전제하에 만들어진 기준일 뿐이죠.

결론(해당 장의)부터 보자.

이 숫자를 제대로 사용하려면 당연히 그 아래 켜켜이 쌓아둔 많은 가정과 합의를 탐색하고 이해해야 한다.

책의 <2화 숫자의 불확실성>은 위 세 줄로 요약할 수 있을 듯하다.

이제 '숫자의 차이'에 대한 부연도 보자.

'숫자의 차이'는 절대적인 것처럼 보이는데, 이를 왜 '여러 면으로' 고민해야 할까? 수학은 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한 번도 절대적인 적이 없다.

그리고 저자는 전형적인 예시를 추가한다.

만약 사과를 봉지에 넣었다면 사과가 몇 개든 신경 쓰지 않고 '사과 한 봉지'라고 할 것이다. 이런 간단한 숫자 사용에도 이미 전제가 적용된다. 세상의 수치 비교는 수많은 전제를 논리적으로 배치했을 때 수학이나 통계의 가치가 빛을 발하게 한다.

다음으로 음미해 보는 시간을 갖자. 먼저 숫자에 교환 가치를 부여하는 도구가 단위란 사실을 <단위로 읽는 세상>을 읽고서야 알았다. 그러고 나니 수의 의미도 달리 보이고 경계의 의미도 심층적으로 느껴져 쓴 글이 <1 이라는 수와 경계 그리고 단위의 문제>이다. 고도로 압축된 숫자는 결국 그 아래 있는 '가정과 합의'가 뒷받침될 때 제 역할을 하겠구나 이해할 수 있었다.

Ubiquitous Language 만들자

노안 때문인지 '합의合意' 인지 '함의含意'인지 확인해야 했다. 문맥에 따르면 둘 다 쓸 수 있기 때문이기도 하다. 현실에서는 함의인 경우가 상당히 많지만 AI 지대란 점을 고려하면 디지털 언어로 합의 내역이 남도록 절차를 만드는 기업은 상당한 경쟁력을 가질 것이란 생각이 든다. 전에 <개발 팀에 민주적 소통 절차 수립하기> 과정에서 배운 내용이 절차적 측면이 강했다면, 해당 내용을 기록으로 남기는 노하우도 필요하다.