brunch

You can make anything
by writing

C.S.Lewis

by 문 진영 Sep 07. 2023

챕터 1, 2: 통계와 인과모형, 그래프 모형

Causal Inference in Statistics

Causal Inference in Statistics

이 교과서는 통계적 인과추론을 다루는 교과서로서 내용이 기본적 인과추론을 아는 사람은 쉽게 넘어갈 수 있으므로 기본적 인과추론 내용을 안다는 가정 하에서 아주 어렵고 complicated한 내용만을 다루겠습니다. 

챕터 1과 챕터2를 묶어서 하나로 요약하며, 중요한 것만 요약합니다. 

이 교과서는 챕터 4까지 있고, 챕터 1, 2를 묶었으니 다음엔 챕터 3, 그리고 챕터 4로 마무리합니다.


먼저 챕터 1입니다. 

기본적인 통계적 인과 모형에 대해 이야기하고 있습니다. 

가장 중요한 소개는 Simpson's Paradox입니다. 다 아는 내용이니 넘어갑니다. 저자는 주저리 주저리 설명하는데 사실 directed acyclic graphs (DAGs)를 미리 그릴 줄 아는 사람이라면 confounder와 mediator 내용을 DAG로 그려보면 쉽게 해결되는 내용입니다. 다만 Simpson's Paradox를 기하적으로 설명하는 것은 배울만 합니다. 

인과추론에서 통계적 인과란 무엇을 이야기하는지에 대해 논쟁이 많은데 저자는 단칼에 정리합니다. 즉 종속변인을 결정하는데 독립변인의 값에 의지해서 종속변인이 결정되면 이를 인과라 합니다. 여기서 중요한게 이게 association하고 다르게 방향성이 있는 개념이라는 겁니다. 이 부분까지 저자가 이야기하진 않지만 저는 처음에 이게 association도 포괄하는 줄 알았습니다. 하지만 챕터 2에서 confounder와 collider에 대해 깊이있게 고민하다보니 결국 이 인과란 것이 방향성을 포괄하는 개념이며, 둘째, 도메인 지식을 배운 도메인 학자가 놓치는 인과는 결국 DAG를 그릴 때 누락시킨 변수와 그 변수들과 내가 이미 그려놓은 변수들의 숨겨진 관계라는 것을 깨달았습니다. 즉 내가 도메인 학자로서 누락시킨 변수와 관계들이 문제이지 그것들을 다 밝힐 수 있다면 결국 confounder는 confounder로 collider는 collider로 그려질 것이라는 겁니다. 즉 association이 아니라 방향성이 있는 causation을 가리킵니다. 그리고 confounder와 collider는 포함하지 않습니다. 


나머지는 인과추론에서 쓰는 기본적 용어에 대한 설명인데 중요한 것만 몇 개 살펴보면

conditional probability 조건부 확률: 이거 다 아시죠? 정의까지 수식까지 다 아시죠?

독립: 이것도 수식까지 다 아시죠?


Structural Causal Model: 한글로 이걸 뭐라고 하는지 모르겠는데 수식으로 인과관계를 정리한 겁니다. 그래프가 아니라. 수식으로 정리하니 계수가 다 추정되어야 하고 상당히 복잡합니다.

대충 이런 겁니다. 여기서 부호를 좀 알아야 하는데 f는 함수이고, U는 unknown variable로 우리가 아는 변수에 영향을 미치는 알려지지않은 변수입니다. 이걸 외생변수라고도 하는데 유전학에서 멘델리안 랜더미제이션 등을 할 때 이걸 사용합니다. 


Product decomposition: 어떤 확률을 조건부 확률의 곱으로 나눠서 표현하는 겁니다. 다들 아시죠?




그 다음은 챕터 2입니다. 여기서 조금 새로운 개념들이 나옵니다. 

먼저 chain과 folk에 대해 설명합니다. 이것도 기본적 인과추론을 배우신 분들은 다 아시죠. 다만 여기선 수식으로 이걸 좀 이해해두면 나중에 이해하기가 편합니다.


이게 체인이죠. 가운데 Y를 보정하면 X와 Z는 조건부 독립이 됩니다. conditional independence라고 하죠. 이걸 수식으로 나타낸게 위의 식입니다. 아주 드물게 intrasitive dependence라고 해서 Y가 있음에도 불고하고 X와 Z가 체인에서 서로 독립인 케이스를 보여주는데 무시해도 됩니다. 


두 번째는 folk입니다. 여기서 X를 보정하면 Y와 Z가 독립이 됩니다. 역시 contional independence 달성입니다. 

세 번째는 collider입니다. 이 경우는 뭐 다 아시겠지만 주의하자는 차원에서 하나 이야기하면 collider는 이 자체로 unconditonal independence입니다. 즉 보정 없이 이미 X와 Y는 서로 독립입니다. 하지만 Z에 대해서 보정해 버리면 conditional dependence가 되어버립니다. 즉 조건부 의존이 되어버립니다.


이 그림은 좀 봐야하는 것이 기존의 인과추론 논의에 잘 다뤄지지 않은 내용입니다. Z의 child W가 존재하는 상황에서는 W 역시 보정하지 말고 둬야 X와 Y의 독립이 유지되며, W가 실수로 보정되는 경우에는 conditional dependence가 생긴다는 것입니다.


d-separation: 한 마디로 두 변수 사이에 독립이 형성된 상태를 말한다. 독립이 성립 안되고 의존성이 존재하면 이를 d-connection이라고 이야기합니다. 의존성을 일종의 파이프에 물이 흐르는 상태라고 생각하면 되는데 이 의존성의 물이 흐르는 상태를 차단해서 독립을 만들면 d-separation, 완전히 차단하지 못하고 통로가 열리면 의존성이 성립하며 이를 d-connection이라 합니다. 

T가 하나 더 추가되면 이 의존성의 물이 흐르는 다른 파이프 경로가 열리면서 d-separation 달성이 다시 어려워지는데 이 때는 T 또한 보정해주어야 d-separation 달성이 가능합니다. 

d-separation 개념은 기존 인과추론을 강의로 배우거나 하면 제대로 이해 못하는 개념이니 책으로 이해해야합니다.


참 이 모든 논의에서 각 변수에 대한 각 잠재변수 U는 서로 독립이라는 가정이 필요합니다. 


마지막은 DAG를 이용해서 Causal Search라는 걸 할 수가 있습니다. 

기존에는 parameter를 다 추정해서 식을 완성하고 model testing이라는 것을 합니다. 즉 이 모형이 맞다는 가정하에 이 데이터 수치들이 나올 확률이 얼마나 되냐인데 이를 우도비 likelihood ratio라는 개념으로 설명하죠. 기존에 우도비를 계산해서 통계적으로 유의한 극단 p-value가 나오는지 안나오는지로 전체 모델의 적합성을 증명합니다. 


근데 DAG를 이용하면 이걸 아주 간단하게, 그리고 DAG의 부분부분별로 나누어서 간단히 검정해볼 수가 있는데요, 


한 마디로 이 그림에서 Z1과 W의 인과를 본다고 할 때, X를 보정해서 Z1에서 W로 가는 인과의 d-separation이 성립한다면 Z1의 계수인 감마1은 0에 근접한 값이 나와야 합니다. 하지만 이 회귀를 간단히 돌려봤을 때 감마1이 0이 나오지 않는다면 이 DAG는 잘못되었고 누락된 Z1에서 W까지의 숨겨진 path가 존재하는 것입니다. 이렇게 causal search라는 것을 통해 DAG로 나타내진 causal model이 정확한지 간단히 검정해 볼 수 있습니다. 이를 응용하면 더 복잡한 방식도 가능한데 이 책은 거기까진 다루지 않는다고 합니다.


                    

작가의 이전글 챕터 3. 베이지안 추론

작품 선택

키워드 선택 0 / 3 0

댓글여부

afliean
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari